930 likes | 1.33k Views
Analysis of Variance 變異數分析 ANOVA. 觀念. 我們將介紹對於兩個以上母體的平均值的比較。 檢定三個或以上的母體平均數是否相等的統計方法,稱為變異數分析。. Analysis of Variance 變異數分析. 觀念. 例如: 比較各省籍 ( 台灣、大陸、客家人 ) 人士在收入及教育年數上的差異。 大學中各年級的同學智商是否有別? 三種不同的教學方法對於學生的成績是否有影響?. Analysis of Variance 變異數分析. 觀念. 在比較多組母體的平均值時,我們通常不採用兩兩比較的方式,主要的原因有二:
E N D
Analysis of Variance 變異數分析ANOVA 觀念 • 我們將介紹對於兩個以上母體的平均值的比較。 • 檢定三個或以上的母體平均數是否相等的統計方法,稱為變異數分析。
Analysis of Variance 變異數分析 觀念 • 例如: • 比較各省籍(台灣、大陸、客家人)人士在收入及教育年數上的差異。 • 大學中各年級的同學智商是否有別? • 三種不同的教學方法對於學生的成績是否有影響?
Analysis of Variance 變異數分析 觀念 • 在比較多組母體的平均值時,我們通常不採用兩兩比較的方式,主要的原因有二: • 一、這種做法太浪費時間,因為比較幾個母體可能產生很多的比較組,例如比較五個母體的平均值差異,如果以兩兩比較的方式,我們必須進行C52=10次的t-test。 • 二、如果每組的顯著水準皆為α,則全體比較的顯著水準會高於α。
Analysis of Variance 變異數分析 觀念 • 假設我們在.05的顯著水準下要檢定下列虛擬假設: • H0: u1=u2=u3 • 如果拆成下列三組虛擬假設: • H0: u1=u2 , H0: u1=u3 , H0: u2=u3 • 每個假設被「接受」的機率為.95,三個假設全部被接受的機率為.953=.857,也就是說當假設為真但被推翻的機率為(1 - 0.857) = 0.143 > 0.05 遠高於顯著水準。
Analysis of Variance 變異數分析 觀念 • 因此我們需要在共同的顯著水準α下,同時考量多個平均值得差異,我們以F分配來進行檢定,稱之為變異數分析(ANOVA,ANalysis Of VAriance) 。
Analysis of Variance 變異數分析 觀念 • The One-Factor ANOVA Model單因子變異數分析 • 設我們從k個母體中得到樣本資料來檢定下列虛擬假設: • H0: u1 = u2 = … = uk。 • H1: 至少有兩個平均值不同。
Analysis of Variance 變異數分析 觀念 • 消費者很想知道哪種車最省油,比較A, B, C三種車款每加崙可以行駛的里數如下:
Analysis of Variance 變異數分析 觀念 三種汽車每單位汽油的里數皆相同 Q:我們所觀察到的樣本平均數差異是否大到足以推翻上面的虛擬假設?
Analysis of Variance 變異數分析 觀念 Q:各組平均值的差異是來自於抽樣誤差還是母體差異?
Analysis of Variance 變異數分析 觀念 例如A車與B車的平均值差異為1.4里,這個差異是否大到我們可以有信心的說u1與u2也有差異? 這個問題決定於x1, x2是否為母體平均值的精確估計值。
Analysis of Variance 變異數分析 觀念 如果標準差很小,則兩個樣本平均值一點點的差距都可能是母體平均值不同的訊號。 同理,如果標準差過大,則即使我們觀察到樣本平均值之間有很大的差距,我們也不太有信心能夠宣稱母體的平均數真的有別
Analysis of Variance 變異數分析 觀念 樣本標準差或變異數測量各個樣本內,各觀察值之間的變異程度。 如果樣本內的變異數很小,則各樣本之間平均數的差距若過大,為母體平均數不同的有力證據 反之,如果樣本內的變異數過大,則即使樣本平均值之間有差異,我們仍然很難下斷論說母體的平均值不同。
Analysis of Variance 變異數分析 觀念 因此檢定各樣本的平均值是否相同的問題涉及比較樣本內的變異(組內差異)及樣本間的變異(組間差異)。所以通常稱之為變異數分析。
樣本內的變異數很小 C B A 18 19 20 21 22 23
樣本內的變異數很大 C B A 15 17 19 21 23 25 27
變異數分析中的幾個專有名詞 • 我們經常設計研究來了解造成某種現象變化的原因,例如我們想要了解為什麼有時候種植西瓜會甜有時候不會甜(甜度變動),這種我們欲了解的變動稱為依變項(dependent variable)、被解釋變項、或反應變項(response variable)。 • 我們懷疑西瓜的甜度與栽種過程中是否施肥有關,將某些西瓜種籽加以施肥處理,其他西瓜保持自然生長,這種造成依變項產生變化的變數稱之為因子(factor)或獨立變項、 自變項(independent variable)。
自變數與依變數 • 在上面的例子中,比較各種汽車的里程數,何者為依變項?何者為獨立變項? • 依變項:每加崙里數 • 自變項:車種
因子水準(Factor level)與處理(Treatment) • 因子水準為某因子(自變數)之特殊形式或不同狀態,例如我們可以將「施肥」細分成三個水準:完全不施肥、施輕肥、施重肥。 • 如果解釋的因子為單一(施肥與否),稱為單因子分析,如果解釋因子在兩個以上(施肥與否+栽種溫度),稱為多因子分析。
因子水準(Factor level)與處理(Treatment) • 在單因子分析中,每一個因素水準皆稱為一種處理(treatment),多因子分析中,因子水準之組合稱為一種處理(施重肥+高溫、無施肥+高溫、施重肥+低溫、無施肥+低溫…等。),稱為多因子分析。
變異數分析的邏輯 • 假設從K個母體中抽取大小分別為n1, n2, n3…nk的K個獨立隨機樣本。我們對母體有下列的假設: • 各母體皆為常態分配,且有共同相同的變異數σ2。 • 以u1, u2, …uk來表示母體的平均數,單因子分析檢證下虛擬假設 • H0: u1=u2…=uk vs. H1: 至少有兩組平均數不同
共有K個母體 μ1, σ1 μ2, σ2 μk, σk xnk,k x21 xn2,2 i代表在樣本中的序號,i = 1,2, …nj x12 x1k x3k x11 xn1,1 x22 x32 x2k x31 Xi j j代表樣本組別,j = 1,2, …k
分別來自k母體的k個樣本 第k組樣本共有nk個觀察值 各組樣本數可以不同,分別為n1, n2,…nk, 總樣本數n= n1+n2+…+nk
變異數的分解 總平均數 任何一部車與總平均的差異稱為總差異:
變異數的分解 總平均數 任何一廠牌與總平均的差異稱為由因子所引起的差異(difference due to factor)
變異數的分解 總平均數 同一廠牌中,任何一部車與該廠牌的平均數之間的差異稱為隨機差異(difference due to error)
變異數的分解 總平均數 總差異 = 由因子所引起的差異 + 隨機差異
變異數的分解 總差異 = 由因子所引起的差異+ 隨機差異 因子的影響 隨機差異的影響 總平均
變異數的分解 兩邊取平方和
Sum of Squares in ANOVA變異數分析中的平方和 • 變異數分析是透過各組樣本內的變異與組間變異之比較來檢證各組平均值是否相等,全體樣本資料的總變異量為: • 即個別觀察值與總平均數差距的平方和,稱為總變異量或總平方和。
Sum of Squares in ANOVA變異數分析中的平方和 • 變異數分析將總變異量分解成下列兩部分: 總變異 =組內變異(或未解釋變異) + 組間變異(或已解釋變異) = Within-group Sum of Squares or Sum of Squares Within (SSW) + Between-Group Sum of Squares or Sum of Squares Between (SSB) Total Sum of Squares (TSS)
Sum of Squares Within組內變異 • 組內各個觀察值之間的差異稱為隨機差異(difference due to random error),為不能被因子所解釋的差異。 • 在各組樣本內的變異,即每一個組內觀察值的誤差平方和: 在樣本組內,由於無法解釋的隨機變異,每一個觀察值xij與該組平均數會有所不同,因此組內的誤差稱為sum of squares due to error(SSE)or error sum of squares (誤差平均和)
Between-Group Sum of Squares組間變異 • 任何一組的平均數與總平均數之間的差異稱為因子引起的差異(difference due to factor) • 組間變異是因為已知為處理(treatment)所造成的,因此稱為已解釋變異或處理平方和(treatment sum of squares):
Sum of Squares Identity • SST = SSB + SSW = 19.6 +3.04 = 22.64
Mean Square Within • 以變異數分析來檢定母體平均數是否相等必須基於下列假設: • Xij are independent and Xij ~ N(uj, σ2) • 變異數齊一性(homoegeneity): 每個小母體的變異數皆相等,σj2=σ2 • 如何估計母體變異數? • ANOVA檢定奠基於用不同的方式來估計未知的共同母體變異數σ2
Mean Square Within • 從第一組樣本的觀察值中我們可以得到一個母體變異數的不偏觀察值(unbiased estimator): 同理
Mean Square Within • 雖然各組樣本的變異數皆為母體變異數的不偏估計式,但是一更佳,更有效率的估計式為充分運用所有的樣本觀察值,即將各組的觀察值集合起來一起得到一個混和估計式:
Mean Square Within • 這個混和估計式等於各組樣本變異數sj2的加權平均數,其加權權數為: 第j組的組內變異
Mean Square Within • 估計式的分子部分等於SSW,即各組組內變異的總和。
Mean Square Within • 我們把上式稱為MSW (Mean Square Within)組內均和,有時稱為Mean Square Error (MSE),其中分母部分為MSW的自由度(degree of freedom)
Mean Square Within 為什麼MSW可以用來估計σ2?證明MSW為σ2的不偏估計式。
Mean Square Between • 另一種估計母體變異數σ2為利用已知的
Mean Square Between • 如果母體為常態分配,則樣本平均數的抽樣分配為: • 為了方便討論,我們假設每一個樣本的樣本數相同,即n1= n2=n3=…=nk。 • 如果虛擬假設為真H0: u1=u2=…= uk,則 會有相同的機率分配。
Mean Square Between 我們可以用由各組平均值所組成的K個觀察值來估計母體的變異數如下: 因為每一個個別樣本皆為獨立樣本,所以我們可以將 視為從 中抽出K個觀察值的隨機樣本
Mean Square Between • 從這個由樣本平均數所組成的樣本所計算出來的樣本變異數 稱為Mean Square Between (MSB)