800 likes | 1.79k Views
變異數分析 AN alysis O f VA riance ANOVA. 謝寶煖 台灣大學圖書資訊學系 pnhsieh@ntu.edu.tw. 基本概念. ANOVA 的目的 檢定平均數之間是否有顯著差異 (significant differences) 如果只比較兩組平均數,那麼 ANOVA 的結果和獨立樣本 t 檢定(比較兩個不同群體)或是成對樣本 t 檢定(比較一組觀察值的兩個變數),是一樣的. T 檢定可以用來檢驗兩個獨立樣本的平均數差異是否達到所謂的「顯著水準」。那麼,超過兩個以上的獨立樣本需要比較其間的平均數差異時,該如何進行呢? 兩兩比較
E N D
變異數分析ANalysis Of VArianceANOVA 謝寶煖 台灣大學圖書資訊學系 pnhsieh@ntu.edu.tw
基本概念 • ANOVA的目的 • 檢定平均數之間是否有顯著差異(significant differences) • 如果只比較兩組平均數,那麼ANOVA的結果和獨立樣本 t檢定(比較兩個不同群體)或是成對樣本t檢定(比較一組觀察值的兩個變數),是一樣的
T檢定可以用來檢驗兩個獨立樣本的平均數差異是否達到所謂的「顯著水準」。那麼,超過兩個以上的獨立樣本需要比較其間的平均數差異時,該如何進行呢?T檢定可以用來檢驗兩個獨立樣本的平均數差異是否達到所謂的「顯著水準」。那麼,超過兩個以上的獨立樣本需要比較其間的平均數差異時,該如何進行呢? • 兩兩比較 • 1923年R.A. Fisher創用了變異數分析(analysis of variance, ANOVA)來檢驗兩個以上獨立樣本的平均數間的差異情形是達到預設的顯著水準 • 是社會科學研究最常用的統計分析方法之一
您是怎麼泡茶的? 牛奶加進茶裏? 茶加進牛奶裏?
淑女與下午茶 • 「把茶倒進牛奶中」和「把牛奶倒進茶中」,喝起來是不一樣的?! • 1920年代40歲的小鬍子Sir Ronald A. Fisher, (1890-1962,英國統計學家)的實驗 • The Design of Experiments, 1935 • 變異數分析(analysis of vairance)是在費雪的<作物收成變化研究II>論文(1942)中首次出現 • 3種不同的人工肥料 • 10種馬鈴薯 • 4塊土地/土壤 • <作物收成變化研究IV>共變分析(analysis of covariance)
為什麼叫ANOVA • 明明是比較平均數的統計程序,為什麼要取名變異數分析(analysis of variance) • 因為,事實上檢定平均數的統計顯著性時,我們真正比較(或分析)的是變異數( variances )
變異數的拆解 • 同時處理多個平均數的比較時,主要原理是將全體樣本在依變項的得分的變異情形,就「源自於自變項影響的變異」和「源自於誤差的變異」兩個部份分別計算。 • 也就是把總變異量拆解成自變項效果(組間效果)和誤差效果,兩個部份,再加以比較。
MAIN EFFECT Group 1 Group 2 Observation 1Observation 2Observation 3 SS df MS 231 F 675 p EffectError 24.04.0 14 24.01.0 24.0 .008 MeanSums of Squares (SS) 22 62 Overall MeanTotal Sums of Squares 428 (2-2)2+ (3-2)2+ (1-2)2=2 (2-4)2+ (3-4)2+ (1-4)2+ (6-4)2+ (7-4)2+ (5-4)2=28 total SS (28)可以分成兩部份 一為組內變異(within-group variability) (2+2=4) 二為平均數不同所造成的變異 (28-(2+2)=24).
SS Error and SS Effect • the within-group variability (SS) is usually referred to as Error variance. This term denotes the fact that we cannot readily explain or account for it in the current design. • the SS Effect we can explain. Namely, it is due to the differences in means between the groups. Put another way, group membership explains this variability because we know that it is due to the differences in means.
ANOVA • comparison of the variance • between- groups variability (called Mean Square Effect, or MSeffect) • within- group variability (called Mean Square Error, or Mserror) • the null hypothesis:that there are no mean differences between groups in the population • compare those two estimates of variance via the F test, which tests whether the ratio of the two variance estimates is significantly greater than 1.
T test vs. anova • total variance • error (within-group) variability • variability due to experimental group membership • variability due to gender • T test: experiment or gender • Anova: experiment x gender • interaction
Main effects, two-way interaction • challenging tests make students work harder? • achievement-oriented students work harder than achievement- avoiders? • challenging tests make only achievement-oriented students work harder, while easy tests make only achievement- avoiders work harder Main Effects Interaction Effects
檢定平均數間之差異顯著性 • 因自變項(類別變項)和水準(level)的多寡,而有不同型式之平均數檢定 • 所謂「因子」指的是自變項 • 因子內含的可能數值稱為水準(level) • 例如:「性別」是一個因子,有2個level,1代表男生,2代表女生 • 又如:「考試區域」為一個因子,有4個level,北區、中區、南區、東區
變異數分析家族 • 自變項的多寡(因子數) • 如果研究者所關的是一個自變項(類別變項)對依變項平均數的影響時,所進行的是單因子變異數分析,不管該因子的內含水準有多少個,仍舊稱為單因子變異數分析(one way ANOVA) • 如果研究者同時考慮兩個自變項(類別變項),檢定平均數的差異,則稱為二因子變異數分析(two way ANOVA) • 如果研究者同時考慮多個自變項(類別變項),同時檢定多個平均數的差異,則稱為多因子變異數分析(factorial analysis of ANOVA)
變異數分析家族 • 樣本設計 • 獨立樣本 • 相依樣本
共變分析 ANCOVA • Analysis of Covariance • 研究者控制某一個連續變項,去除第三變項的混淆效果,以了解自變項對特定連續變項的效果 • 同樣考慮 • 自變項多寡(類別變項) • 單因子 • 多因子 • 樣本設計 • 獨立 • 相依
多變量變異數分析,MANOVA • Multivariate analysis of variance • 依變項數目增加時 • 一個自變項(類別變項),單因子多變量分析 • 多個自變項(類別變項),多因子多變量分析
多變項共變分析 MANCOVA • Multivariate Analysis of Covariance
單因子變異數分析 • 檢定數個獨立群體之平均數是否相等的統計方法 • 單因子變異數分析(one-way ANOVA),是指只有一個自變項的變異數分析。 • 例如:利用web、email、DM三種廣告方法分析進行新產品的促銷,而分析三種廣告方法的差異(response rate) • 廣告方法:自變項,操縱因素
例:甜甜圈在調理過程中,使用不同的食用油,是否會使甜甜圈吸收不等量的油脂?例:甜甜圈在調理過程中,使用不同的食用油,是否會使甜甜圈吸收不等量的油脂? • 食用油:花生油、葵花油、豬油(類別) • 不飽和脂肪(花生油、葵花油) • 飽和脂肪(豬油) • 油脂吸收量(連續) • 例2:不同學域的學生對資訊素養目標之看法(Q10) • 學域:人文、社會、自然、工程、醫學(5 level 類別) • 資訊素養目標(量尺 連續)
單因子變異數分析 • 變異數分析所檢驗的虛無假設是:所有樣本所來自之母群體之平均數都相等。 • 虛無假設: H0:1=2=3=……=k • 對立假設: 1、2 、 3 、 …… 、 k至少有一個不等 • 拒絕虛無假設,則表示對立假設可以成立,換句話說,至少有一個平均數是和其他平均數有顯著差異。至於顯著差異狀況到底存在於那些平均數之間,這是變異數分析完成之後,需要進一步進行事後追蹤的。
組間變異 vs. 組內變異 • 變異數分析的根據是將實驗處理中所獲得的資料的變異狀況,分為兩個來源 • 組間的變化 • Variance between/among groups的 • 組間變異數:組與組之間有系統差異,是可以用實驗處理效果來解釋的 • Web組與DM組對廣告效果的影響 • 組內的變化 • Variance within groups • 組內變異數:是個體之間的隨機差異,是與實驗處理無關的,而且事實上一定會存在的,即使完全沒有做任何實驗處理,隨機取樣所得到的組內單位個體之間仍然會有差異存在。 • 樣本組間變異數愈大大(相對於組內變異數),拒絕虛無假設的機率也愈高。所以變異數分析是利用樣本組間與組內的變異數的比值來做為拒絕虛無假設與否的根據。
Xij= +j+ij • 每個觀察值Xij可分成3個來源 • Xij:在第j組內的第I個人的資料數值 • :所有觀察值Xij的總平均,代表共同擁有的部份 • j:是Xij所在j組的平均數與全體平均數之差異部份,即j= j- ,代表組與全體之間的平均數之差異量,一般通稱為特殊效果(special effect)或是實驗處理效果( treatment effect),凡在該組內的個體都有接受到此項效果。但是,並不是所有接受到該組特殊效果的個體所得到的觀察值都完全相同,在同一組內的個體仍有實驗處理效果所無法完全解釋的個別差異因素存在,即為第3部分:
ij:該組內的隨機個別差異,亦即Xij異於j的部份,即ij= Xij- j • 因此, Xij的總變異來源可以分割為兩部份: • 各組平均數與總平均數之間的變異組內隨機差異的變異
單因子ANOVA的類型 • 獨立樣本 • 相依樣本 • 統計檢定時需考慮是否為平衡設計 • 平衡設計:各組觀察值均相等 • 例:web、email、DM各找100位受試者
ANOVA的假設 • 在線性模式中的ij為常態分配 • 殘差(residual )分配 • 可用下列方式判斷殘差值是否為一常態分配中所得之樣本 • 將殘差值歸類,使用2適合度檢定 • SAS PROC Univariate之plot和normal兩個選項 • 各組之ij所來自之母群體中變異數均相等 • 變異數同質性檢定
輕微至中等程度地違反常態分配假設並無顯著影響,但會影響統計檢定力。輕微至中等程度地違反常態分配假設並無顯著影響,但會影響統計檢定力。 • 在平衡設計中,變異數不同,也不會顯著影響統計推論 • 若樣本數目有顯著差別時,違反變異數同質性的檢定,對實驗處理結果會有重大的影響
單因子變異數分析 • 程序1 • 分析 比較平均數法單因子變異數分析(one-way ANOV) • 單因子變異數分析 • 程序2 • 分析一般線性模式單變量 • 單因子變異數分析 +多因子變數分析、迴歸分析、共變量分析
上述ANOVA表顯示,檢定組別平均數之p-value=.435,因此在=.05下不拒絕(接受)虛無假設,表示使用者的身份對網站設計的評估的平均數並無顯著差異。上述ANOVA表顯示,檢定組別平均數之p-value=.435,因此在=.05下不拒絕(接受)虛無假設,表示使用者的身份對網站設計的評估的平均數並無顯著差異。 上述ANOVA表顯示,檢定組別平均數之p-value=.435,因此在顯著水準為.05的情形下,顯著性為.435>.05,故不拒絕虛無假設,表示使用者的身份對網站設計評估的並無顯著差異。
學院 vs. 利用圖書館網站頻率 • 分析比較平均數單因子變數分析