630 likes | 991 Views
平均值的比較 ( 獨立母體 ). Wen, shu-hui shwen@mail.tcu.edu.tw 99.1.22 at 新店慈濟. Outline. SPSS 視窗作業環境 資料管理與轉換 參數方法 兩個母體 :Two-sample t-test 三個母體 :ANOVA 無母數方法 兩個母體 : Wilcoxon Rank-Sum test 三個母體 : Kruskal-Wallis test. SPSS 視窗作業環境 資料檢視視窗 : save datafile as *.sav. 資料轉換:
E N D
平均值的比較(獨立母體) Wen, shu-hui shwen@mail.tcu.edu.tw 99.1.22 at 新店慈濟
Outline • SPSS視窗作業環境 • 資料管理與轉換 • 參數方法 • 兩個母體:Two-sample t-test • 三個母體:ANOVA • 無母數方法 • 兩個母體: Wilcoxon Rank-Sum test • 三個母體: Kruskal-Wallis test
SPSS視窗作業環境資料檢視視窗 : save datafile as *.sav 資料轉換: Computation (+, -, *, / ) Logical expression (if, select if ) 資料管理: recode, count, rank, sort etc. 資料分析: Descriptive statistics (Graph、Summary statistics) Analyze (e.g. Hypothesis testing、regression) 變數檢視視窗: Name (in English), Type, Label, Missing values
結果輸出視窗 (output file: *.spv) 圖或表可直接 copy, paste 到文書處理軟體(word, excel)
語法視窗(*.sps) 可編寫SPSS程式指令,可在 功能鑑列(tool bar): file open syntax 開啟新的語法視窗,於此撰寫程式 要執行程式只要選取程式碼,按右鍵”run current” 即可執行
資料的讀取與建立新的資料檔 • Import data • 可讀取眾多外部檔案,e.g. Excel datafile • Then you can save this data as **.sav (the default SPSS file)
練習讀取外部Excel檔案 FEV.xls 確認檔案路徑後, 開啟正確的工作單 (worksheet) 通常第一列為變數 名稱,請依據此規 則整理資料
Example: FEV data • 一秒最大呼氣量(FEV) • FEV 與抽菸的關係? • Other related factors, e.g. age, gender
凡是成功讀進資料後即可先儲存為SPSS檔案格式,e.g. FEV.sav (若不需要全部變數則可點選”變數”,將不需存的變數於保留的框框去掉) 往後只要做資料分析時,就可以直接讀進 FEV.sav檔即可 (File open data 選擇 FEV.sav)
資料管理 • 若是建立新檔,可以 • 直接在SPSS的資料視窗key in data • 或是在其他資料庫建檔後,再利用SPSS軟體import data的功能,讀取不同資料格式(e.g. *.txt, *.xls ) • 變數名稱建議中英皆可,以英文為佳 • 有些名詞在SPSS有特定用法,不得使用 e.g. all, and, by, eq, ge, gt, le, lt, not, or, with etc.
定義變數 • 直接到變數檢視畫面, 設定變數之名稱、類型、註解、遺漏值、格式等 • 變數類型(TYPE) • 選擇合適的變數型態。一般常用者為數值型、字串、日期等
定義變數(2) • 變數註解(label) • 針對分類型變數,需輸入數值所代表之意義 • e.g. 性別 紀錄為0, 1. 其中0為男生、1為女生. • 遺漏值 • 設定遺漏值(missing value), 可輸入遺漏值的範圍或是特定數值即視為missing value • 選定測量尺度 • 有名義、次序及尺度可供選擇
練習 (分析報表會以新定義好的值呈現) • 定義Id為字串 (字串會靠左排列) • 定義 Sex=0, female; 1 male • 定義Smoke=0, nonsmoker; 1 smoker
按此展開數值註解視窗 輸入值的意義於此 定義值(value)
善用help • 利用輔導簡介查詢不熟的指令
資料轉換 • 常用的幾種功能有 compute, recode, select, split • Compute: 新變數由舊變數透過某些轉換公式得到 , e.g. BMI=weight(kg)/height2(m) • 練習:將身高轉成以 cm為單位 (1 inch=2.54 cm) • 轉換 計算變數
目標變數填入新變數的名稱,會增加在資料的最後一欄目標變數填入新變數的名稱,會增加在資料的最後一欄 定義新變數: 數值運算式中定義與原變數的關係,下方有函數選項供選擇 SPSS 語法為 COMPUTE height=Hgt * 2.54. EXECUTE.
資料轉換 (2) 2.重新編碼(recode) 練習: 身高以140, 160來分為矮、中、高三組 height <= 140 newh=1 140 < height <= 160 newh=2 height >=160 newh=3 NOTE: 建議重新編碼時,應設定新變數,盡量保留原始資料。
練習 (recode) 輸入新變數名稱為 newh 按 舊值與新值 定義 舊值 <=140 新值為 1 依此類推
SPSS recode 語法 RECODE height (Lowest thru 140=1) (140 thru 160=2) (160 thru Highest=3) INTO newh. EXECUTE. 可在變數檢視視窗 定義 newh=1為 short; 2為 normal; 3為 tall (請自行練習)
資料轉換 (3) 3. 選擇觀察值 • 可設定要選擇之個案的條件 • 身高高於168者 • 或是 性別為男生
輸入篩選條件,可輸入多個條件篩選個案作分析輸入篩選條件,可輸入多個條件篩選個案作分析
資料正確性 • Reasonable range (Check for outlier) • For categorical variable, the category belongs to reasonable range. (Gender has only 2 groups) • For continuous symmetric variable, the data point falls in mean 3sd. Or check by box-plot, you can find extreme values. • Missing values • You need to define the code for missing value at the beginning. • Do not set empty cell as 0. • Usually, empty cell is recognized as missing value.
異常值處理 • Outliers • May result from key in error or measurement error from experiment equipments. • Solutions: 1. Correct the data from the original records. 2. Remove the outlier and do the analysis again. Present two versions of results with/without outliers. • If you can’t judge the real reason for the outlier, just provide 2 versions of analysis with and without the outlier.
平均數的比較—兩個獨立母體 • 想比較男女生的平均身高(或是FEV值)是否明顯不同? • 資料為獨立性資料,不同個體的身高不會互相影響 • 可利用 獨立樣本 t 檢定 (independent samples t-test) 或稱 two-sample t-test
平均數的比較—兩個獨立母體 (2) • 想驗證的假設為”兩獨立母體的平均值有差異”,若p-value小於0.05則假設成立 • 有差異(亦即雙尾檢定),若是要驗證男>女,或男<女則屬於單尾檢定 • 以此例而言,我們想驗證男女生的平均身高有差異,因此執行 independent samples t-test • 分析 比較平均數法 獨立樣本 t 檢定 • 會提供 兩組的敘述統計以及檢定結果及平均數差異值之信賴區間
SPSS 操作 T-TEST GROUPS=Sex(0 1) /MISSING=ANALYSIS /VARIABLES=height /CRITERIA=CI(.95).
Output 平均數差了4.6 cm,但是否達統計顯著,須看檢定結果 • t 檢定需假設變異數相等,若顯著性(即p-value)<0.05,表示變異數不相等 • 此時要採取框起的部份(不假設變異數相等那一列)為檢定結果,p-value<0.001,男女身高達統計上顯著 • 2. 男女身高差異的 95% CI為 (-6.79, -2.42),不包含0,顯見男女身高有差異
有關敘述性統計 SUMMARIZE /TABLES=height BY Sex /FORMAT=NOLIST TOTAL /TITLE='觀察值摘要' /MISSING=VARIABLE /CELLS=COUNT MEAN MEDIAN GMEDIAN MIN MAX STDDEV. 若要更多詳細的敘述性統計量,則可在 分析 報表 觀察值摘要 不需勾選
Output: case summary 會比”Independent samples t-test”功能有更多統計量輸出 可依照自己需要選取統計量
或是盒型圖 EXAMINE VARIABLES=height BY Sex /PLOT=BOXPLOT /STATISTICS=NONE /NOTOTAL.
有關 Independent sample t-test • 其實也可以選擇 “分割點”,e.g. 想比較10歲以下孩童之平均身高與10歲以上孩童之平均身高有無差異,在分組變數改選擇Age,並於分割點輸入10即可。
T-TEST GROUPS=Age(10) /MISSING=ANALYSIS /VARIABLES=height /CRITERIA=CI(.95). 不同年齡層身高有統計上顯著差異,較長者(>=10 yr)高出20.3 cm. (p-value<0.001, 95%CI is (18.73, 21.92)
平均數的比較—三個獨立母體 • 目的在於比較2個以上母體的平均數,比如說 想以年齡分組(<12、12-15、>15),比較3組人的母體平均 FEV 值有無差異? • 要檢定的假設為 • H0: μ1=μ2=μ3 vs. H1: 至少有一組μi≠μj • 通常依變數為連續變數,而自變數為分類變數(也稱做是因子(factor)) • 分類變數的分類(組)個數,稱為因子的水準(level) • 依據因子的水準是固定的幾類、或是隨機抽出的類別,分別對應固定效果(fixed effect) 模式,以及隨機效果(random effect)模式
平均數的比較—三個獨立母體 (2) • 須採用變異數分析 (Analysis of variance, ANOVA) • 檢定結果若顯著,表示3組的FEV值至少有一組顯著不同於其他組。 • 下一個要問的問題是,哪幾組的差異是顯著的?? • 須用多重檢定方法(事後檢定又稱 post hoc)找出有差異的是哪幾組
SPSS操作:分析 比較平均數單因子 請先將Age分成三組(令為nage)再進行ANOVA分析 依變數為FEV 因子為nage
ANOVA ONEWAY FEV BY nage /STATISTICS DESCRIPTIVES HOMOGENEITY /PLOT MEANS /MISSING ANALYSIS /POSTHOC=TUKEY LSD BONFERRONI ALPHA(0.05). 通常勾選 描述性統計量 變異數同質性檢定 平均數圖
ANOVA 通常是在ANOVA檢定為顯著後,才需要進行 Post hoc 多重比較。較常使用的有 Fisher LSD, Bonferroni, Tukey等
Output: descriptive statistics 三組人數分別為537, 87, 30人,平均FEV值分別為2.42, 3.51及3.85 標示處通常是在投稿論文中會給的統計量,有的文章甚至會給最小、最大值或中位數
ANOVA table Levene test 主要是要檢定同質性假設,若 p-value>0.05 則同質性假設成立 顯示ANOVA檢定結果可靠 ANOVA檢定結果 p-value<0.001顯示三組的平均FEV值有顯著差異
平均數圖 vs. 誤差圖 GRAPH /ERRORBAR(CI 95)=FEV BY nage. 平均數圖顯示出三組差異,高中之FEV最大 誤差圖顯示三組的CI差異
多重比較 其實就是倆倆的平均數比較,總共有 3取2=3 種 e.g. 國小 vs. 國中, p<0.001 國中 vs. 高中, p<0.001 國小 vs. 高中, p=0.076 故只有國中與高中的FEV無統計顯著差異
多重比較會有偽陽率增加缺點 • 改善方式就是調整兩兩比較之顯著性水準為 0.05/M,分母M為檢定總數 • 以此例而言, M=3.調整顯著性水準為 0.05/3=0.016 語法修正 ONEWAY FEV BY nage /STATISTICS DESCRIPTIVES HOMOGENEITY /PLOT MEANS /MISSING ANALYSIS /POSTHOC=TUKEY LSD BONFERRONI ALPHA(0.016).
常態性假設 • 其實不管是 2 sample t-test或是 ANOVA都對資料有常態性假設,主因是檢定統計量的理論分配才會成立,也就是檢定結果才可信 • 如果常態性假設不成立時,可改採無母數統計方法,像是 Wilcoxon rank sum test或是Kruskal Wallis test. • 另一解決方案為 轉換資料 e.g. 取 log轉換 可使資料變得較像常態分配而使得t-test與ANOVA方法可行 如果以上方式皆行不通,那就請跟 statistician 聯絡 (預約生統諮詢)。
如何檢測常態性 • 一般可以使用正規的檢定方式 e.g. K-S test 我們來試試檢驗一下 三組不同年齡層的FEV是否服從常態分配?
常態性假設 • 只有國小這一組的FEV違反常態性假設…..how to deal with this? • 通常常態性假設不成立,會降低檢定力(power)