1 / 63

平均值的比較 ( 獨立母體 )

平均值的比較 ( 獨立母體 ). Wen, shu-hui shwen@mail.tcu.edu.tw 99.1.22 at 新店慈濟. Outline. SPSS 視窗作業環境 資料管理與轉換 參數方法 兩個母體 :Two-sample t-test 三個母體 :ANOVA 無母數方法 兩個母體 : Wilcoxon Rank-Sum test 三個母體 : Kruskal-Wallis test. SPSS 視窗作業環境 資料檢視視窗 : save datafile as *.sav. 資料轉換:

clint
Download Presentation

平均值的比較 ( 獨立母體 )

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 平均值的比較(獨立母體) Wen, shu-hui shwen@mail.tcu.edu.tw 99.1.22 at 新店慈濟

  2. Outline • SPSS視窗作業環境 • 資料管理與轉換 • 參數方法 • 兩個母體:Two-sample t-test • 三個母體:ANOVA • 無母數方法 • 兩個母體: Wilcoxon Rank-Sum test • 三個母體: Kruskal-Wallis test

  3. SPSS視窗作業環境資料檢視視窗 : save datafile as *.sav 資料轉換: Computation (+, -, *, / ) Logical expression (if, select if ) 資料管理: recode, count, rank, sort etc. 資料分析: Descriptive statistics (Graph、Summary statistics) Analyze (e.g. Hypothesis testing、regression) 變數檢視視窗: Name (in English), Type, Label, Missing values

  4. 結果輸出視窗 (output file: *.spv) 圖或表可直接 copy, paste 到文書處理軟體(word, excel)

  5. 語法視窗(*.sps) 可編寫SPSS程式指令,可在 功能鑑列(tool bar): file  open  syntax 開啟新的語法視窗,於此撰寫程式 要執行程式只要選取程式碼,按右鍵”run current” 即可執行

  6. 資料的讀取與建立新的資料檔 • Import data • 可讀取眾多外部檔案,e.g. Excel datafile • Then you can save this data as **.sav (the default SPSS file)

  7. 練習讀取外部Excel檔案 FEV.xls 確認檔案路徑後, 開啟正確的工作單 (worksheet) 通常第一列為變數 名稱,請依據此規 則整理資料

  8. Example: FEV data • 一秒最大呼氣量(FEV) • FEV 與抽菸的關係? • Other related factors, e.g. age, gender

  9. 凡是成功讀進資料後即可先儲存為SPSS檔案格式,e.g. FEV.sav (若不需要全部變數則可點選”變數”,將不需存的變數於保留的框框去掉) 往後只要做資料分析時,就可以直接讀進 FEV.sav檔即可 (File open  data 選擇 FEV.sav)

  10. 資料管理 • 若是建立新檔,可以 • 直接在SPSS的資料視窗key in data • 或是在其他資料庫建檔後,再利用SPSS軟體import data的功能,讀取不同資料格式(e.g. *.txt, *.xls ) • 變數名稱建議中英皆可,以英文為佳 • 有些名詞在SPSS有特定用法,不得使用 e.g. all, and, by, eq, ge, gt, le, lt, not, or, with etc.

  11. 定義變數 • 直接到變數檢視畫面, 設定變數之名稱、類型、註解、遺漏值、格式等 • 變數類型(TYPE) • 選擇合適的變數型態。一般常用者為數值型、字串、日期等

  12. 定義變數(2) • 變數註解(label) • 針對分類型變數,需輸入數值所代表之意義 • e.g. 性別 紀錄為0, 1. 其中0為男生、1為女生. • 遺漏值 • 設定遺漏值(missing value), 可輸入遺漏值的範圍或是特定數值即視為missing value • 選定測量尺度 • 有名義、次序及尺度可供選擇

  13. 練習 (分析報表會以新定義好的值呈現) • 定義Id為字串 (字串會靠左排列) • 定義 Sex=0, female; 1 male • 定義Smoke=0, nonsmoker; 1 smoker

  14. 按此展開數值註解視窗 輸入值的意義於此 定義值(value)

  15. 善用help • 利用輔導簡介查詢不熟的指令

  16. 資料轉換 • 常用的幾種功能有 compute, recode, select, split • Compute: 新變數由舊變數透過某些轉換公式得到 , e.g. BMI=weight(kg)/height2(m) • 練習:將身高轉成以 cm為單位 (1 inch=2.54 cm) • 轉換  計算變數

  17. 目標變數填入新變數的名稱,會增加在資料的最後一欄目標變數填入新變數的名稱,會增加在資料的最後一欄 定義新變數: 數值運算式中定義與原變數的關係,下方有函數選項供選擇 SPSS 語法為 COMPUTE height=Hgt * 2.54. EXECUTE.

  18. 資料轉換 (2) 2.重新編碼(recode) 練習: 身高以140, 160來分為矮、中、高三組 height <= 140 newh=1 140 < height <= 160 newh=2 height >=160 newh=3 NOTE: 建議重新編碼時,應設定新變數,盡量保留原始資料。

  19. 練習 (recode) 輸入新變數名稱為 newh 按 舊值與新值 定義 舊值 <=140 新值為 1 依此類推

  20. SPSS recode 語法 RECODE height (Lowest thru 140=1) (140 thru 160=2) (160 thru Highest=3) INTO newh. EXECUTE. 可在變數檢視視窗 定義 newh=1為 short; 2為 normal; 3為 tall (請自行練習)

  21. 資料轉換 (3) 3. 選擇觀察值 • 可設定要選擇之個案的條件 • 身高高於168者 • 或是 性別為男生

  22. 輸入篩選條件,可輸入多個條件篩選個案作分析輸入篩選條件,可輸入多個條件篩選個案作分析

  23. 篩選後,可進行分析

  24. 資料正確性 • Reasonable range (Check for outlier) • For categorical variable, the category belongs to reasonable range. (Gender has only 2 groups) • For continuous symmetric variable, the data point falls in mean  3sd. Or check by box-plot, you can find extreme values. • Missing values • You need to define the code for missing value at the beginning. • Do not set empty cell as 0. • Usually, empty cell is recognized as missing value.

  25. 異常值處理 • Outliers • May result from key in error or measurement error from experiment equipments. • Solutions: 1. Correct the data from the original records. 2. Remove the outlier and do the analysis again. Present two versions of results with/without outliers. • If you can’t judge the real reason for the outlier, just provide 2 versions of analysis with and without the outlier.

  26. 平均數的比較—兩個獨立母體 • 想比較男女生的平均身高(或是FEV值)是否明顯不同? • 資料為獨立性資料,不同個體的身高不會互相影響 • 可利用 獨立樣本 t 檢定 (independent samples t-test) 或稱 two-sample t-test

  27. 平均數的比較—兩個獨立母體 (2) • 想驗證的假設為”兩獨立母體的平均值有差異”,若p-value小於0.05則假設成立 • 有差異(亦即雙尾檢定),若是要驗證男>女,或男<女則屬於單尾檢定 • 以此例而言,我們想驗證男女生的平均身高有差異,因此執行 independent samples t-test • 分析  比較平均數法 獨立樣本 t 檢定 • 會提供 兩組的敘述統計以及檢定結果及平均數差異值之信賴區間

  28. SPSS 操作 T-TEST GROUPS=Sex(0 1) /MISSING=ANALYSIS /VARIABLES=height /CRITERIA=CI(.95).

  29. Output 平均數差了4.6 cm,但是否達統計顯著,須看檢定結果 • t 檢定需假設變異數相等,若顯著性(即p-value)<0.05,表示變異數不相等 • 此時要採取框起的部份(不假設變異數相等那一列)為檢定結果,p-value<0.001,男女身高達統計上顯著 • 2. 男女身高差異的 95% CI為 (-6.79, -2.42),不包含0,顯見男女身高有差異

  30. 有關敘述性統計 SUMMARIZE /TABLES=height BY Sex /FORMAT=NOLIST TOTAL /TITLE='觀察值摘要' /MISSING=VARIABLE /CELLS=COUNT MEAN MEDIAN GMEDIAN MIN MAX STDDEV. 若要更多詳細的敘述性統計量,則可在 分析 報表 觀察值摘要 不需勾選

  31. Output: case summary 會比”Independent samples t-test”功能有更多統計量輸出 可依照自己需要選取統計量

  32. 繪圖

  33. GRAPH /ERRORBAR(CI 95)=height BY Sex.

  34. 或是盒型圖 EXAMINE VARIABLES=height BY Sex /PLOT=BOXPLOT /STATISTICS=NONE /NOTOTAL.

  35. 有關 Independent sample t-test • 其實也可以選擇 “分割點”,e.g. 想比較10歲以下孩童之平均身高與10歲以上孩童之平均身高有無差異,在分組變數改選擇Age,並於分割點輸入10即可。

  36. T-TEST GROUPS=Age(10) /MISSING=ANALYSIS /VARIABLES=height /CRITERIA=CI(.95). 不同年齡層身高有統計上顯著差異,較長者(>=10 yr)高出20.3 cm. (p-value<0.001, 95%CI is (18.73, 21.92)

  37. 平均數的比較—三個獨立母體 • 目的在於比較2個以上母體的平均數,比如說 想以年齡分組(<12、12-15、>15),比較3組人的母體平均 FEV 值有無差異? • 要檢定的假設為 • H0: μ1=μ2=μ3 vs. H1: 至少有一組μi≠μj • 通常依變數為連續變數,而自變數為分類變數(也稱做是因子(factor)) • 分類變數的分類(組)個數,稱為因子的水準(level) • 依據因子的水準是固定的幾類、或是隨機抽出的類別,分別對應固定效果(fixed effect) 模式,以及隨機效果(random effect)模式

  38. 平均數的比較—三個獨立母體 (2) • 須採用變異數分析 (Analysis of variance, ANOVA) • 檢定結果若顯著,表示3組的FEV值至少有一組顯著不同於其他組。 • 下一個要問的問題是,哪幾組的差異是顯著的?? • 須用多重檢定方法(事後檢定又稱 post hoc)找出有差異的是哪幾組

  39. SPSS操作:分析 比較平均數單因子 請先將Age分成三組(令為nage)再進行ANOVA分析 依變數為FEV 因子為nage

  40. ANOVA ONEWAY FEV BY nage /STATISTICS DESCRIPTIVES HOMOGENEITY /PLOT MEANS /MISSING ANALYSIS /POSTHOC=TUKEY LSD BONFERRONI ALPHA(0.05). 通常勾選 描述性統計量 變異數同質性檢定 平均數圖

  41. ANOVA 通常是在ANOVA檢定為顯著後,才需要進行 Post hoc 多重比較。較常使用的有 Fisher LSD, Bonferroni, Tukey等

  42. Output: descriptive statistics 三組人數分別為537, 87, 30人,平均FEV值分別為2.42, 3.51及3.85 標示處通常是在投稿論文中會給的統計量,有的文章甚至會給最小、最大值或中位數

  43. ANOVA table Levene test 主要是要檢定同質性假設,若 p-value>0.05 則同質性假設成立 顯示ANOVA檢定結果可靠 ANOVA檢定結果 p-value<0.001顯示三組的平均FEV值有顯著差異

  44. 平均數圖 vs. 誤差圖 GRAPH /ERRORBAR(CI 95)=FEV BY nage. 平均數圖顯示出三組差異,高中之FEV最大 誤差圖顯示三組的CI差異

  45. 多重比較 其實就是倆倆的平均數比較,總共有 3取2=3 種 e.g. 國小 vs. 國中, p<0.001 國中 vs. 高中, p<0.001 國小 vs. 高中, p=0.076 故只有國中與高中的FEV無統計顯著差異

  46. 多重比較會有偽陽率增加缺點 • 改善方式就是調整兩兩比較之顯著性水準為 0.05/M,分母M為檢定總數 • 以此例而言, M=3.調整顯著性水準為 0.05/3=0.016 語法修正 ONEWAY FEV BY nage /STATISTICS DESCRIPTIVES HOMOGENEITY /PLOT MEANS /MISSING ANALYSIS /POSTHOC=TUKEY LSD BONFERRONI ALPHA(0.016).

  47. 常態性假設 • 其實不管是 2 sample t-test或是 ANOVA都對資料有常態性假設,主因是檢定統計量的理論分配才會成立,也就是檢定結果才可信 • 如果常態性假設不成立時,可改採無母數統計方法,像是 Wilcoxon rank sum test或是Kruskal Wallis test. • 另一解決方案為 轉換資料 e.g. 取 log轉換 可使資料變得較像常態分配而使得t-test與ANOVA方法可行 如果以上方式皆行不通,那就請跟 statistician 聯絡 (預約生統諮詢)。

  48. 如何檢測常態性 • 一般可以使用正規的檢定方式 e.g. K-S test 我們來試試檢驗一下 三組不同年齡層的FEV是否服從常態分配?

  49. 常態性假設 • 只有國小這一組的FEV違反常態性假設…..how to deal with this? • 通常常態性假設不成立,會降低檢定力(power)

More Related