970 likes | 1.65k Views
Testing Goodness of Fit 適合度檢定. 觀念. The Chi-Sqaure Goodness-of-Fit Test 在前幾章中,我們學會了以卡方分配來檢定母體變異數,也學會了如何檢定母體的比例,或兩母體比例是否有差異。在本節中,我們將介紹對於整組比例分佈的統計檢定,由於本節所檢定的檢定統計量依循卡方分配,因此我們將他們稱為 卡方配適度檢定 。. 卡方檢定的用途. 卡方檢定主要用來檢定類別資料的分佈與關聯,常用的卡方檢定有: 配合(適合)度檢定 (test of goodness of fit) :檢定資料的次數分配是否合乎某種特定的分配。
E N D
Testing Goodness of Fit適合度檢定 觀念 • The Chi-Sqaure Goodness-of-Fit Test • 在前幾章中,我們學會了以卡方分配來檢定母體變異數,也學會了如何檢定母體的比例,或兩母體比例是否有差異。在本節中,我們將介紹對於整組比例分佈的統計檢定,由於本節所檢定的檢定統計量依循卡方分配,因此我們將他們稱為卡方配適度檢定。 社會統計(下)
卡方檢定的用途 • 卡方檢定主要用來檢定類別資料的分佈與關聯,常用的卡方檢定有: • 配合(適合)度檢定(test of goodness of fit):檢定資料的次數分配是否合乎某種特定的分配。 • 獨立性檢定(test of independence):檢定兩類別變數之間是否有關連。 社會統計(下)
The Chi-Sqaure Goodness-of-Fit Test卡方適合度檢定 觀念 • 我們經常想要知道樣本在某些性質上的比例分佈是否與母體相同,例如台南市居民的年齡分佈是否與全台灣的人口年齡分佈相同?民意測驗調查的樣本中,受訪者的教育程度分佈是否能正確反映台灣人口的教育分佈? • H0:母體在某性質上呈現某種比例分配H1:母體不為某種比例分配 社會統計(下)
The Chi-Sqaure Goodness-of-Fit Test卡方適合度檢定 觀念 • 將母體分成K類別,每部份的比例分別為p1, p2, p3…pk。虛擬假設為觀察到的樣本中,各類別的比例是否恰巧為p1, p2, p3…pk。如果我們抽取樣本數為n的樣本,在假設為真的情況下,我們可以先算出樣本在各類別的預期分佈,再與實際上觀察到的樣本分佈來比較,我們用英國統計學家Karl Pearson所發明的chi-square goodness-of-fit來進行統計檢定。 • 配合度檢定是利用樣本資料檢定母體分配是否為某一特定分配或理論分配的統計方法。 社會統計(下)
The Chi-Sqaure Goodness-of-Fit Test卡方適合度檢定 例題 • 美國商業司以收入來將家戶分類。人口統計資料顯示美國的家庭收入有下列的分佈: 社會統計(下)
The Chi-Sqaure Goodness-of-Fit Test卡方適合度檢定 例題 • Joliet市的市長想要知道該市的收入分佈是否與全美國的情況相當: • H0:p1=.2, p2=.3, p3=.4, p4=.1 • H1:H0中至少有一個比例不正確 • 在Joliet市中抽取200戶人家來驗證上述假設,並算出每層級收入中,實際上觀察到的次數分配(observed frequencies)分別為o1, o2, o3, o4。 社會統計(下)
The Chi-Sqaure Goodness-of-Fit Test卡方適合度檢定 例題 • 如果我們的虛擬假設為真,則200戶預期的分佈為: 社會統計(下)
The Chi-Sqaure Goodness-of-Fit Test卡方適合度檢定 例題 • 第i組的期望分配值以ei來表達,如果樣本數為n,則: • ei = npi , i = 1,2,3,…,k • 各組期望分配的加總等於n 社會統計(下)
The Chi-Sqaure Goodness-of-Fit Test卡方適合度檢定 例題 • 將實際上觀察到的次數分配與預期的分配作比較,如果兩個次數十分接近,則虛擬假設為真的機率很大,但如果兩者差距很大,則我們虛擬假設為真的機率不高。 社會統計(下)
The Chi-Sqaure Goodness-of-Fit Test卡方適合度檢定 例題 • 如何知道兩組數字的差距是否夠大? • 為了方便檢驗兩者的差距是否很大,我們以一個簡要的指標來衡量,稱為Chi-square statistics: 社會統計(下)
Chi-Square Test Statistics卡方檢定統計 例題 • 設所有的觀察值剛好完全分佈於k類別中,且每一組的觀察值至少有五個,則Chi-square Goodness-of-Fit Test: 社會統計(下)
Chi-Square Test Statistics卡方檢定統計 例題 • 設所有的觀察值剛好完全分佈於k類別中,且每一組的觀察值至少有五個,則Chi-square Goodness-of-Fit Test: 社會統計(下)
Chi-Square Test Statistics卡方檢定統計 例題 社會統計(下)
Chi-Square Test Statistics卡方檢定統計 Critical value = 11.34 社會統計(下)
Testing Goodness of Fit適合度檢定 • 由上述的討論可知,卡方適合度檢定的步驟為: • (1) 對於母體的分配作了一些假設, • (2) 然後找出在假設為真的前提下,我們預期得到的樣本分配 • (3)比較實際觀察到的分配與預期分配之間是否一致,以此來驗證我們對於母體分配的假設是否合理。 • 我們可以用適合度檢定來檢驗隨機變數X是否具有某種機率分配 社會統計(下)
FBI公佈1995美國暴力犯罪的類型分佈 500件去年犯罪的隨機樣本 請問暴力犯罪型態從1995以來是否已經發生變化? 社會統計(下)
請問暴力犯罪型態從1995以來是否已經發生變化?請問暴力犯罪型態從1995以來是否已經發生變化? H0: last year’s violent-crime distribution is the same as the 1995 distribution H1: last year’s violent-crime distribution is different from the 1995 distribution. 社會統計(下)
如果暴力犯罪的型態分佈沒有改變,則500件隨機樣本的預期期望值如果暴力犯罪的型態分佈沒有改變,則500件隨機樣本的預期期望值 社會統計(下)
Testing Goodness of Fit適合度檢定 Critical value = 7.815 社會統計(下)
Page 647, Procedure 13.1A 社會統計(下)
Page 648, Procedure 13.1B 社會統計(下)
例題 • 一次執四個銅板,共擲160次,此160次中出現正面的情形如下表,試問此硬幣是否對稱? 社會統計(下)
例題 • 列出題目所欲檢驗的假設及方法: • 假設銅板為對稱,擲四次銅板,其機率分配為? 社會統計(下)
The Binomial Distribution二項分配 定義 • 若間斷r.v X的機率分配函數為: • n為完全相同且獨立之試驗的次數。 • 每次試驗只有「成功」「失敗」兩種互斥可能 • p為每次試行成功之機率,失敗的機率為q = 1 – p, 其中 0<p<1。 • 隨機變數X表示n次獨立試驗中成功之次數。 社會統計(下)
Combination組合 R個元素有R!種排列方式 社會統計(下)
The Binomial Distribution二項分配 定義 • 若H0為真,及銅板為對稱,則正面出先次數的機率分配: Binomial distribution, n=4 p=.5 社會統計(下)
The Binomial Distribution二項分配 定義 • 若H0為真,即銅板為對稱,則正面出現次數的機率分配: 社會統計(下)
Testing Whether a Population Has a Normal Distribution with Given Means and Variance • 某研究者正在研究一種廠牌輪胎的平均壽命,在研究的第一階段首先需要驗證該輪胎的磨損公里數是否呈常態分配,其實驗結果如下: • 此一廠牌輪胎的磨損公里數是否常態分配?請以α=.05來檢定 社會統計(下)
檢定常態分配的適合度 • 由次數分配表中可以算出: 用估計量取代未知母數的個數 H0: 輪胎磨損公里數為常態分配H1:輪胎磨損公里數不為常態分配 社會統計(下)
檢定常態分配的適合度 • 修正 社會統計(下)
檢定常態分配的適合度 • 如果假設為真,即母體為常態分配,請問各組的機率為何? 社會統計(下)
檢定常態分配的適合度 • 如果假設為真,及母體為常態分配,請問各組的機率為何? 社會統計(下)
檢定常態分配的適合度 社會統計(下)
二元隨機變數(Bivariate Random Variables) 複習 • 社會中大多數的事件是同時發生或互相關連的: • 如教育程度與薪資 • 人口密度與犯罪率 • 市場中廠商的數目與商品價格 • 二元隨機變數描述兩個隨機變數X與Y共同發生的的數值組合(X,Y),其發生的機率可用聯合機率函數來表達 社會統計(下)
Joint Probability Tables聯合機率表 複習 如果兩個變數都屬於間斷型的類別變數,則可以用聯合機率表來表示其發生的機率 社會統計(下)
Contingency Tables • 聯立表為兩個或兩個以上類別變數所形成的聯合機率表。 • 表中列出各變數所有可能的數值之交叉各格內的觀察次數。 • two-way table • three-way table 社會統計(下)
tests of independence and contingency tables獨立性檢定 • 從母體中抽取樣本數為n的樣本,假設每一個觀察值可用兩個不同的屬性來交叉分類,我們想知道這兩種分類方式是否相關?或者說兩種分類方法是否獨立? • 這種檢定通常以列聯表(contingency table)的方式來進行,故又稱為列聯表檢定。 社會統計(下)
聯立表有三種類型 • 兩個解釋變項之間的關係(身高與體重)。 • 一個解釋變項與一個結果變項之間的因果關係(如是否抽煙與罹患肺癌的關係)。 • 兩個結果變項之間的關係(墮胎的態度與婚前性行為的態度)。 社會統計(下)
tests of independence and contingency tables獨立性檢定 交叉表的閱讀法: 社會統計(下)
tests of independence and contingency tables獨立性檢定 Row percentage 列百分比 社會統計(下)
tests of independence and contingency tables卡方獨立性檢定 Column percentage 行百分比 社會統計(下)
聯合機率函數 複習 • 設X,Y為二元間斷隨機變數,X之值為x1,x2,x3,…xn,Y之值為y1,y2,y3…ym,若f(xi, yj)滿足下列兩條件: • 則f(xi, yj)成為聯合機率函數 社會統計(下)
邊際機率函數 複習 • 設X,Y為二元間斷隨機變數,其機率函數為f(x,y),則X, Y的邊際機率函數分別為fx(xi)與fy(yj) 社會統計(下)
X,Y的聯合機率分配表 複習 社會統計(下)
X,Y的聯合機率分配表 複習 大陸沿海城市居民(n = 2863),15歲以前居住地與換工作次數之聯合機率分配表 社會統計(下)
X,Y的聯合機率分配表 複習 社會統計(下)