430 likes | 559 Views
Section 6.2 Tests of Significance 顯著性檢定. 例題 6.7 :自由球射手. 某人宣稱自由球命中率有 80% 。 實地投射結果顯示投 20 球中 8 球。 命中率有 80% 的射手,實地投射只有 8/20 命中率的機會不大。 結論:命中率有 80% 不可信。 命中率有 80% 自由球射手投 20 球命中的次數應服從二項分配 B(20, 0.8) 。 命中的次數小於或等於的 8 機率約為 0.0001 。 即重覆實地投射 20 球 10,000 次只中 8 球以下的情形約只發生一次。. 顯著性檢定的理論基礎.
E N D
例題6.7:自由球射手 • 某人宣稱自由球命中率有80%。 • 實地投射結果顯示投20球中8球。 • 命中率有80%的射手,實地投射只有8/20命中率的機會不大。 • 結論:命中率有80%不可信。 • 命中率有80%自由球射手投20球命中的次數應服從二項分配 B(20, 0.8)。 • 命中的次數小於或等於的 8 機率約為 0.0001。 • 即重覆實地投射20球10,000次只中8球以下的情形約只發生一次。
顯著性檢定的理論基礎 • 假設宣稱的敘述為真(命中率有80%) ,可得實驗結果發生的可能性很低,則該實驗結果的發生(實地投射20球中8球),即為宣稱的敘述不真的好證據。 • “Prove by Contradiction”
例題6.8:可樂甜度檢定 • 可樂公司以實地品嚐的方式,檢驗健怡可樂甜度的衰減。 • 由受過訓練的品嚐員,在比較過標準甜度飲料之後,對新鮮的健怡可樂的甜度給予 1~10的分數。 • 將健怡可樂以高溫儲存一個月後(相當於室溫儲存四個月),再對健怡可樂的甜度評分數。
例題6.8:可樂甜度檢定 (續) • 10位品嚐員對儲存前、後健怡可樂甜度評分差資料如下: • 2.0 0.4 0.7 2.0 -0.4 2.2 -1.3 1.2 1.1 2.3 • 大部分資料為正,顯示的甜度衰減,但衰減量不大。 • 該實驗結果(的發生),是否為“健怡可樂儲存後甜度會衰減” 的證據? • 宣稱的敘述應為“健怡可樂儲存後甜度不變”。
可樂甜度實例檢定推論 • 假設品嚐員對甜度衰減評分(指二次甜度評分之差) X服從常態均值為 m且其標準差為 s = 1。 • 令十位品嚐員對甜度衰減評分平均值為 ,若 “健怡可樂儲存後甜度不變” 即m = 0,則
甜度衰減評分平均數的分配圖形 在m = 0 時, 的樣本分配 m = 0
可樂甜度檢定推論 • 在 m = 0下, • 觀察結果10位品嚐員對健怡可樂甜度衰減評分樣本平均值為 • 落在該分配較不會發生的區域(如下圖)。 • 該資料的發生(衰減評分平均值為1.02),即為“健怡可樂儲存後甜度不變”敘述不真的好證據。
甜度衰減評分平均數的分配圖形 在m = 0 時, 的樣本分配 m = 0
顯著性檢定的詞彙 • 檢定假說 (Testing Hypotheses): • 虛無假說 (Null Hypothesis) 及 • 對立假說(Alternative Hypothesis) • 單邊 (one-sided) 或 雙邊 (two-sided) • p-值(p-value) • 檢定統計量(Test Statistic) • 統計顯著性(Statistical Significance)
檢定假說-虛無假說 • 虛無假說(null hypothesis):統計檢定中被用來檢定的敘述,通常記為H0 • 檢定一般設計為掌握反對虛無假說的證據強度 • 虛無假說 H0常用“無效果”或“無差異”表達 • “健怡可樂儲存後甜度不變”,即 H0:m = 0
檢定假說-對立假說 • 對立假說(alternative hypothesis):檢定中與虛無假說對立的敘述,通常記為Ha 或H1 。 • 對立假說多為欲尋找證據支持的假說 • 單邊檢定: • Ha:m > 0 表 “健怡可樂儲存後甜度衰減” • Ha:m < 0 表 “健怡可樂儲存後甜度增加” • 雙邊檢定: • 如 Ha:m 0 表 “健怡可樂儲存後甜度改變”
P-值(P-value) • 在虛無假說為真的假設下,觀察結果不太可能(unlikely),即證據傾向反對虛無假說而贊同對立假說。 • 我們透過計算一個機率來量化“不太可能”的證據。 • 定義:在虛無假說為真的假設下,觀察結果(隨機變數)會超過(含)實際觀察值的機率,稱為 P-值。
例題6.9:P-值的計算實例 • 在例6.8中,健怡可樂甜度的衰減平均值 超過(含)實際觀察值的機率即為p-值。 • 若實際觀察值為 ,則 P-值為0.1711, 即衰減平均值超過 的機會有17% 之多,表示在“健怡可樂儲存後甜度不變”的假設下,觀察到0.3的機會不小 (17%),因此觀察結果顯示的證據並不足以反對虛無假說 H0:m = 0,即 • 結論為:沒有足夠的證據反對 “健怡可樂儲存後甜度不變” 之假說。
P-值的計算實例圖示 在m = 0 時, 的樣本分配 p-值 = 0.1711 m = 0
例題6.9:P-值的計算實例(續) • 若實際觀察值為 ,則 P-值為0.0006, • 即衰減平均值超過1.02的機會只有0.06%。 • 表示在健怡可樂儲存後甜度不變的假設下,觀察到1.02是極不尋常的,因此觀察結果顯示虛無假說不太可能為真,所以有足夠的證據支持Ha:m > 0,即 • 結論為:有足夠的證據支持“健怡可樂儲存後甜度衰減”之假說。
P-值的計算實例圖示(續) 在m = 0 時, 的樣本分配 p-值 = 0.0006 m = 0
假說的敘述 • 虛無假說為H0:m = 0 時,依實際需要有 • 單邊對立(one-sided alternative)假說 • 如 m > 0 (例6.8) 或 m < 0 (習題6.26) • 雙邊對立(two-sided alternative)假說 • m 0 (例6.10)
例題6.10:工作滿意度研究 • 為研究生產線作業員對機器步調和自主步調環境的工作滿意度是否不同, • 研究者隨機選28作業員,隨機指定各半數作業員在機器步調和自主步調環境工作,二週後做工作診斷調查 (Job Diagnosis Survey, JDS);調換工作環境二週後再做JDS。 • 觀察變數為兩次JDS分數差(自主步調減機器步調)。 • 假設 m 為JDS分數差的平均數,則虛無假說為H0:m = 0,對立假說應為雙邊,即 Ha: m 0 。
檢定統計量與顯著水準 • 統計檢定中用來估計參數及計算p-值的統計量,稱為檢定統計量(test statistic)。 • 用來判定觀察結果是否有足夠的證據支持對立假說Ha的 P-值,稱為顯著水準 (significance level) ,通常以希臘字 a 表示。
例題6.11 以檢定統計量計算P-值 • 例6.8中, P-值即為甜度的衰減平均值 超過(含)實際觀察值的機率。 • 由標準差為 s = 1的常態資料中取得 n = 10的SRS。實際觀察值為 ,檢定假說 H0:m = 0 vs. Ha :m > 0, 因此 P-值為 事件 的機率。
統計顯著性 • 若以資料計算的 p-值小於或等於顯著水準 a,則稱該資料在顯著水準a 之下具有統計顯著性 (statistical significant at level a)。 • If , we say that the data are statistically significant at level a.
母體平均數 m 的檢定步驟 • 敘述檢定假說 • 由未知平均數 m的常態母體,選出一組隨機樣本,樣本數為 n • 欲檢定母體平均數為某特定數 m0,則虛無假說 H0:m = m0 • 選定並計算檢定統計量 • 檢定統計量為樣本平均數 ,樣本值為
母體平均數的檢定步驟(續) • 找出 P-值 • 標準化之檢定統計量 • 又稱為單樣本 z統計量,在 H0 為真之下,服從標準常態。 • 以樣本值 代入得 z值, • 則在對立假說 Ha: m > m0 時,P-值為 P(Z z)
例題6.12 雙邊檢定計算實例 • 假設標準化檢定統計量樣本值為 z = 1.7,則 P-值為 或 的機率。
雙尾檢定計算實例圖示 P-值 = 0.0892 m = 0
單母體平均數 m 的檢定 • 由常態母體(平均數m未知,標準差s 已知)選出一組樣本數為 n之SRS • 欲檢定虛無假說H0:m = m0 • 標準化之檢定統計量樣本值為
單母體均數的檢定(續) • 以 為標準化之檢定統計量, 則對應於對立假說之 P-值為 • Ha:m > m0 之 P-值為 • Ha:m < m0 之 P-值為 • Ha:mm0 之 P-值為
例題6.13 高階主管平均血壓檢定 • 衛生署統計35~44男性血壓平均為128 ,標準差為15。 • 某大公司72位高階主管平均血壓為126.07 ,欲檢定與全國資料是否不同。假設標準差仍為15 。 • 檢定假說H0:m = 128vs.Ha:m 128 • 標準化之樣本值為 • P-值為 • 結論為:沒有足夠的證據宣稱該公司高階主管平均血壓與全國資料不同。
高階主管平均血壓檢定圖示 P-值 = 0.2758 m = 0
例題6.14 數學能力評量的檢定 • NAEP調查顯示 275分或以上代表具有結算支票簿的能力。 • 840位隨機男性的樣本平均數為272分,假設已知標準差s = 60。 • 檢定假說H0:m = 275vs.Ha:m < 275 • 標準化之樣本值為 • p-值為 • 結論為:樣本平均分數低於 272分在100次的調查中約發生7次,勉強可宣稱母體平均數小於275分,但尚未達到0.05的顯著水準。
數學能力評量的檢定圖示 P-值 = 0.0735 m = 0
固定顯著水準檢定 • 以固定顯著水準a來要求拒絕虛無假說所需證據的程度。 • 常用的顯著水準有0.05, 0.01及0.001等。 • 以 P-值檢定時,若 P-值小於顯著水準a則拒絕虛無假說。 • 以固定顯著水準檢定時,則需用臨界值(critical value) 為工具,做為以標準化觀察值,判斷是否拒絕虛無假說的界線。
上 p 臨界值 • 在標準常態曲線圖下,z*右方的面積為 p則稱 z*為上 p臨界值。可查表。 面積為 p m = 0
下 p 臨界值 • 在標準常態曲線圖下,-z*左方的面積為 p則稱 z*為下 p臨界值。可查表。 • 若-z*為下 p臨界值,則z*為上 p臨界值。 面積為 p m = 0
例題6.15 固定顯著水準檢定 • 檢定假說H0:m = 275vs.Ha:m < 275 。顯著水準為0.05時,(下 0.05)臨界值 z*為 -1.645。因為標準化觀察值 z = -1.45較接近 0 (其 P-值必大於 0.05),因此結論為在0.05的顯著水準下,無法拒絕虛無假說。
NAEP調查固定顯著水準圖示 a = 0.05下顯著 a = 0.05下不顯著 面積為 0.05
固定顯著水準檢定法則 • 欲檢定虛無假說H0:m = m0 • 標準化之檢定統計量樣本值為 • 以實際觀察值之標準化檢定統計量為 z,則在顯著水準a 下,(上 a)臨界值為,對應於對立假說之檢定規則如下: • 若 則宣稱 Ha:m > m0。 • 若 則宣稱 Ha:m < m0。 • (上 a/2)臨界值為 ,則 • 若 則宣稱 Ha:mm0。
例題6.16 雙邊固定顯著水準檢定 • 例6.4(續):欲檢定成份是否為0.86% H0:m = 0.86 vs. Ha:m0.86 • 已知標準差s = 0.0086,平均數 • 標準化之 z 值為 • 雙邊檢定顯著水準0.01,則(上 a/2=0.005)臨界值 z* = 2.576。 • ,所以在顯著水準0.01下,拒絕 H0 ,宣稱 m0.86。
雙邊固定顯著水準檢定圖示 a = 0.01下顯著 a = 0.01下顯著 a = 0.01下不顯著 面積為0.005 面積為 0.005
雙邊信賴區間檢定 • 若m 之100(1 - a )%信賴區間不包括 m0,則在顯著水準a 下,雙邊顯著檢定拒絕 H0:m= m0
例題6.17 雙邊信賴區間檢定 • 例6.4(續): m 之99%信賴區間為 • 因m0 = 0.86不在99%信賴區間內,故在顯著水準0.01下,雙邊顯著檢定拒絕 H0:m=0.86 • 因m0 = 0.85在99%信賴區間內,在顯著水準0.01下,雙邊顯著檢定不拒絕 H0:m=0.85
信賴區間檢定圖示 拒絕 H0:m = 0.86 無法拒絕 H0:m = 0.85 0.83 0.84 0.85 0.86