490 likes | 644 Views
第十七章. 資料分析:差異性假設檢定. 「縱使某一品牌的使用者和非使用者在很多方 面都很相似,但對於這兩群進行品牌態度的統計比 較,仍極具意義。」 Jennifer Garevey, Director, Marketing Services, Verizon Information Services, Dallas-Ft. Worth, TX. 章前提問. 1. 在差異性假設檢定中, t 分配扮演何種角色? 2. 如何進行單一樣本的假設檢定? 3. 當具有兩獨立樣本而非單一樣本時,假設檢定有何不同?當測試的是比率而非平均數時,假設檢定的程序又有何不同?
E N D
第十七章 資料分析:差異性假設檢定 「縱使某一品牌的使用者和非使用者在很多方 面都很相似,但對於這兩群進行品牌態度的統計比 較,仍極具意義。」 Jennifer Garevey, Director, Marketing Services, Verizon Information Services, Dallas-Ft. Worth, TX
章前提問 1. 在差異性假設檢定中,t 分配扮演何種角色? 2. 如何進行單一樣本的假設檢定? 3. 當具有兩獨立樣本而非單一樣本時,假設檢定有何不同?當測試的是比率而非平均數時,假設檢定的程序又有何不同? 4. 成對樣本要如何進行假設檢定? 5. 具有兩群以上的樣本時,要如何進行變異數分析的假設檢定程序?
圖17.1 差異性假設檢定與先前章節、行銷研究過程的關係
差異性假設檢定 • 針對兩個變數間的差異所做的假設檢定 • 參數檢定 - 以至少一個區間尺度來測量所關注的變數 • t檢定 • 單一樣本平均數 • 雙樣本平均數 (樣本可以各自獨立或成對)
t 分配 • t 統計 -假設變數是常態分配,且已知平均數,可從樣本估計母體變異數 - 假設隨機變數X 是常態分配,具有平均數 和未知的母體變異數 s2(可由樣本變異數 s 2估計而得 - t分配 具有自由度 n-1 • t 分配 - 與常態分配很相似,兩者都是鐘形且對稱,隨著自由度的增加,t分配會愈像常態分配
根據t 統計進行假設檢定 1. 建立虛無(H0)和對立(H1)假設。 2. 就 t統計選擇適當的公式。 3. 選擇顯著性水準a來檢定H0,通常選0.05。 4. 取得單一或雙樣本,計算每組樣本的平均數和標準差。假設H0為真,計算 t統計值和自由度 5. 利用附錄中的統計表4,估計取得更極端統計量的機率,並計算t 統計值的臨界值
6-7. 比較步驟5所算出的機率和步驟3所選擇的顯著性水準,若機率小於顯著水準,則拒絕H0,否則則不拒絕H0(亦可比較步驟4所計算的t值和步驟5決定的臨界值,若t大於臨界值,則拒絕H0,否則則不拒絕H0)。無法拒絕H0並不代表H0必為真 8. 從行銷研究問題的角度來呈現t 檢定的結果
單一樣本t檢定 H0: < 7.0 H1: > 7.0
檢定單一平均數假設的 t檢定量自由度為 n-1,在此範例中,n-1=20-1=19。藉由附錄統計表4,我們可以得到比2.514更極端的值的機率小於0.05(或是自由度19、顯著性水準0.05時的臨界值為1.7191,小於所計算出的2.514),因此拒絕虛無假設,則該配件應該上市
單一樣本z檢定 • 如果母體標準差假定為已知,其值為1.5,而不利用樣本的估計值,則較適合使用 z檢定 = 1.5/4.472 = 0.335 → z = (7.9 – 7.0)/0.335 = 0.9/0.335 = 2.687
從附錄統計表2可知,「得到比 z值2.687更極端的值」的機率小於0.05(或是在單尾檢定和顯著性水準0.05的情況下,臨界 z值為1.645,小於所計算出2.687),因此拒絕虛無假設,可以得到與先前 t檢定相同的結論
2 2 ( n - 1 ) s + ( n -1) s n n 1 1 2 2 2 1 2 å 2 å 2 s = ) ) X - + X - ( ( X X or n + n -2 1 2 i i 1 2 1 2 2 s = = = 1 1 i i n n + 2 - 1 2 兩獨立樣本 - 平均數 • 針對兩獨立樣本平均數的情況,假設會是以下的形式: • 如果這兩群母體有相同的變異,則可利用兩組樣本各自的變異數算出聚合變異:
檢定統計量的標準差可以估計如下: • 適當的 t值計算如下: • 自由度為 (n1+n2-2)
兩獨立樣本 - F檢定 • 當兩母體是否有相同的變異未知時,可以進行樣本變異數的 F檢定 • 此時的假設如下: H0: 12 = 22 H1: 1222
n1 =樣本1的大小 n2 =樣本2的大小 n1-1 =樣本1的自由度 n2-1 =樣本2的自由度 s12 =樣本1的樣本變數 s22 =樣本2的樣本變數
圖17.5 計算檢定統計量的臨界值:雙尾和單尾檢定的TSCR
兩獨立樣本 - 比率 • 表17.4為顯示比率的兩獨立樣本,蒐集美國和香港是否穿牛仔褲的比率。在美國和香港的樣本中,有穿牛仔褲的人的比率是否相同?虛無和對立假設為: • 單一樣本的比率使用 z檢定來測試
在統計檢定量時,分子為雙樣本比率(P1和P2)之間的差異,分母是兩比率差異的標準差為:在統計檢定量時,分子為雙樣本比率(P1和P2)之間的差異,分母是兩比率差異的標準差為:
選擇顯著水準=0.05,利用表17.4的資料,檢定統計量計算如下:選擇顯著水準=0.05,利用表17.4的資料,檢定統計量計算如下: = 0.8 -0.6 = 0.2 P = (200 x 0.8+200 x 0.6)/(200+200) = 0.7 = = 0.04583 Z = 0.2/0.04583 = 4.36
基於雙尾檢定,臨界值右邊的區域為0.025,檢定統計量的臨界值為1.96,因為計算出的數值超過臨界值,所以拒絕虛無假設,因此,有穿牛仔褲的比率(美國為0.80、香港為0.60)在兩組樣本中達到顯著差異
成對樣本 • 成對樣本 - 在假設檢定中,其觀察數值是成對的,亦即兩組觀察數值都是與同一群受訪者有關
成對樣本t 檢定 • 檢定成對樣本平均數的差異 • 建立成對差異變數(D),再計算其平均數和變異數,然後即可算出 t值。自由度為n-1,n代表成對的數目
利用表17.1的資料,成對樣本 t檢定可用來判斷樣本1的受訪者在參觀前、後的偏好是否有差異
多於雙樣本時的假設檢定 • 變異數分析 - 檢定兩群或多群母體平均數間差異的統計 技術 - 虛無假設為所有的平均數都相等 • 因變數和自變數 - 必須有一個連續型(以區間或比率尺度測量)因變數和一個以上的自變數,自變數必須是類別型變數(非連續) • 單因子變異數分析 - 只有單一因素的變異數分析技術
因素 - 類別自變數;使用變異數分析時,自變數必須屬於類別型(非連續) • 組 - 在變異數分析時,一種因素水準或類別的特殊結合
總變異的解構 • SSy - Y的總變異 • SSbetween - 也可表示為 SSx,Y變異中與X各類別間,平 均 數變異相關的部分,可代表X類別間的變異,或是Y與X相關的平方加總的一部分 • SSwithin - 也可寫成SSerror,Y變異中與X各類別內變異相關的部分,無法由X解釋。
效果的測量 • eta2 (η2) - X對Y的影響強度由eta2來測量,其值介於0到1之間
檢定顯著性 • 虛無假設 • Y的母體變異 = SSx/(c - 1) = 基於 X 的平均數平方 = MSx 或 = SSerror/(N - c) = 基於誤差的平均數平方 = MSerror
總效果顯著性:F檢定 • 自由度為(c-1)和(N-c)
單因子變異數分析的教學範例 • 假設一間超級市場想判斷店內廣告(X)對銷售(Y)的效果 • 虛無假設為類別平均數相等: H0: µ1 = µ2 = µ3
各平均數和平方加總計算如下: 類別平均數:45/5 25/5 20/5 = 9 = 5 = 4 總體平均數:(45 + 25 + 20)/15 = 6 SSy = (10 – 6)2 + (9 – 6) 2 + (10 – 6) 2 + (8 – 6) 2 + (8 – 6) 2 + (6 – 6) 2 + (4 – 6) 2 + (7 – 6) 2 + (3 – 6) 2 + (5 – 6) 2 + (5 – 6) 2 + (6 – 6) 2 + (5 – 6) 2 + (2 – 6) 2 + (2 – 6) 2 = 98
SSx = 5(9 – 6) 2 + 5(5 – 6) 2 + 5(4 – 6) 2 = 45 + 5 + 20 = 70 SSerror = (10 – 9) 2 + (9 – 9) 2 + (10 – 9) 2 + (8 – 9) 2 + (8 – 9) 2 + (6 – 5) 2 + (4 – 5) 2 + (7 – 5) 2 + (3 – 5) 2 + (5 – 5) 2 + (5 – 4) 2 + (6 – 4) 2 + (5 – 4) 2 + (2 – 4) 2 + (2 – 4) 2 = 28
可以驗證 • 如下:
X對 Y影響的強度測量如下: • 虛無假設檢定如下:
從附錄統計表5得知,當自由度為2和12,α=0.05時,F的臨界值為3.89,因為算出的 F值大於臨界值,所以拒絕虛無假設,亦即三種等級店內廣告的母體平均數確實是不同的:三個類別的平均數相對大小指出,店內廣告等級高時會導致顯著較高的銷售。