720 likes | 887 Views
第 8 章. 區間估計. 前言. 研究者想知道電池的使用壽命,抽樣若干個電池,發現壽命的平均數為 50 小時。母體的平均數會是多少?會是介於哪段區間? 研究者關心初生男嬰體重的變異數,隨機抽樣若干位初生男嬰,得體重的變異數為 40000 公克,母體變異數會介於哪段區間內? 以上這些研究問題,都在探討母體某個參數倒底介於哪段區間內,這就是所謂的區間估計。. 第一節 平均數的區間估計 ( 1 ). 因為抽樣變動的關係,即使再優良的統計量,也無法保證能夠精準的猜中母體參數。 例如進行兩次抽樣調查,這兩次的樣本平均數通常不會相等。因此不如用一段區間來猜測母體平均數。.
E N D
第8章 區間估計
前言 • 研究者想知道電池的使用壽命,抽樣若干個電池,發現壽命的平均數為50小時。母體的平均數會是多少?會是介於哪段區間? • 研究者關心初生男嬰體重的變異數,隨機抽樣若干位初生男嬰,得體重的變異數為40000公克,母體變異數會介於哪段區間內? • 以上這些研究問題,都在探討母體某個參數倒底介於哪段區間內,這就是所謂的區間估計。
第一節 平均數的區間估計(1) • 因為抽樣變動的關係,即使再優良的統計量,也無法保證能夠精準的猜中母體參數。 • 例如進行兩次抽樣調查,這兩次的樣本平均數通常不會相等。因此不如用一段區間來猜測母體平均數。
第一節 平均數的區間估計(2) • 區間的大小可分為90%,95%,99%信賴區間或信賴界線。所謂95%信賴區間,以拿平均數來說,每抽一次樣本,就利用某種公式,算得其95%的信賴區間,如此重複很多次,在這些信賴區間裡,將會有95%包括母體的平均數。 • 在100次中有95次會包含母體平均數,也就有5次沒有包括母體平均數。這稱為顯著水準,就是1減去信賴水準。若以95%信賴水準而言,顯著水準就是5%。通常用a表示顯著水準。
第一節 平均數的區間估計(3) • 區間估計的方法視抽樣方法而定。抽樣分法分為放回法抽樣和不放回法抽樣。放回法抽樣指的是每抽一個樣本,還放回去,再抽下一個樣本。不放回法則一旦抽到就不放回去母體, 因此不會重複抽到。 • 現實上的抽樣調查都是不放回法。如果母體很大,樣本數相對於母體的比率很小,這兩種抽樣方法並無差異。如果母體不大,且樣本數佔母體的比率很大,那麼就要採用不同的區間估計方法。
第一節 平均數的區間估計(4) • 區間估計方法除了因為抽樣方法不同而不同外,也要視母體的變異數是否已知而而定,因此可以分為四種區間估計的情境: • 1. 放回法且母體變異數已知 • 2. 不放回法且母體變異數已知 • 3. 放回法且母體變異數未知 • 4. 不放回法且母體變異數未知
第一節 平均數的區間估計(5) • 放回法抽樣且母體變異數已知 • 從常態分佈的母體中,抽出樣本求其平均數。這個平均數的抽樣分佈會是常態分佈。如果母體不是常態分佈,平均數的抽樣分佈就不是常態分佈。 • 根據中央極限定理:當樣本數趨近於無限大,平均數的抽樣分佈會逼近常態分佈,平均數就是母體的平均數m,變異數是母體變異數除以樣本數:
第一節 平均數的區間估計(6) • 統計量的變異數稱為變異誤(error variance )。變異誤開跟號,稱為標準誤(standard error)。 • 以樣本平均數而言,變異誤為 ,標準誤為 。 • 如果樣本數夠大,就認定樣本平均數的抽樣分佈會接近常態分佈:
第一節 平均數的區間估計(7) • 因此 是標準常態Z分佈,所以 介於-za/2和za/2的機率為1-a:
第一節 平均數的區間估計(8) • m並不是變數,因此m介於某兩個值中間的機率不是1就是0。所以不可以用機率的觀點來解釋上述的公式,而要用:信心(confidence)。 • 從已知變異數s2中採放回抽樣法抽出樣本數n,得樣本平均數 ,母體平均數m的(1-a)100%信賴區間是:
第一節 平均數的區間估計(8) • 從已知變異數s2中採放回抽樣法抽出樣本數n,得樣本平均數 ,母體平均數m的(1-a)100%信賴區間是: • m不是變數,所以要用信心(confidence)來解釋。所謂95%信心指的是如果進行抽樣調查,利用公式(8.3)計算母體平均數95%的信賴區間,重複這個過程非常多次。將會有95%的信賴區間包含m。
第一節 平均數的區間估計(9) • 例子1 • 某廠牌手機電池的待機時數近似常態分佈,變異數為100。現隨機抽取25個電池,檢查其待機時數,得到平均數為50。試求母體平均數的95%信賴區間。 • 作法 • 母體平均數的95%信賴區間為:
第一節 平均數的區間估計(10) • 樣本數過大過小均不當。 • 在(1-a)100%信心,用樣本平均數估計母體平均數的誤差e在 之內。 即 • 在(1-a)100%的信心,若樣本數 • 樣本平均數去估計母體平均數的誤差在e之內。
第一節 平均數的區間估計(11) • 例子2 • 如果希望有95%的信心,利用估計m,誤差不會超過3小時,則需要多大的樣本數? • 作法
第一節 平均數的區間估計(11) • 不放回法抽樣且母體變異數已知 • 有限母體(finite population) • 母體平均數m的(1-a)100%信賴區間是
第一節 平均數的區間估計(12) • 有限母體校正因子 • 通常進行抽樣調查時,母體N都非常的大,且樣本數n相對於母體是非常的小,因此即使用不放回法的抽樣,仍可用公式(8.3)計算信賴區間。
第一節 平均數的區間估計(13) • 例子3 • 某公司想瞭解員工每天上網的時間,該公司員工共50位,抽樣記錄了10位員工,結果發現平均數為60分鐘。已知上網時間近似常態分佈,標準差為20。求母體平均數的90%信賴區間。
第一節 平均數的區間估計(14) • 作法 • 樣本數10佔母體數50的比例高達1/5
第一節 平均數的區間估計(15) • 在(1-a)100%的信心下,用樣本平均數估計母體平均數的誤差 之內。 • 整理後得
第一節 平均數的區間估計(16) • 例子4 • 承上題,如果希望在90%的信心下,誤差不超過5分鐘,則必須抽樣多少人? • 作法 • 如果樣本數為24,在90%的信心下,誤差不超過5分鐘。
第一節 平均數的區間估計(17) • 放回法抽樣且母體變異數未知 • 現實的中通常不知道母體的變異數是多少,只好用樣本變異數來取代。 • 此時,即使母體是常態分佈,樣本平均數的抽樣分佈,也不再是常態分佈,而是自由度n-1的t分佈。
第一節 平均數的區間估計(18) • 變數U和變數Z互為獨立,且U為自由度為n的卡方分佈,Z是標準常態分佈, 就是自由度為n的t分佈。 • 由於 是Z分佈, 為自由度n-1的卡方分佈,則 • 是自由度為n – 1的t分佈。
第一節 平均數的區間估計(19) • 當母體不是常態分佈,只要樣本數夠大,那麼樣本平均數的抽樣分佈也會非常接近t分佈。 • 如果母體既不是常態分佈,且樣本數又少,那麼對母體平均數的估計就變得十分不穩定。
第一節 平均數的區間估計(20) • 令X1,,Xn來自常態分佈,但其變異數未知,則 是自由度為n - 1的t分佈。 • 介於-ta/2和ta/2的機率為1-a。即:
第一節 平均數的區間估計(21) • 母體平均數m的(1-a)100%信賴區間是: • 例子5 • 抽取400位滿6歲整女童,得身高平均數110cm,樣本變異數100,求6歲女童身高的平均數的95%信賴區間。已知6歲女童身高呈常態分佈。
第一節 平均數的區間估計(22) • 不放回法抽樣且母體變異數未知 • 限母體校正因子 • 當採用不放回法,且母體變異數未知的情況下,母體平均數m的(1-a)100%信賴區間是
第一節 平均數的區間估計(23) • 例子6 • 某縣市教育局抽樣調查其縣內30所幼稚園的土地面積,發現平均數為250平方公尺,變異數為1600。求該縣內幼稚園土地面積平均數的90%信賴區間。已知該縣內所有100所幼稚園的土地面積呈常態分佈。
第一節 平均數的區間估計(24) • 作法 • 已知N = 100, n = 30, = 250,s = 40,自由度29的= 1.699,則
第二節 兩平均數差異區間估計 (1) • 男生與女生的智商平均數差異有多大?經過一段時間的實驗教學之後,實驗班和正常組的學業成績的平均數差異多大。在減肥課程訓練之前,量一下體重,經過一段時間的訓練之後,再量體重,兩個體重平均數是否有差異。 • 以上所面臨的問題就是兩個母體平均數的差異。可用兩個樣本的平均數的差異當作兩母體平均數差異的點估計。 • 同樣的,必須理解該點估計(統計量)的抽樣分佈,才能進行區間估計。
第二節 兩平均數差異區間估計 (2) • 母體變異數已知 • 若有兩個獨立的常態分佈母體,其平均數分別為m1和m2,變異數為 和 ,則 • 如果不是常態母體時,基於中央極限定理,只要兩個樣本數均很大,公式亦可成立。
第二節 兩平均數差異區間估計 (3) • 會是標準常態分佈。
第二節 兩平均數差異區間估計 (4) • m1 - m2的(1 - a)100%的信賴區間: • 如果採不放回抽樣,
第二節 兩平均數差異區間估計 (5) • 例子7 • 某研究者想瞭解喝啤酒對注意力的影響,他隨機分派各50人至實驗組和控制組中。實驗組要喝一瓶啤酒,控制組則喝一瓶開水。然後測試他們的注意力,總分0至100分,分數越高表示注意力越好。如果依照過去的經驗,喝啤酒或喝白開水的人的注意力的變異數都是25。現得到實驗組的平均數為55,控制組為58。求實驗組與控制組的平均數差異的95%信賴區間。
第二節 兩平均數差異區間估計 (6) • 作法 • 在此母體數幾近無限大,又由於樣本數(各50)很大,因此基於中央極限定理,得
第二節 兩平均數差異區間估計 (7) • 母體變異數未知:大樣本 • 雖然母體變異數未知,但如果兩個母體是常態分佈,且樣本數n1和n2夠大(如均大於25),仍可用Z分佈。
第二節 兩平均數差異區間估計 (8) • 如果採不放回抽樣,且樣本數佔母體數的比例不小,則需考慮有限母體校正因子:
第二節 兩平均數差異區間估計 (9) • 例子8 • 承例子7,如果喝啤酒或喝白開水的人的注意力的母體變異數都未知,而樣本變異數分別為40和20,求實驗組與控制組的平均數差異的95%信賴區間。 • 作法
第二節 兩平均數差異區間估計 (10) • 母體變異數未知但相等:小樣本 • 當兩母體是常態分佈,樣本數很小,若可以假設兩母體的變異數和雖未知但卻相等,那麼 • 是自由度n1+n2-2的t分佈 • 稱為合併的變異數
第二節 兩平均數差異區間估計(12) • m1 - m2的(1-a)100%的信賴區間就是: • 不放回抽樣且樣本數佔母體數的比例不小
第二節 兩平均數差異區間估計(13) • 例子9 • 在一項關於速讀訓練的實驗中,研究者隨機分派各5位受試者到實驗組(接受速讀訓練課程)和控制組(只接受和速讀無關的一些活動),為期10小時後,測其速讀成績,得實驗組和控制組的樣本平均數分別為70和60,樣本變異數分別為100和50,求實驗組與控制組的平均數差異的95%信賴區間。已知實驗組和控制組的速讀成績均呈常態分佈,且變異數相等。
第二節 兩平均數差異區間估計(14) • 合併的變異數為 • 由於這段區間(-2.63, 22.63)包含了0,因此實驗組的母體平均數有可能等於控制組的平均數。
第二節 兩平均數差異區間估計(15) • 母體變異數未知且不等:小樣本 • 如果常態分佈母體的變異數未知,而且也不相等,當小樣本時, • 並不是t分佈,只是近似t分佈,且自由度為:
第二節 兩平均數差異區間估計(16) • m1 - m2的(1-a)100%的信賴區間: • 不放回抽樣,且樣本數佔母體數的比例不小:
第二節 兩平均數差異區間估計(17) • 例子10 • 承例子9,如果我們懷疑兩常態母體的變異數並不相等,求實驗組與控制組的平均數差異的95%信賴區間。 • 作法
第二節 兩平均數差異區間估計(18) • 如果是大樣本,可以比較不關心兩母體是否為常態分佈,因為可以仰賴中央極限定理。 • 如果是小樣本,兩母體就必須是常態分佈。萬一兩母體不是常態分佈,樣本數又很小,並不適合用此處的區間估計方式,應該改用無母數(non-parametric)統計方式。
第二節 兩平均數差異區間估計(19) • 成對觀測值的平均數差異 • 如果兩個樣本是成對地發生,那麼這兩個樣本必定有關連,而非兩個獨立樣本。這種成對觀測值(又稱相依樣本,paired samples or dependent samples)平均數差異的區間估計和上述兩獨立樣本有所不同。
第二節 兩平均數差異區間估計(20) • 將每一對的數值相減,稱為d1,,dn,這些差異均可視為來自隨機樣本D1,,Dn的值。而這些隨機樣本是從平均數mD = m1 - m2,和變異數 的常態分佈母體抽樣而來。 • 用 取代 , • 是自由度為n-1的t分佈。
第二節 兩平均數差異區間估計(21) • mD的(1-a)100%的信賴區間