1 / 72

第 8 章

第 8 章. 區間估計. 前言. 研究者想知道電池的使用壽命,抽樣若干個電池,發現壽命的平均數為 50 小時。母體的平均數會是多少?會是介於哪段區間? 研究者關心初生男嬰體重的變異數,隨機抽樣若干位初生男嬰,得體重的變異數為 40000 公克,母體變異數會介於哪段區間內? 以上這些研究問題,都在探討母體某個參數倒底介於哪段區間內,這就是所謂的區間估計。. 第一節 平均數的區間估計 ( 1 ). 因為抽樣變動的關係,即使再優良的統計量,也無法保證能夠精準的猜中母體參數。 例如進行兩次抽樣調查,這兩次的樣本平均數通常不會相等。因此不如用一段區間來猜測母體平均數。.

Download Presentation

第 8 章

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 第8章 區間估計

  2. 前言 • 研究者想知道電池的使用壽命,抽樣若干個電池,發現壽命的平均數為50小時。母體的平均數會是多少?會是介於哪段區間? • 研究者關心初生男嬰體重的變異數,隨機抽樣若干位初生男嬰,得體重的變異數為40000公克,母體變異數會介於哪段區間內? • 以上這些研究問題,都在探討母體某個參數倒底介於哪段區間內,這就是所謂的區間估計。

  3. 第一節 平均數的區間估計(1) • 因為抽樣變動的關係,即使再優良的統計量,也無法保證能夠精準的猜中母體參數。 • 例如進行兩次抽樣調查,這兩次的樣本平均數通常不會相等。因此不如用一段區間來猜測母體平均數。

  4. 第一節 平均數的區間估計(2) • 區間的大小可分為90%,95%,99%信賴區間或信賴界線。所謂95%信賴區間,以拿平均數來說,每抽一次樣本,就利用某種公式,算得其95%的信賴區間,如此重複很多次,在這些信賴區間裡,將會有95%包括母體的平均數。 • 在100次中有95次會包含母體平均數,也就有5次沒有包括母體平均數。這稱為顯著水準,就是1減去信賴水準。若以95%信賴水準而言,顯著水準就是5%。通常用a表示顯著水準。

  5. 第一節 平均數的區間估計(3) • 區間估計的方法視抽樣方法而定。抽樣分法分為放回法抽樣和不放回法抽樣。放回法抽樣指的是每抽一個樣本,還放回去,再抽下一個樣本。不放回法則一旦抽到就不放回去母體, 因此不會重複抽到。 • 現實上的抽樣調查都是不放回法。如果母體很大,樣本數相對於母體的比率很小,這兩種抽樣方法並無差異。如果母體不大,且樣本數佔母體的比率很大,那麼就要採用不同的區間估計方法。

  6. 第一節 平均數的區間估計(4) • 區間估計方法除了因為抽樣方法不同而不同外,也要視母體的變異數是否已知而而定,因此可以分為四種區間估計的情境: • 1. 放回法且母體變異數已知 • 2. 不放回法且母體變異數已知 • 3. 放回法且母體變異數未知 • 4. 不放回法且母體變異數未知

  7. 第一節 平均數的區間估計(5) • 放回法抽樣且母體變異數已知 • 從常態分佈的母體中,抽出樣本求其平均數。這個平均數的抽樣分佈會是常態分佈。如果母體不是常態分佈,平均數的抽樣分佈就不是常態分佈。 • 根據中央極限定理:當樣本數趨近於無限大,平均數的抽樣分佈會逼近常態分佈,平均數就是母體的平均數m,變異數是母體變異數除以樣本數:

  8. 第一節 平均數的區間估計(6) • 統計量的變異數稱為變異誤(error variance )。變異誤開跟號,稱為標準誤(standard error)。 • 以樣本平均數而言,變異誤為 ,標準誤為 。 • 如果樣本數夠大,就認定樣本平均數的抽樣分佈會接近常態分佈:

  9. 第一節 平均數的區間估計(7) • 因此 是標準常態Z分佈,所以 介於-za/2和za/2的機率為1-a:

  10. 第一節 平均數的區間估計(8) • m並不是變數,因此m介於某兩個值中間的機率不是1就是0。所以不可以用機率的觀點來解釋上述的公式,而要用:信心(confidence)。 • 從已知變異數s2中採放回抽樣法抽出樣本數n,得樣本平均數 ,母體平均數m的(1-a)100%信賴區間是:

  11. 第一節 平均數的區間估計(8) • 從已知變異數s2中採放回抽樣法抽出樣本數n,得樣本平均數 ,母體平均數m的(1-a)100%信賴區間是: • m不是變數,所以要用信心(confidence)來解釋。所謂95%信心指的是如果進行抽樣調查,利用公式(8.3)計算母體平均數95%的信賴區間,重複這個過程非常多次。將會有95%的信賴區間包含m。

  12. 第一節 平均數的區間估計(9) • 例子1 • 某廠牌手機電池的待機時數近似常態分佈,變異數為100。現隨機抽取25個電池,檢查其待機時數,得到平均數為50。試求母體平均數的95%信賴區間。 • 作法 • 母體平均數的95%信賴區間為:

  13. 第一節 平均數的區間估計(10) • 樣本數過大過小均不當。 • 在(1-a)100%信心,用樣本平均數估計母體平均數的誤差e在 之內。 即 • 在(1-a)100%的信心,若樣本數 • 樣本平均數去估計母體平均數的誤差在e之內。

  14. 第一節 平均數的區間估計(11) • 例子2 • 如果希望有95%的信心,利用估計m,誤差不會超過3小時,則需要多大的樣本數? • 作法

  15. 第一節 平均數的區間估計(11) • 不放回法抽樣且母體變異數已知 • 有限母體(finite population) • 母體平均數m的(1-a)100%信賴區間是

  16. 第一節 平均數的區間估計(12) • 有限母體校正因子 • 通常進行抽樣調查時,母體N都非常的大,且樣本數n相對於母體是非常的小,因此即使用不放回法的抽樣,仍可用公式(8.3)計算信賴區間。

  17. 第一節 平均數的區間估計(13) • 例子3 • 某公司想瞭解員工每天上網的時間,該公司員工共50位,抽樣記錄了10位員工,結果發現平均數為60分鐘。已知上網時間近似常態分佈,標準差為20。求母體平均數的90%信賴區間。

  18. 第一節 平均數的區間估計(14) • 作法 • 樣本數10佔母體數50的比例高達1/5

  19. 第一節 平均數的區間估計(15) • 在(1-a)100%的信心下,用樣本平均數估計母體平均數的誤差 之內。 • 整理後得

  20. 第一節 平均數的區間估計(16) • 例子4 • 承上題,如果希望在90%的信心下,誤差不超過5分鐘,則必須抽樣多少人? • 作法 • 如果樣本數為24,在90%的信心下,誤差不超過5分鐘。

  21. 第一節 平均數的區間估計(17) • 放回法抽樣且母體變異數未知 • 現實的中通常不知道母體的變異數是多少,只好用樣本變異數來取代。 • 此時,即使母體是常態分佈,樣本平均數的抽樣分佈,也不再是常態分佈,而是自由度n-1的t分佈。

  22. 第一節 平均數的區間估計(18) • 變數U和變數Z互為獨立,且U為自由度為n的卡方分佈,Z是標準常態分佈, 就是自由度為n的t分佈。 • 由於 是Z分佈, 為自由度n-1的卡方分佈,則 • 是自由度為n – 1的t分佈。

  23. 第一節 平均數的區間估計(19) • 當母體不是常態分佈,只要樣本數夠大,那麼樣本平均數的抽樣分佈也會非常接近t分佈。 • 如果母體既不是常態分佈,且樣本數又少,那麼對母體平均數的估計就變得十分不穩定。

  24. 第一節 平均數的區間估計(20) • 令X1,,Xn來自常態分佈,但其變異數未知,則 是自由度為n - 1的t分佈。 • 介於-ta/2和ta/2的機率為1-a。即:

  25. 第一節 平均數的區間估計(21) • 母體平均數m的(1-a)100%信賴區間是: • 例子5 • 抽取400位滿6歲整女童,得身高平均數110cm,樣本變異數100,求6歲女童身高的平均數的95%信賴區間。已知6歲女童身高呈常態分佈。

  26. 第一節 平均數的區間估計(22) • 不放回法抽樣且母體變異數未知 • 限母體校正因子 • 當採用不放回法,且母體變異數未知的情況下,母體平均數m的(1-a)100%信賴區間是

  27. 第一節 平均數的區間估計(23) • 例子6 • 某縣市教育局抽樣調查其縣內30所幼稚園的土地面積,發現平均數為250平方公尺,變異數為1600。求該縣內幼稚園土地面積平均數的90%信賴區間。已知該縣內所有100所幼稚園的土地面積呈常態分佈。

  28. 第一節 平均數的區間估計(24) • 作法 • 已知N = 100, n = 30, = 250,s = 40,自由度29的= 1.699,則

  29. 第二節 兩平均數差異區間估計 (1) • 男生與女生的智商平均數差異有多大?經過一段時間的實驗教學之後,實驗班和正常組的學業成績的平均數差異多大。在減肥課程訓練之前,量一下體重,經過一段時間的訓練之後,再量體重,兩個體重平均數是否有差異。 • 以上所面臨的問題就是兩個母體平均數的差異。可用兩個樣本的平均數的差異當作兩母體平均數差異的點估計。 • 同樣的,必須理解該點估計(統計量)的抽樣分佈,才能進行區間估計。

  30. 第二節 兩平均數差異區間估計 (2) • 母體變異數已知 • 若有兩個獨立的常態分佈母體,其平均數分別為m1和m2,變異數為 和 ,則 • 如果不是常態母體時,基於中央極限定理,只要兩個樣本數均很大,公式亦可成立。

  31. 第二節 兩平均數差異區間估計 (3) • 會是標準常態分佈。

  32. 第二節 兩平均數差異區間估計 (4) • m1 - m2的(1 - a)100%的信賴區間: • 如果採不放回抽樣,

  33. 第二節 兩平均數差異區間估計 (5) • 例子7 • 某研究者想瞭解喝啤酒對注意力的影響,他隨機分派各50人至實驗組和控制組中。實驗組要喝一瓶啤酒,控制組則喝一瓶開水。然後測試他們的注意力,總分0至100分,分數越高表示注意力越好。如果依照過去的經驗,喝啤酒或喝白開水的人的注意力的變異數都是25。現得到實驗組的平均數為55,控制組為58。求實驗組與控制組的平均數差異的95%信賴區間。

  34. 第二節 兩平均數差異區間估計 (6) • 作法 • 在此母體數幾近無限大,又由於樣本數(各50)很大,因此基於中央極限定理,得

  35. 第二節 兩平均數差異區間估計 (7) • 母體變異數未知:大樣本 • 雖然母體變異數未知,但如果兩個母體是常態分佈,且樣本數n1和n2夠大(如均大於25),仍可用Z分佈。

  36. 第二節 兩平均數差異區間估計 (8) • 如果採不放回抽樣,且樣本數佔母體數的比例不小,則需考慮有限母體校正因子:

  37. 第二節 兩平均數差異區間估計 (9) • 例子8 • 承例子7,如果喝啤酒或喝白開水的人的注意力的母體變異數都未知,而樣本變異數分別為40和20,求實驗組與控制組的平均數差異的95%信賴區間。 • 作法

  38. 第二節 兩平均數差異區間估計 (10) • 母體變異數未知但相等:小樣本 • 當兩母體是常態分佈,樣本數很小,若可以假設兩母體的變異數和雖未知但卻相等,那麼 • 是自由度n1+n2-2的t分佈 • 稱為合併的變異數

  39. 第二節 兩平均數差異區間估計 (11)

  40. 第二節 兩平均數差異區間估計(12) • m1 - m2的(1-a)100%的信賴區間就是: • 不放回抽樣且樣本數佔母體數的比例不小

  41. 第二節 兩平均數差異區間估計(13) • 例子9 • 在一項關於速讀訓練的實驗中,研究者隨機分派各5位受試者到實驗組(接受速讀訓練課程)和控制組(只接受和速讀無關的一些活動),為期10小時後,測其速讀成績,得實驗組和控制組的樣本平均數分別為70和60,樣本變異數分別為100和50,求實驗組與控制組的平均數差異的95%信賴區間。已知實驗組和控制組的速讀成績均呈常態分佈,且變異數相等。

  42. 第二節 兩平均數差異區間估計(14) • 合併的變異數為 • 由於這段區間(-2.63, 22.63)包含了0,因此實驗組的母體平均數有可能等於控制組的平均數。

  43. 第二節 兩平均數差異區間估計(15) • 母體變異數未知且不等:小樣本 • 如果常態分佈母體的變異數未知,而且也不相等,當小樣本時, • 並不是t分佈,只是近似t分佈,且自由度為:

  44. 第二節 兩平均數差異區間估計(16) • m1 - m2的(1-a)100%的信賴區間: • 不放回抽樣,且樣本數佔母體數的比例不小:

  45. 第二節 兩平均數差異區間估計(17) • 例子10 • 承例子9,如果我們懷疑兩常態母體的變異數並不相等,求實驗組與控制組的平均數差異的95%信賴區間。 • 作法

  46. 第二節 兩平均數差異區間估計(18) • 如果是大樣本,可以比較不關心兩母體是否為常態分佈,因為可以仰賴中央極限定理。 • 如果是小樣本,兩母體就必須是常態分佈。萬一兩母體不是常態分佈,樣本數又很小,並不適合用此處的區間估計方式,應該改用無母數(non-parametric)統計方式。

  47. 第二節 兩平均數差異區間估計(19) • 成對觀測值的平均數差異 • 如果兩個樣本是成對地發生,那麼這兩個樣本必定有關連,而非兩個獨立樣本。這種成對觀測值(又稱相依樣本,paired samples or dependent samples)平均數差異的區間估計和上述兩獨立樣本有所不同。

  48. 第二節 兩平均數差異區間估計(20) • 將每一對的數值相減,稱為d1,,dn,這些差異均可視為來自隨機樣本D1,,Dn的值。而這些隨機樣本是從平均數mD = m1 - m2,和變異數 的常態分佈母體抽樣而來。 • 用 取代 , • 是自由度為n-1的t分佈。

  49. 第二節 兩平均數差異區間估計(21) • mD的(1-a)100%的信賴區間

More Related