第 8 章

第8章 區間估計

前言 • 研究者想知道電池的使用壽命，抽樣若干個電池，發現壽命的平均數為50小時。母體的平均數會是多少？會是介於哪段區間？ • 研究者關心初生男嬰體重的變異數，隨機抽樣若干位初生男嬰，得體重的變異數為40000公克，母體變異數會介於哪段區間內？ • 以上這些研究問題，都在探討母體某個參數倒底介於哪段區間內，這就是所謂的區間估計。

第一節平均數的區間估計（1） • 因為抽樣變動的關係，即使再優良的統計量，也無法保證能夠精準的猜中母體參數。 • 例如進行兩次抽樣調查，這兩次的樣本平均數通常不會相等。因此不如用一段區間來猜測母體平均數。

第一節平均數的區間估計（2） • 區間的大小可分為90%，95%，99%信賴區間或信賴界線。所謂95%信賴區間，以拿平均數來說，每抽一次樣本，就利用某種公式，算得其95%的信賴區間，如此重複很多次，在這些信賴區間裡，將會有95%包括母體的平均數。 • 在100次中有95次會包含母體平均數，也就有5次沒有包括母體平均數。這稱為顯著水準，就是1減去信賴水準。若以95%信賴水準而言，顯著水準就是5%。通常用a表示顯著水準。

第一節平均數的區間估計（3） • 區間估計的方法視抽樣方法而定。抽樣分法分為放回法抽樣和不放回法抽樣。放回法抽樣指的是每抽一個樣本，還放回去，再抽下一個樣本。不放回法則一旦抽到就不放回去母體，因此不會重複抽到。 • 現實上的抽樣調查都是不放回法。如果母體很大，樣本數相對於母體的比率很小，這兩種抽樣方法並無差異。如果母體不大，且樣本數佔母體的比率很大，那麼就要採用不同的區間估計方法。

第一節平均數的區間估計（4） • 區間估計方法除了因為抽樣方法不同而不同外，也要視母體的變異數是否已知而而定，因此可以分為四種區間估計的情境： • 1. 放回法且母體變異數已知 • 2. 不放回法且母體變異數已知 • 3. 放回法且母體變異數未知 • 4. 不放回法且母體變異數未知

第一節平均數的區間估計（5） • 放回法抽樣且母體變異數已知 • 從常態分佈的母體中，抽出樣本求其平均數。這個平均數的抽樣分佈會是常態分佈。如果母體不是常態分佈，平均數的抽樣分佈就不是常態分佈。 • 根據中央極限定理：當樣本數趨近於無限大，平均數的抽樣分佈會逼近常態分佈，平均數就是母體的平均數m，變異數是母體變異數除以樣本數：

第一節平均數的區間估計（6） • 統計量的變異數稱為變異誤（error variance ）。變異誤開跟號，稱為標準誤（standard error）。 • 以樣本平均數而言，變異誤為，標準誤為。 • 如果樣本數夠大，就認定樣本平均數的抽樣分佈會接近常態分佈：

第一節平均數的區間估計（7） • 因此是標準常態Z分佈，所以介於-za/2和za/2的機率為1-a：

第一節平均數的區間估計（8） • m並不是變數，因此m介於某兩個值中間的機率不是1就是0。所以不可以用機率的觀點來解釋上述的公式，而要用：信心（confidence）。 • 從已知變異數s2中採放回抽樣法抽出樣本數n，得樣本平均數，母體平均數m的（1-a）100%信賴區間是：

第一節平均數的區間估計（8） • 從已知變異數s2中採放回抽樣法抽出樣本數n，得樣本平均數，母體平均數m的（1-a）100%信賴區間是： • m不是變數，所以要用信心（confidence）來解釋。所謂95%信心指的是如果進行抽樣調查，利用公式（8.3）計算母體平均數95%的信賴區間，重複這個過程非常多次。將會有95%的信賴區間包含m。

第一節平均數的區間估計（9） • 例子1 • 某廠牌手機電池的待機時數近似常態分佈，變異數為100。現隨機抽取25個電池，檢查其待機時數，得到平均數為50。試求母體平均數的95%信賴區間。 • 作法 • 母體平均數的95%信賴區間為：

第一節平均數的區間估計（10） • 樣本數過大過小均不當。 • 在（1-a）100%信心，用樣本平均數估計母體平均數的誤差e在之內。即 • 在（1-a）100%的信心，若樣本數 • 樣本平均數去估計母體平均數的誤差在e之內。

第一節平均數的區間估計（11） • 例子2 • 如果希望有95%的信心，利用估計m，誤差不會超過3小時，則需要多大的樣本數？ • 作法

第一節平均數的區間估計（11） • 不放回法抽樣且母體變異數已知 • 有限母體（finite population） • 母體平均數m的（1-a）100%信賴區間是

第一節平均數的區間估計（12） • 有限母體校正因子 • 通常進行抽樣調查時，母體N都非常的大，且樣本數n相對於母體是非常的小，因此即使用不放回法的抽樣，仍可用公式（8.3）計算信賴區間。

第一節平均數的區間估計（13） • 例子3 • 某公司想瞭解員工每天上網的時間，該公司員工共50位，抽樣記錄了10位員工，結果發現平均數為60分鐘。已知上網時間近似常態分佈，標準差為20。求母體平均數的90%信賴區間。

第一節平均數的區間估計（14） • 作法 • 樣本數10佔母體數50的比例高達1/5

第一節平均數的區間估計（15） • 在（1-a）100%的信心下，用樣本平均數估計母體平均數的誤差之內。 • 整理後得

第一節平均數的區間估計（16） • 例子4 • 承上題，如果希望在90%的信心下，誤差不超過5分鐘，則必須抽樣多少人？ • 作法 • 如果樣本數為24，在90%的信心下，誤差不超過5分鐘。

第一節平均數的區間估計（17） • 放回法抽樣且母體變異數未知 • 現實的中通常不知道母體的變異數是多少，只好用樣本變異數來取代。 • 此時，即使母體是常態分佈，樣本平均數的抽樣分佈，也不再是常態分佈，而是自由度n-1的t分佈。

第一節平均數的區間估計（18） • 變數U和變數Z互為獨立，且U為自由度為n的卡方分佈，Z是標準常態分佈，就是自由度為n的t分佈。 • 由於是Z分佈，為自由度n-1的卡方分佈，則 • 是自由度為n – 1的t分佈。

第一節平均數的區間估計（19） • 當母體不是常態分佈，只要樣本數夠大，那麼樣本平均數的抽樣分佈也會非常接近t分佈。 • 如果母體既不是常態分佈，且樣本數又少，那麼對母體平均數的估計就變得十分不穩定。

第一節平均數的區間估計（20） • 令X1，，Xn來自常態分佈，但其變異數未知，則是自由度為n - 1的t分佈。 • 介於-ta/2和ta/2的機率為1-a。即：

第一節平均數的區間估計（21） • 母體平均數m的（1-a）100%信賴區間是： • 例子5 • 抽取400位滿6歲整女童，得身高平均數110cm，樣本變異數100，求6歲女童身高的平均數的95%信賴區間。已知6歲女童身高呈常態分佈。

第一節平均數的區間估計（22） • 不放回法抽樣且母體變異數未知 • 限母體校正因子 • 當採用不放回法，且母體變異數未知的情況下，母體平均數m的（1-a）100%信賴區間是

第一節平均數的區間估計（23） • 例子6 • 某縣市教育局抽樣調查其縣內30所幼稚園的土地面積，發現平均數為250平方公尺，變異數為1600。求該縣內幼稚園土地面積平均數的90%信賴區間。已知該縣內所有100所幼稚園的土地面積呈常態分佈。

第一節平均數的區間估計（24） • 作法 • 已知N = 100, n = 30, = 250，s = 40，自由度29的= 1.699，則

第二節兩平均數差異區間估計 (1) • 男生與女生的智商平均數差異有多大？經過一段時間的實驗教學之後，實驗班和正常組的學業成績的平均數差異多大。在減肥課程訓練之前，量一下體重，經過一段時間的訓練之後，再量體重，兩個體重平均數是否有差異。 • 以上所面臨的問題就是兩個母體平均數的差異。可用兩個樣本的平均數的差異當作兩母體平均數差異的點估計。 • 同樣的，必須理解該點估計（統計量）的抽樣分佈，才能進行區間估計。

第二節兩平均數差異區間估計 (2) • 母體變異數已知 • 若有兩個獨立的常態分佈母體，其平均數分別為m1和m2，變異數為和，則 • 如果不是常態母體時，基於中央極限定理，只要兩個樣本數均很大，公式亦可成立。

第二節兩平均數差異區間估計 (3) • 會是標準常態分佈。

第二節兩平均數差異區間估計 (4) • m1 - m2的（1 - a）100%的信賴區間： • 如果採不放回抽樣，

第二節兩平均數差異區間估計 (5) • 例子7 • 某研究者想瞭解喝啤酒對注意力的影響，他隨機分派各50人至實驗組和控制組中。實驗組要喝一瓶啤酒，控制組則喝一瓶開水。然後測試他們的注意力，總分0至100分，分數越高表示注意力越好。如果依照過去的經驗，喝啤酒或喝白開水的人的注意力的變異數都是25。現得到實驗組的平均數為55，控制組為58。求實驗組與控制組的平均數差異的95%信賴區間。

第二節兩平均數差異區間估計 (6) • 作法 • 在此母體數幾近無限大，又由於樣本數（各50）很大，因此基於中央極限定理，得

第二節兩平均數差異區間估計 (7) • 母體變異數未知：大樣本 • 雖然母體變異數未知，但如果兩個母體是常態分佈，且樣本數n1和n2夠大（如均大於25），仍可用Z分佈。

第二節兩平均數差異區間估計 (8) • 如果採不放回抽樣，且樣本數佔母體數的比例不小，則需考慮有限母體校正因子：

第二節兩平均數差異區間估計 (9) • 例子8 • 承例子7，如果喝啤酒或喝白開水的人的注意力的母體變異數都未知，而樣本變異數分別為40和20，求實驗組與控制組的平均數差異的95%信賴區間。 • 作法

第二節兩平均數差異區間估計 (10) • 母體變異數未知但相等：小樣本 • 當兩母體是常態分佈，樣本數很小，若可以假設兩母體的變異數和雖未知但卻相等，那麼 • 是自由度n1+n2-2的t分佈 • 稱為合併的變異數

第二節兩平均數差異區間估計 (11)

第二節兩平均數差異區間估計(12) • m1 - m2的（1-a）100%的信賴區間就是： • 不放回抽樣且樣本數佔母體數的比例不小

第二節兩平均數差異區間估計(13) • 例子9 • 在一項關於速讀訓練的實驗中，研究者隨機分派各5位受試者到實驗組（接受速讀訓練課程）和控制組（只接受和速讀無關的一些活動），為期10小時後，測其速讀成績，得實驗組和控制組的樣本平均數分別為70和60，樣本變異數分別為100和50，求實驗組與控制組的平均數差異的95%信賴區間。已知實驗組和控制組的速讀成績均呈常態分佈，且變異數相等。

第二節兩平均數差異區間估計(14) • 合併的變異數為 • 由於這段區間（-2.63, 22.63）包含了0，因此實驗組的母體平均數有可能等於控制組的平均數。

第二節兩平均數差異區間估計(15) • 母體變異數未知且不等：小樣本 • 如果常態分佈母體的變異數未知，而且也不相等，當小樣本時， • 並不是t分佈，只是近似t分佈，且自由度為：

第二節兩平均數差異區間估計(16) • m1 - m2的（1-a）100%的信賴區間： • 不放回抽樣，且樣本數佔母體數的比例不小：

第二節兩平均數差異區間估計(17) • 例子10 • 承例子9，如果我們懷疑兩常態母體的變異數並不相等，求實驗組與控制組的平均數差異的95%信賴區間。 • 作法

第二節兩平均數差異區間估計(18) • 如果是大樣本，可以比較不關心兩母體是否為常態分佈，因為可以仰賴中央極限定理。 • 如果是小樣本，兩母體就必須是常態分佈。萬一兩母體不是常態分佈，樣本數又很小，並不適合用此處的區間估計方式，應該改用無母數（non-parametric）統計方式。

第二節兩平均數差異區間估計(19) • 成對觀測值的平均數差異 • 如果兩個樣本是成對地發生，那麼這兩個樣本必定有關連，而非兩個獨立樣本。這種成對觀測值（又稱相依樣本，paired samples or dependent samples）平均數差異的區間估計和上述兩獨立樣本有所不同。

第二節兩平均數差異區間估計(20) • 將每一對的數值相減，稱為d1，，dn，這些差異均可視為來自隨機樣本D1，，Dn的值。而這些隨機樣本是從平均數mD = m1 - m2，和變異數的常態分佈母體抽樣而來。 • 用取代， • 是自由度為n-1的t分佈。

第二節兩平均數差異區間估計(21) • mD的（1-a）100%的信賴區間

第 8 章

第 8 章

Presentation Transcript

8:10 – 8:40

8:10 – 8:40

8

8:15 – 8:30

8-1 8-2 8-3 8-4 8-5 8-6

8

[8,.]

8-1 8-2 8-3 8-4 8-5 8-6

8:1-8

Warm-up 8/7 or 8/8

Homeroom—8/8/13

8-5.5 8-5.6 8-5.7 8-5.8

Acts 8:4-8

8-8

8/8/12

8 Week 8

8-8

Bell ringer 8/8

고등필수 2 8 8

Psalm 8:4-8

Psalm 8:1-8

고등필수 3 8 8