統計學

統計學 郭信霖許淑卿

第八章估計 ■ 8 - 1統計推論之意義與種類 ■ 8 - 2估計之基本概念 ■ 8 - 3母體平均數的估計 ■ 8 - 4母體比例p的估計 ■ 8 - 5 母體變異數2的估計 ■ 8 - 6 兩母體平均數差1-2的估計 ■ 8 - 7兩母體比例差p1-p2的估計 ■ 8 – 8 兩母體變異數比 / 的估計 ■ 8 - 9電腦範例 ■ 8-10流程圖

8-1 統計推論之意義與種類 統計推論主要的目的在根據樣本資料的訊息，對母體參數作估計或檢定有關母體假設。傳統的統計推論分為：估計（Estimation）與假設檢定（Tests of hypothese）。

8-2 估計之基本概念 (一) 估計之意義所謂估計，是指如何利用機率原理，決定以何種樣本統計量，推測母體未知參數最為適當的一種統計方法。母體參數，以表示。樣本統計量(或估計量，Estimator)，以表示。通常以大寫的英文字母，如X，Y，Z等表示。估計值（Estimate）將樣本的觀察值代入估計量，所得到的一個確定數值。通常以小寫的英文字母，如x、y、z等表示。

(二) 估計之種類：點估計及區間估計兩種方式。(二) 估計之種類：點估計及區間估計兩種方式。 1. 點估計（Point Estimation）：所用的統計量就稱為點估計量。我們較常用的母體參數與點估計量（樣本統計量）、點估計值及點估計量有關抽樣分配之間的對應關係，如下表：

優良點估計量的評判標準有二： 令表母體的未知參數，為一點估計量，而為的點估計值。 (1) 不偏性（Unbiasedness）：若E() = ，則稱統計量為的不偏估計量（unbiased estimator）。例如： • E( ) = ，E(Me) = ，E(S2) = 2，E( ) = p。 • 如果E( ) ，則偏誤= bias = E( ) - ，表示以估計，具有偏誤，即是的有偏誤估計量，圖形如下。

(2)有效性（Efficiency）： 若E( ) = ，i = 1, 2, …, k，則 Var( )就是 的最有效估計量（most efficient estimator）。圖8-2 的抽樣分配

的三個不同估計量，， 的抽樣分配，較為有效，故選為 的優良估計量。對之相對有效性（Relative Efficiency或R.E.）有下列表示方法： ( 1 )R.E. = 。其中MSE( ) = E( -)2 = Var( ) + [Bias( )]2為的均方誤差（mean square error）。 ( 2 )R.E. = 。

2. 區間估計（Interval Estimation）： 根據樣本資料所求得點估計值及其抽樣分配與機率原理，提供母體未知參數一個可能所在範圍的方法，稱為區間估計，其範圍稱之為信賴區間（Confidence Interval）。在應用上，我們希望會包含參數的估計區間(T1 , T2)所佔的百分比(或機率值)至少為1 - ，即P(T1T2)≧1 -。

若(x1, x2…, xn)為隨機樣本(X1, X2…, Xn)的一組觀測值，則區間(t1, t2)謂之在信賴係數（confidence coefficient，或信賴度degree of confidence）100(1 - )%之下的信賴區間（confidence interval），t2與t1分別稱為信賴上限與信賴下限，而信賴區間（t1, t2）的長度為 = t2 - t1 • 根據相對次數的觀點而言，信賴係數可做如下解釋： • 若重覆從母體中，隨機抽出相同樣本大小為n的隨機樣本，則包含未知參數 的區間約佔全部的100(1 - )%，如圖8-3。

如何進行區間估計呢？其處理的步驟如下： (一) 選擇母體未知參數 的優良點估計量。 ( 1 ) 估計誤差= | - |。 ( 2 ) P ( | - | d ) 1 -，其中d稱為誤差界限。 (二) 找出樣本統計量的抽樣分配。如Z、t、2及F等分配。 (三) 配合抽樣分配在機率為1 -下的機率區間。如1 - = P。最後，導出母體參數 的信賴區間。如1 -  = P(T1T2)。

估計的估計誤差 圖8-4

8-3 母體平均數的估計 (一) 的估計：設從常態母體N(, 2)，2已知，隨機抽出一組大小為n的隨機樣本，X1, X2, …, Xn，則樣本平均數抽樣分配為常態分配N 。 Z = ～N(0, 1)

1. 點估計量： 樣本平均數作為的點估計量。 2. 區間估計： ( I ) 常態母體的變異數2已知，則不論樣本大小，皆可採用標準常態分配處理。～N ，則Z = ～N(0, 1)

圖8-5 2已知，的(1-)100%信賴區間

在信賴係數(1 - )100%下，的信賴區間為 可簡化為 z/2． = 點估計量  臨界值  點估計量的標準誤差 = 點估計量  抽樣誤差（或誤差界限）

由這個式子，可知的信賴區間由三個部分組成：由這個式子，可知的信賴區間由三個部分組成： (1) 點估計量。 (2) 臨界值z/2。點估計量的標準誤差 = 。其中z/2 = z/2 稱為抽樣誤差（Sampling error）或誤差界限。

( II ) 任意母體變異數2未知，但n 30，根據中央極限定理（CLT），則以標準常態分配處理， Z = 在信賴係數(1 - )100%下，母體平均數之信賴區間為或簡化為 z/2

( III ) 常態母體變異數2未知且n < 30，則以t分配來處理， T = ~ t ( n – 1 ) 在信賴係數(1 - )100%下，的信賴區間為，v = n - 1。【注意】若自有限母體抽樣，其抽出率不小於5%，則樣本平均數的變異數就變數Var( ) =  ，其中稱為有限母體校正數。

(二) 點估計的誤差與樣本大小 1. 估計誤差：信賴係數為(1 -)100%下，當靠近信賴區間的信賴上、下限兩端點時，誤差的值達到極大值，故估計誤差| - |不大於z/2 ，如圖圖8-7 的(1 - )100%信賴區間及以估計的誤差 - | z/2 估計誤差= |

2. 樣本大小： (1) 由點估計量的誤差決定所需樣本大小若以估計，為了達到信賴係數為(1 - )100%下，並使估計誤差不會超過指定的e值，則至少須隨機抽取多少樣本大小？ ∵ z/2 = z/2e n

若2未知時，須以S2代替2，則S2可依下列二種方法求得：若2未知時，須以S2代替2，則S2可依下列二種方法求得：不抽取樣本，以過去經驗或統計資料估計樣本標準差S，代入公式，以求n。預先試查隨機抽取大小為n1 30，計算樣本標準差S，代入公式，以求n。(a) 若n > n1，則補抽(n - n1)個樣本資料作估計。(b) 若n n1，則就以原n1個樣本資料作估計。

(2)由信賴區間的長度決定所需樣本大小在信賴係數(1 -)100%下，的信賴區間為 z/2 ，在其信賴區間的長度不超過常數e時，至少須隨機抽取的樣本為 n 4

B(1, p)，p未知 n … ( X1 , X2 , …………, Xn ) 8-4 母體比例p的估計令X = X1 + X2 + … + Xn，則樣本比例 = ，且E( ) = p，Var( ) =

(一) 點估計量： = (二) 區間估計：當np  5且nq  5時，根據CLT，可知X～N(np, npq)，則 = ～N或 Z = ～ N(0, 1)。在信賴係數(1-)100%下，則信賴區間為也可簡化為 z/2

(三) 點估計誤差與樣本大小 1. 點估計誤差圖8-9 p的(1 - )100% 信賴區間及以估計p的誤差 - p|  z/2 ∴ 估計誤差 = |

2. 樣本大小 (1)點估計量的誤差決定所需樣本大小： z/2 e ，則n 事實上，可依下列三種方法求得：不抽取樣本，而根據以往統計資料，猜測的大約值，代入公式，以求n。

預先試查隨機抽取樣本，其大小為n1 30，求得值，代入公式，以求n。 (a) 若求出的n > n1，則補抽(n -n1)個樣本資料作估計。 (b) 若求出的nn1，則就以原n1個樣本資料作估計。求n值的上界：因0 < < 1，由 = (1 - ) = - 當 = 時，的值大值為，故樣本大小至多為 n =

由信賴區間的長度決定所需樣本大小若要求信賴區間的長度  不超過常數e時，則至少須隨機抽取多少樣本？ n = 4

8-5 母體變異數2的估計 當 已知若2 = ～2(n)，v = n，其中S2 = ，則稱2為具有自由度v = n的卡分配，以2～2(n)表示。 (1) 點估計量：S2 =

(2) 區間估計： 在信賴係數(1 - )100%下，2之信賴區間為， v = n 而之信賴區間為，v = n

當未知 若 = ～(n - 1)，其中S2 = ， = ，則稱為具有自由度v = n - 1的卡方分配，以～ (n - 1)表示 (1) 點估計量：S2 =

(2) 區間估計： 在信賴係數(1 - )100%下， 2之信賴區間為，v = n - 1 而之信賴區間為，v = n - 1

8-6 兩母體平均數差1-2的估計 (一) 點估計量：統計量 - (二) 區間估計：兩常態母體的變異數 , ，已知，則不論樣本大小，皆採用標準常態分配處理。在信賴係數(1-)100%之下，兩母體平均數差1 - 2的信賴區間為，

簡化為 ( - ) z/2 = 點估計量  臨界值  點估計量的標準誤差 = 點估計量  抽樣誤差（或誤差界限） 2. 從兩個未知，的獨立母體中，分別各抽出一組大樣本，n1 30，n2 30，則在信賴係數(1 - )100%下，兩母體平均數差1 - 2之信賴區間為

兩獨立常態母體變異數及未知，且n1 < 30，n2 < 30，則以t分配處理；，有兩種未知情形： (1) = = 2未知，且n1 < 30，n2 < 30 (2)  未知，且n1 < 30，n2 < 30 這兩種情況，皆為t分配處理。 (1) = = 2未知，且n1 < 30，n2 < 30 由t分配的定義，知 T = = ～ t(n1 + n2 - 2)

其中 = 為2的不偏估計量，稱為聯合樣本變異數（Pooled Sample Variance）。在信賴係數(1 -)100%下，兩母體平均數差1 - 2之信賴區間為

※(2)  未知，且n1 < 30，n2 < 30此時由Welch，B.提出一個近似t分配，以、分別代替、，因此，T = ～ t (v)，其中v = ，v不一定為整數，則以四捨五入表示。在信賴係數(1 - )100%下，兩母體平均差1 - 2之信賴區間為

成對樣本時1 - 2的估計： 為了消除每對之間X1與Y1，X2與Y2, …, Xn與Yn的不獨立，可以它們之間的差異(Xi- Yi)來處理，即令Di= Xi- Yi，i = 1, 2, …, n

 = = ，又E( ) = D， ) = Var( 則～。圖8-14

( 1 ) 當n 30時，以代替，根據CLT， 則Z = ～N(0, 1) 在信賴係數(1 -)100%下，成對樣本中兩母體平均數差1-2之信賴區間為或簡化為 z/2

( 2 ) 當n < 30時，以代替， 則T = ～t(n - 1) 在信賴係數(1 - )100%下，成對樣本中兩母體平均數差1 - 2之信賴區間為，v = n-1 或簡化為 t/2(v) ，v = n- 1

8-7 兩母體比例差P1-P2的估計 • 點估計量：統計量 - = - • 區間估計：當n1，n2甚大時，根據CLT，　　-　　的抽樣分配近似於常態分配則 Z = ～N(0, 1)

在信賴係數(1 -)100%下，當n1, n2足夠大時，兩母體平均數差p1-p2之信賴區間為也可簡化為 ( - ) z/2

8-8 兩母體變異數比 / 的估計 • 2 2 • 1 2 (一) 當1，2已知， / 的估計 F = = ~ F ( n1，n2 ) 1. 點估計量：統計量 /

2. 區間估計： 在信賴係數(1 - )100%下， / 之信賴區間為，v1 = n1，v2 = n2 而1/2之信賴區間為，v1 = n1，v2 = n2

2. 區間估計： 在信賴係數(1 - )100%下，/之信賴區間為，v1 =n1 - 1，v2 = n2 - 1 而1/2之信賴區間為，v1 = n1 - 1，v2 = n2 - 1

統計學

統計學

Presentation Transcript