960 likes | 1.76k Views
第八章 統計估計. 學習目標. 瞭解點估計的意義、估計的步驟與限制。 瞭解優良估計式的性質。 瞭解區間估計的意義。 瞭解大樣本與小樣本母體常態、變異數已知與未知下,單一母體平均數區間估計的方法。 知悉 t 分配的意義與機率值。 瞭解單一母體比例區間估計的方法。 瞭解單一母體變異數區間估計的方法。 瞭解卡方分配的意義與卡方值。. 統計推論 (statistical inference) 是我們從樣本中獲得關於母體的資訊並且從中推導出結論的程序。 為了做推論, 我們需要敘述統計、機率分配及抽樣分配的技術和知識。. 統計推論. 統計. 樣本. 母體. 資料.
E N D
學習目標 • 瞭解點估計的意義、估計的步驟與限制。 • 瞭解優良估計式的性質。 • 瞭解區間估計的意義。 • 瞭解大樣本與小樣本母體常態、變異數已知與未知下,單一母體平均數區間估計的方法。 • 知悉t分配的意義與機率值。 • 瞭解單一母體比例區間估計的方法。 • 瞭解單一母體變異數區間估計的方法。 • 瞭解卡方分配的意義與卡方值。
統計推論(statistical inference)是我們從樣本中獲得關於母體的資訊並且從中推導出結論的程序。 為了做推論,我們需要敘述統計、機率分配及抽樣分配的技術和知識。 統計推論 統計 樣本 母體 資料 資訊 推論 統計量 參數
估計的目的是在樣本統計量的基礎上,決定一個母體參數的近似值。估計的目的是在樣本統計量的基礎上,決定一個母體參數的近似值。 有兩種估計的類型: 點估計量 (point estimator) 區間估計量 (interval estimator) 估計的概念
點估計量 一個點估計量(point estimator) 藉著一個單一數值或點來估計母體的未知參數,以對母體進行推論。 先前看到連續分配的點機率幾乎是0。同樣地,我們期望點估計量會依樣本量的增加而更接近參數值。但是,點估計量沒有能力反映較大樣本的效果。因此,我們將使用區間估計量(interval estimator)估計母體參數。
點估計量與區間估計量 假設一位統計學教授想要估計其商學院二年學生的平均暑期收入。隨機選出25 位學生(n=25), 計算的樣本平均週薪是$400。 點估計量 區間估計量 另一種說法: 二年級商學院學生暑期的平均週薪是介於$380 與$420 之間。
點估計量品質 估計量品質是包括不偏性 (unbiasedness)、一致性(consistency)、相對有效性(relative efficiency): 1. 不偏性 若估計式的平均數等於母體參數值,則該估計式為不偏估計式(unbiased estimator) ,否則為偏誤估計式(biased estimator) 。 即若,則為的不偏估計式。 例:樣本平均數 與 分別是母體平均數µ與σ2的不偏估計式。
點估計量品質 2. 一致性 一個不偏估計量被稱為是一致的(consistent),假如隨著樣本大小的變大,估計量與參數間的差異會隨之變小。 若為不偏誤估計式或漸近不偏估計式,當,其變異數趨近於零,即 則為的一致性估計式。 例: 是 µ 的一個一致性估計量,因為:
點估計量品質 3. 有效性 如果一個參數有兩個不偏估計量,變異數比較小的那一個被稱為是相對的比較有效(relatively more efficient)。 即 設、均為的不偏誤估計式,若 則相對為有效估計式。
3. 相對有效性 例:樣本平均數 及樣本中位數Me都是母體平均數的不 偏估計值,然而,樣本中位數Me擁有比樣本平均數 更 大的變異數,所以我們選擇 ,因為與樣本中位數比較 , 其相對的比較有效。 因此,樣本平均數 是母體平均數 µ“最好/佳”估計值。
例1:估計式的相對有效性評斷標準 與Me的相對有效性
例2:不偏性、相對有效性 隨機變數為一組以抽出放回的方式,從母體中隨機抽出的樣本,現以與來估計μ , 試比較此二估計式的不偏性、相對有效性。
例2:不偏性、相對有效性 解: (1) 不偏性 與皆為之不偏估計式。
例2:不偏性、相對有效性 解: (2)相對有效性
例3:不偏性、一致性 隨機變數為一組以抽出放回的方式,從母體中隨機抽出的樣本,現以估計σ2 ,試比較此估計式的不偏性、一致性。
例3:不偏性、一致性 解: (1) 不偏性 為σ2之不偏估計式。
例3:不偏性、一致性 解: (2)一致性 為σ2之一致性估計式。
區間估計的意義 對未知的母體參數估計出一個上下限的區間,並指出該區間包含母體參數的可靠度。 點估計量的值不會恰好等於母體參數值。 區間估計值 (interval estimate)通常是由點估計值加或減某個值求得,我們稱這個加減值是邊際誤差 (margin of error)。 信賴區間:是在一個既定的信賴水準下所構成的一個區間。區間估計值的一般形式是: 點估計值 邊際誤差 信賴水準(信賴係數) :是指信賴區間包含母體參數的信心(或稱可靠度)。 區間估計值可以讓我們瞭解:點估計值與母體參數值的接近程度。
區間估計量 一個區間估計量(interval estimator)使用一個區間來估計母體未知參數的值,以對母體進行推論。 這就是我們所說的(有某些___% 確實性) 關注的母體參數在下限及上限的範圍之間。
3.單一母體平均數μ之估計 (一) 定義: (1) 設(X1,X2,. . . . . . ,Xn)為由母體f(x) 中抽出的n個隨機樣本,若θ為此母體之參數,設T1、T2為兩個統計量,使得P( T1≦θ≦T2)=1-α 則稱(T1, T2) 為θ 的100(1-α) %信賴區間,而稱1-α為信賴度(confidence level) (2) 若 為θ之估計式,若,則稱d為以估計θ的100(1-α)%誤差界限。
3.單一母體平均數μ之估計-點估計 (二) 點估計 (1)母體平均數μ之估計是最常見估計問題之一,且一般皆以來估計μ,也就是說取為μ的估計式,因此為μ之點估計值。 (i)(重要!!) 當樣本數n已知,且n>30時,以估計μ的100(1-α)%誤差界限為 (思考方式)
(推導) 以 代入公式得到 ∵大樣本n>30,使用統計量進行估計μ 為以估計μ的100(1-α)%之誤差界限
3.單一母體平均數μ之估計-點估計 (ii)(重要!!)當樣本數n未定,但n>30時,若誤差界限d已知,則樣本數為n為 (思考方式)
3.單一母體平均數μ之估計-區間估計 大樣本,母體變異數已知) 抽自任意母體且為大樣本時,當樣本數n>30且母體變異數已知,則使用統計量進行區間估計 此時,母體平均數μ的100(1-α)%信賴區間為 (推導) 或
(i) 大樣本,母體變異數已知) 區間可以表示成 信賴下限 (Lower confidence limit) = 信賴上限(Upper confidence limit) = 其中機率1 – α 稱為信賴水準,為測量區間實際包含 µ 的機率。 • 3.單一母體平均數μ之估計-區間估計
3.單一母體平均數μ之估計-區間估計 (ii) (大樣本,變異數未知,且樣本數n>30) 當樣本數n>30且母體變異數未知,可用S2來取代σ2,則使用統計量進行區間估計 此時,母體平均數μ的100(1-α)%信賴區間為 (推導) 或
3.單一母體平均數μ之估計-區間估計 (iii) (母體為有限且採取不歸還抽樣) (a) 以估計μ的100(1-α)%誤差界限為 (b) 母體平均數μ的100(1-α)%信賴區間為
3.單一母體平均數μ之估計-區間估計 (iv) (小樣本,變異數未知,且樣本數n<30) 當樣本數n<30且母體變異數未知,可用S2來取代σ2,則使用統計量進行區間估計 此時,母體平均數μ的100(1-α)%信賴區間為 (推導) 或
例 4. 大樣本 • 一家雜誌社欲知其讀者的平均年齡,以作為雜誌內容走向的參考,根據其對訂閱戶抽查所得的讀者平均年齡為36歲。 • 當樣本數為49,母體標準差為6歲,求該雜誌讀者平均年齡的95%信賴區間。 解: ∵大樣本n=49>30,母體變異數σ2已知 使用統計量進行估計μ ∴平均年齡μ的95%信賴區間
例 4. 大樣本 (b)當樣本數為49,樣本標準差為6歲,求該雜誌讀者平均年齡的95%信賴區間。 解: ∵大樣本n=49>30,母體變異數σ2未知 使用統計量進行估計μ ∴平均年齡μ的95%信賴區間
例 4. 小樣本 (c)當樣本數為25,母體分配為常態,樣本標準差為6歲,求該雜誌讀者平均年齡的95%信賴區間。 解: ∵小樣本n=25<30,母體變異數σ2未知 使用統計量進行估計μ ∴平均年齡μ的95%信賴區間
例 5. 小樣本,變異數σ未知 • 為了檢驗某款迷你車的耗油量,經測試1公升的油料所能行駛的里程數6次,分別是17.2、16.5、17.5、17.7、16.1、15.9公里。若假設里程數為常態分配,試求該款車1公升油料平均所行駛之里程數的95%信賴區間。
例 5. 小樣本,變異數σ未知 解: ∵小樣本n=6<30,母體變異數σ2未知 使用統計量 ∴平均平均里程數μ的95%信賴區間
區間估計的準確度: • 在信賴區間長度相同之下,信賴水準1- α越大則準確度越大。 • 當信賴水準1-α相同時,信賴區間長度越短則準確度越大。 • 信賴敘述的結論永遠是針對母體而不是樣本。 • 信賴水準1- α越大,則誤差界限越大。 • 報告誤差界限時,用95%的信賴水準是很普遍的。 • 在同樣的信賴水準下,要求較小的誤差界限時,只要增加樣本數就成了。
區間估計的準確度: • 是非題 • 點估計通常較區間估計更精確。 • 點估計值估計母體參數時,可能完全正確或完全不正確,且其估計正確的可靠度未知; • 而區間估計的可靠度即信賴係數,故可知區間估計的可靠度較點估計為佳。 (X)
區間估計的準確度: • 是非題 2. 當母體變異數未知,但已知母體為常態分配時,用Z分配與t分配所求得的母體平均數的信賴區間的長度是一樣的。 • Z分配信賴區間長度 • t分配信賴區間長度 • 當樣本數很大時,兩個區間長度會一樣, • 但樣本數不很大時,,故用t分配求得的信賴區間會較長 (X)
區間估計的準確度: • 是非題 • 信賴區間的長度與準確度隨信賴水準的增加而增加。 • 信賴水準的增加信賴區間的長度增加(Why?) • 信賴區間的長度增加精確度減少 (X)
區間估計的準確度: • 是非題 4. 若母體為常態分配,且母體變異數為已知,當信賴水準不變時,母體平均數的信賴區間長度隨樣本數的增加而變小。 • 信賴區間長度 • 樣本數增加時,信賴區間長度變小。 (O)
4.單一母體比例p之估計-點估計 (一) 點估計 樣本比率為母體比率p之不偏估計量,且在大樣本時,之抽樣分配近似於常態。 因此,母體比例p之估計是最常見估計問題之一,且一般皆以來估計p,也就是說取為p的不偏估計式,因此為p之點估計值。 (i)(重要!!) 當樣本數n已知,且n>30時,以估計p 的100(1-α)%誤差界限為
(推導) 以 代入公式得到 ∵大樣本n>30,使用統計量進行估計p 為以估計p的100(1-α)%之誤差界限
3.單一母體比例p之估計-點估計 (ii)(重要!!)當樣本數n未定,但n>30時,若誤差界限d已知,則求樣本數n之方法 (a) 為樣本比例 (b) p 無任何資訊
4.單一母體比例p之估計-區間估計 大樣本,抽自任意母體且為大樣本時,當樣本數n>30 且若np≥ 5且 n(1-p) ≥ 5) ,則使用統計量進行區間估計 (推導) 此時,母體比例p的100(1-α)%信賴區間為 或
例 6. 母體比例的區間估計 • 為了想瞭解女性高爾夫球員對高爾夫球課程的看法,針對全美 900 位女性高爾夫球員進行調查。調查結果發現,有 396 位女性高爾夫球員對練習發球的次數感到滿意,如此,對發球次數感到滿意的女性高爾夫球員之母體比例的點估計為396/900=0.44。
解: ∵大樣本n=900>30,使用統計量進行估計p 其中 ∴發球次數感到滿意的女性高爾夫球員之母體比例p的95%信賴區間 ∴在 95% 的信賴水準下,母體比例p的區間估計為 (0.4076,0.4724 )。 結論是:我們有 95% 的信心說,有 40.76% 至 47.24% 的女性高爾夫球員對其練習發球的次數感到滿意。
例 7. 樣本數 • 某茶葉製造公司欲了解其在市場的佔有率,乃在市場上進行抽樣調查。假設該公司要求樣本比例與母體之誤差不能超過0.01,且有95%的信賴度,則樣本數應為何?
例 7. 樣本數 解: ∵ p未知,故以p=1/2代入, 可解得 ∴故至少應選取9,604個樣本點。
5.單一母體變異數σ2之估計-點估計 (一) 點估計 樣本變異數為為母體變異數σ2之不偏估計量。 因此,母體變異數σ2之估計一般皆以來估計σ2 ,也就是說取為σ2 的不偏估計式,因此為σ2 之點估計值。
5.單一母體變異數σ2之估計-區間估計 隨機變數為一組從母體中隨機抽出的樣本,則使用統計量進行σ2區間估計。 此時,母體變異數σ2的100(1-α)%信賴區間為 (