350 likes | 553 Views
Introduction to Inference 推論簡介. 統計推論. 統計推論 (Statistical Inference) 提供方法,由樣本資料推得母體的一些結論。 常見的統計推論: 信賴區間 (confidence intervals) :對母體參數的估計。 顯著性檢定 (tests of significance) :對母體參數的某種宣告評估資料所提供之證據。 統計推論是在資料為 隨機樣本 或是來自 隨機實驗 的假設前提下提出的。. 投擲銅板出現正面的機率. Estimating with Confidence 具信賴度的估計. 例題 NAEP 調查研究.
E N D
統計推論 • 統計推論(Statistical Inference)提供方法,由樣本資料推得母體的一些結論。 • 常見的統計推論: • 信賴區間(confidence intervals):對母體參數的估計。 • 顯著性檢定(tests of significance):對母體參數的某種宣告評估資料所提供之證據。 • 統計推論是在資料為隨機樣本或是來自隨機實驗的假設前提下提出的。
例題 NAEP調查研究 • National Assessment of Educational Progress (全國性教育進展評量,簡記為NAEP)調查包括一份簡短測驗,內容有數量技能,涵括基礎算術及應用到實際問題的能力。測驗分數0 ~ 500分。 • 233分以上的人會加總兩張存款條上金額 • 325分以上的人會判別菜單上一份餐的金額 • 375分以上的人會將每盎司(ounce)幾分(cents) 轉換成每磅(pound)幾元(dollars)
樣本資料 • 一份含840個樣本,由全體 21~25 歲男性中隨機抽出。這 840 個男性的 NAEP (樣本)平均成績為 。 • 這樣的結果,可以對全體九千五百萬個21~25歲男性的平均成績 m做什麼推論?
大數法則推論 • 根據大數法則,隨機大樣本之樣本均數 會很接近母體均數 m。 • 因此用樣本平均成績 來估計全體平均成績 m。 • 即全體九千五百萬個21~25歲男性的平均成績 m 大約是 272。
樣本平均數的變異 • 取很多份樣本數為 840 的隨機樣本,則樣本平均成績 的變異如何? • 根據中央極限定理,隨機大樣本之樣本平均數分配近似常態。 • 此近似常態的平均數與原母體平均數m 相同。 • 此近似常態的變異數為原母體變異數s2的840分之一,即樣本平均數的變異數為s2/840。 • 假設原標準差s為60,則樣本平均數的標準差為 。
樣本平均數的分配 • 取很多組樣本數為 840 的隨機樣本,樣本平均成績分別為 = 272, =268, = 273, etc.其直方圖可呈現樣本均數的分配。 SRS n = 840 SRS n = 840 m = ? s = 60 SRS n = 840 Population
樣本平均數的分配圖形 的樣本分配 未知參數m 的值
統計信賴度(Statistical Confidence) • 根據常態68-95-99.7規則,95%樣本組的樣本均數 會落在母體均數 m 的兩個標準差之間。即 95% 的 落在 。 • 95% 的樣本組,根據樣本平均數計算出的區間 , 會包括母體平均數 m 。
母體平均數的信賴區間(Confidence Interval) • 取很多組樣本數為 840 的隨機樣本,根據樣本均數 及公式 計算出這些區間中,有95% 會包括母體均數m。 SRS n = 840 SRS n = 840 m = ? s = 60 SRS n = 840 Population
95%信賴區間圖示 的樣本分配 機率 = 0.95 m - 4.2 未知參數 m m + 4.2
有50人丟擲公平硬幣30次,記錄出現head之次數 • 利用excel求出 樣本之mean, variance, standard deviation • 公平硬幣(母體)之μ = np = 30*0.5=1.5 • σ2 = npq = 30*0.5*0.5 =7.5
信賴區間之一般型式(form) • 未知參數的信賴水準 (confidence level) C之信賴區間,或稱為100C % 信賴區間 (a level C confidence interval),為: • 區間型式為 估計量 ± 誤差域 (estimate ± margin of error) • 在重覆取樣下,估計區間(視為隨機區間)會包括未知參數的機率,即為信賴水準 C 。
單組樣本 z統計量 • 常態母體均數為 m 標準差為 s,則樣本平均數 服從 。 • 標準化之統計量 服從標準常態,稱為單組樣本 z統計量。
常態母體平均數 m 之信賴區間 • 常態母體均數 m 之100C % 信賴區間的求法: • 標示出常態曲線下中央面積為 C的區域, 邊界值稱為臨界值(critical value),記為 z*。 • 即 z介於 ± z*之間的機率為 C。
例題6.3 80% 之信賴區間圖示 標準常態曲線 機率 = (1-0.8)/2=0.1 機率 = 0.1 機率 = 0.8 -1.28 0 z*=1.28
常態母體平均數 m 之信賴區間 • 常態母體平均數 m 之80 % 信賴區間:
常態平均數 m 之信賴區間圖示 標準常態曲線 機率 = (1-C)/2 機率 = (1-C)/2 機率 = C - z* 0 z*
母體平均數 m 之信賴區間 • 母體平均數 m 未知標準差 s 已知,抽出一組樣本數為 n 之隨機樣本,則 m 之100C % 信賴區間為(z*可由表 C 查得) • 若母體為常態,則為正確的(exact)信賴區間。在其他情況,樣本數 n夠大時為近似信賴區間。
信賴水準的意義 • 95 % 的信賴水準的意義如下: 每一組樣本數為 n 之隨機樣本可得到一個母體平均數 m 之 95 % 信賴區間, 則 100組樣本使用同樣的方法算出的100個 95 % 信賴區間中,其中大約有 95 個信賴區間包含了真正的母體均數 m。
例題6.4 製藥的分析 • 藥廠對每一批產品抽一樣品(specimen)分析其某主成份之濃度。 • 假設每一樣品重複測度的結果接近常態。 • 分析程序無偏差,成份分析結果可估計真正的母體濃度平均數 m。 • 已知標準差為 s = 0.0068 公克/公升。 • 實驗室提供每一樣品3次的成份分析結果。
例題6.4(續) • 某一樣品(specimen) 3 次成份濃度分析重複測度的結果如右: 0.8403, 0.8363, 0.8447 • 樣本平均數 • 母體均數 m 之 99 % 信賴區間 • 由表 C 查得 z* = 2.576 • 99 % 信賴區間為 [0.8303, 0.8505]
例題6.4 (再續) • 假設只用一次濃度分析的結果:0.8404 • 樣本平均數 =.8404 • 則母體均數 m 之 99 % 信賴區間 • 99 % 信賴區間為 [0.8229, 0.8579]
圖6.7 • n越大信賴區間越短。 n = 1 n = 3 0.82 0.83 0.84 0.85 0.86
信賴區間的行為(behavior) • 信賴區間的中心位置由樣本平均數決定。 • 信賴區間寬度之一半稱為誤差域(margin of error)m • 臨界值 z* :信賴水準越高 z*越大,信賴區間越寬。 • 標準差s : s 越大,信賴區間越寬。 • 樣本數 n : n 越大,信賴區間越窄。
例題6.5 改變誤差域 • 例題6.4之信賴度由99%改為90%,z*由2.576改為1.645。樣本平均數與變異數仍然相同。 • 信賴區間為 • 90 % 信賴區間為 [0.8339, 0.8469] • 誤差域由± 0.0101變為± 0.0065。
圖6.8 • 信賴度越高,信賴區間越寬。 90%信賴度 99%信賴度 0.82 0.83 0.84 0.85 0.86
樣本數的選擇 • 給定誤差域 m 及信賴水準,可查表求得臨界值 z* ,則在已知標準差s 時可計算所需要的樣本數。
例題6.6 需要多少樣本數? • m = 0.005,信賴水準 95%,臨界值 z*=1.96, s = 0.0068 ,則所需要的樣本數為 7.1以上。 • 取 n = 8
一些注意事項 • 資料必須是從母體中隨機抽樣取得的。 • 因為 會被一些極端觀察值強烈的影響,所以離群值對信賴區間有很大的影響作用。 • 區間完全取決於 的分配。 • 如果母體不為常態而且樣本很小,真正的信賴水準會與計算區間時的信賴度不相同。 • 當n ≧15,除非有極端的離群值或是相當強烈的不對稱,信賴水準不會因母體非常態而大受影響。 • 必須知道母體的標準差σ。這個不切實際的假設使得區間 在統計實務上用處較小。