850 likes | 1.09k Views
社會統計. 第五講 信賴區間. Interval Estimation 區間估計. 觀念. 在前章中我們介紹了各種估計母體參數的方法 (point estimator) 。例如我們發現樣本平均數 X 為母體平均數 μ 的一個不偏估計式。 雖然平均而言, X 能正確的代表 μ ,但每一次觀察到的 X 不會剛好等於 μ ,而是隨著抽到的樣本不同有高有低:. Interval Estimation 區間估計. 觀念.
E N D
社會統計 第五講 信賴區間 社會統計
Interval Estimation區間估計 觀念 • 在前章中我們介紹了各種估計母體參數的方法(point estimator)。例如我們發現樣本平均數X為母體平均數μ的一個不偏估計式。 • 雖然平均而言,X能正確的代表μ,但每一次觀察到的X不會剛好等於μ,而是隨著抽到的樣本不同有高有低: 社會統計
Interval Estimation區間估計 觀念 • 因此除了點估計外,我們還想進一步知道從樣本中得到的估計值有多可靠,由於樣本的估計值本身也是一個隨機變數,不一定會剛好等於母體參數,因此我們問:估計值與母體參數有多接近? 社會統計
Interval Estimation區間估計 觀念 • 從估計式的抽樣分配中,我們可以建立一套系統性的方法來表達估計式的精確度。 社會統計
Interval Estimation區間估計 觀念 • 我們通常以建構信賴區間(confidence intervals)來顯示估計式的準確度。 社會統計
Interval Estimation區間估計 觀念 社會統計
Interval Estimation區間估計 • 在估計的問題中,我們希望估計式具有以下兩個性質: • 1. 估計式為不偏估計(unbiased estimator),即估計式不會系統性的高估或低估母體參數。 • 2. 我們希望估計式的抽樣分配集中於母體參數的周圍,即估計式的變異數愈小愈好。 社會統計
Interval Estimation區間估計 • 在估計的問題中,我們希望估計式具有以下兩個性質: θ Unbiased(何謂不偏?) 社會統計
Value of Zα • 令Z為一個標準常態隨機變數,並令α是滿足0<α<1的任意數,則zα是符合下列條件的任意數: • P(Z≧ zα) = α 社會統計
Value of Zα • 例題:α=.025,求zα? • P(Z≧ zα) =.025 Area=0.5-.025=.475 Area=.025 zα 0 zα=1.96 社會統計
Value of Zα • 例題:求z.05? • P(Z≧ z.05) =.05 Area=0.5-.05=.45 Area=.05 z.05 0 zα=1.645 社會統計
Value of Zα • 例題:求z.005? • P(Z≧ z.005) =.005 Area=0.5-.005=.495 Area=.005 z.005 0 zα=2.58 社會統計
Value of Zα • P(Z≧ zα/2) =α/2 • P(Z≦ -zα/2) =α/2 • P(-zα/2 ≦Z≦ zα/2) =(1-α) 1-α α/2 社會統計
Confidence intervals for the mean with know population variance • 假設我們從N(μ, σ2)的母體中抽取樣本數為n的樣本。其樣本平均數的抽樣分配為: 社會統計
Confidence intervals for the mean with know population variance • 根據先前的結果: 社會統計
Confidence intervals for the mean with know population variance • 這個結果告訴我們: • 母體參數μ落在下列隨機區間 的機率為(1-α) 或者可以說上述隨機區間包含母體參數μ的機率為(1-α) 社會統計
Level of Confidence • The level of confidence (1-α) of a confidence interval measures the probability that a population parameter will be contained in an interval calculated after a random sample has been selected from a population. • 信賴水準或信賴係數衡量從母體中抽取隨機樣本所建構出的信賴區間會含括母體參數的機率。 • α 為母體參數落在信賴區間外的機率。如α=.05,則信賴度1-α=.95,表示有5%的機率母體參數會落在信賴區間之外。 社會統計
母體變異數已知的信賴區間 • 假設我們從一個均數為μ變異數為σ2的常態母體裡選包含n個觀察值的隨機樣本。如果σ2已知,而樣本的均數為x,則均數的100(1-α)%信賴區間由下列公式計算: • Where zα/2is the number for which • P(Z≧ zα/2) =α/2 社會統計
例題 • 學校想估計去年畢業的學生第一年的年薪。假設薪資分佈為常態分配,且母體的標準差為$2000。取隨機樣本25名校友得到平均月薪為$19,500,求95%的信賴區間。 • σ= $2000, n=25, x=$19500 • 1-α=95%, α= .05 , α/2=.025, zα/2=1.96 社會統計
例題 • 我們之所以計算出95%的信賴區間為(18,716, 20,284)完全是因為樣本的平均數為$19,500。如果我們再抽取一個25人的樣本,則可能得到不同的區間。 • 如果我們一直不斷的重複取樣本1000次,則有950次(95%)所建構出的信賴區間會含括母體的平均數。 社會統計
母體參數: Mean = μ Variance =σ2 μ 每個區間= 社會統計
Confidence intervals for the mean with know population variance • 母體參數μ不是一個隨機函數,不會隨著樣本的不同而有差異。 • X為會隨著樣本而變的隨機函數,因此信賴區間也會隨著樣本的不同而有差異。 • 100(1-α)%的機率,上述的隨機區間會含括母體參數μ。 社會統計
Confidence intervals for the mean with know population variance • 一般所謂95%的信賴區間估計,乃是表示重複抽取樣本數為n的所有可能樣本所建立的全部區間估計中,有95%的區間將會包含真正的母體平均數,而僅有5%沒有包含母體平均數。 • 但實際上我們通常僅抽取一個樣本,且μ通常為未知,因此無法確切知道此樣本是否包含μ,但我們可以說此區間有95%的機率會包含μ。 社會統計
Formula for commonly constructed confidence intervals • 經常在使用的信賴區間 社會統計
Desirable Properties of Confidence Intervals • 好的信賴區間有兩個特性: • 信賴度愈高愈好The interval should have a high level of confidence (1-) • 信賴區間愈小愈好The interval should have narrow width 社會統計
The width of a confidence interval for u • 母體平均數的信賴區間寬度W: • 信賴區間的寬度W決定於幾個因素: • (1)信賴區間的信賴係數(1-α) • (2)母體標準差 • (3)樣本規模n 社會統計
Comparing Width of Confidence Intervals • Suppose we take a random sample of size n from population having known variance 2. Construct 99%, 95%, 90% CI for the population mean and compare their widths. W1比W2的寬度多32% W2比W3的寬度多19% 社會統計
比較信賴區間的寬度 • 如果要縮小信賴區間的寬度,我們有什麼選擇? • 比較低的信賴水準 (1-),或 • 增加樣本大小 社會統計
99% 95% 90% 80% 50% 社會統計
續例題10.3 • 學校想估計去年畢業的學生第一年的年薪。假設薪資分佈為常態分配,且母體的標準差為$2000。取隨機樣本25名校友得到平均薪資為$19,500,求99%的信賴區間 ,並與95%CI做比較。 • σ= $2000, n=25, x=$19500 • 1-α=99%, α= .01 , α/2=.005, zα/2=2.58 =1.32 社會統計
Confidence intervals for large samples • CI的建構必須有兩個條件: • (1)母體必須為常態分配。 • (2)母體的變異數為已知數。 • 當樣本數n30,根據中央極限定律,樣本平均數的抽樣分配會趨近於常態分配,且樣本標準差會愈來愈趨近於母體標準差,所以條件(1)(2)皆能滿足。 社會統計
例題 • 郵局的人事部門想要瞭解郵差請病假的情況,取樣100人來觀察,母體的分配及標準差皆為未知數,假設樣本平均數為8.2,s=2.7天,建構95% CI。 社會統計
One-sided confidence intervals for the mean • Suppose that we wish to find the lower confidence limit (LCL) such that the probability (1-)that uexceeds LCL. The one-sided interval (LCL, ) is a left-sided confidence interval. The lower confidence limit is given by • Suppose that we wish to find the upper confidence limit (UCL) such that the probability (1-)that uis less than UCL. The one-sided interval (-, UCL) is a right-sided confidence interval. The upper confidence limit is given by 社會統計
One-sided confidence intervals for the mean • 單邊信賴區間的意義:假設重複取樣本數為n的隨機樣本,每次計算(LCL, ),則在所有樣本所建構出的左邊信賴區間中,將有1-的機率會包含u。 社會統計
One-sided confidence intervals for the mean • 郵局的人事部門想要瞭解郵差請病假的情況,取樣100人來觀察,母體的分配及標準差皆為未知數,假設樣本平均數為8.2,s=2.7天,建構母體參數μ的單(左)邊95%信賴區間。 我們有95%的信心u會超過7.7558 社會統計
Student’s t distribution • 先前透過Z-score來建構CI: • (1)母體必須為常態分配,母體的變異數為已知數。 • (2) n30 • 當母體標準差為未知數,且樣本數很小時,如何建構CI? 社會統計
Student’s t distribution • 若母體~N(, 2),則 • 若母體 2未知,則以S來取代,我們得到t-score: ? • 樣本數愈大,S愈接近,t分配愈接近標準常態分配Z: 社會統計
不偏估計式Unbiased Estimator 樣本自由度 社會統計
t分配的一些特性 • t分配為中心點為零,介於- 至的對稱分配. • t分配的形狀為類似標準常態分配的鐘形分配 • t distribution的平均值為 0. • t分配的機率密度函數決定於參數 (讀nu), 即自由度(degree of freedom)。建構平均值的信賴區間時,自由度為樣本數減一degrees of freedom is (讀音nu)=(n-1)。 社會統計
Characteristics of t distribution • t distribution 的變異數為 /(-2) for >2,其值永遠大於1。 愈大(樣本越大),變異數越接近1,其形狀越接近標準常態分配。 社會統計
Characteristics of t distribution • t分配是一群機率分配的組合,不同自由度對應不同的t distribution的密度函數,由於變異數較標準常態分配大,所以形狀較為矮胖。 Standard normal (d.f.=) d.f. =4 d.f. =2 d.f. =1 社會統計
Value of t, • The symbol t,denotes the value of t such that the area to its right is and t has degree of freedom. The value t, satisfies the equation: • P(t > t, )= • Where the random variable t has the t distribution with degrees of freedom. 社會統計
例題 • Consider the t distribution having =9 degrees of freedom. Find the value t.05, 9 such that the area in the right tail of the t distribution is .05. t distribution with d.f. = 9 Area = .05 0 t.05=1.83 社會統計
例題 • Consider the t distribution having =9 degrees of freedom. Find the value t.025, 9 and -t.025, 9 such that each tail of the t distribution contains area .025. t distribution with d.f. = 9 Area = .025 0 -t.025= -2.262 t.025= 2.262 社會統計
例題 • Consider the t distribution having =20 degrees of freedom. Find the value t.025, 20 such that the right tail of the distribution contains area .025. t distribution with d.f. = 20 Area = .025 0 t.025= 2.086 社會統計
Confidence intervals for the mean with unknown population variance • 若母體~N(, 2),則 • 若母體 2未知,則以S來取代,我們得到t-score: has the t distribution with v = (n-1) degrees of freedom. 社會統計
Constructing confidence intervals using the t distribution • The area to the right of tα/2,υis α/2 for the t distribution having v degrees of freedom. Similarly, the area to the left of -tα/2,υ is α/2 . Thus, we obtain: 社會統計
Constructing confidence intervals using the t distribution 社會統計
Constructing confidence intervals using the t distribution 這個結果告訴我們,如果從常態分配中抽取樣本,則母體u在1-α的機率下會落於以下區間 社會統計