1.01k likes | 1.27k Views
Sampling Theory and Some Important Sampling Distributions. 觀念. 統計主要問題在於如何透過樣本的統計量來推估或檢證母體的 參數 (parameters) 。 參數 為描述母體某些特性的數值。 如 μ 、 σ 、母體中位數等皆為參數。 樣本統計 Sample statistics 是用來描述樣本的特性的數量,樣本統計為觀察到的樣本之函數,樣本的統計量隨著取樣的不同,會有不同的變化。因此,樣本統計量本身可以被視為是一隨機變數。. 母體參數,樣本統計量. 觀念.
E N D
Sampling Theory and Some Important Sampling Distributions 觀念 • 統計主要問題在於如何透過樣本的統計量來推估或檢證母體的參數(parameters)。 • 參數為描述母體某些特性的數值。 • 如μ、σ、母體中位數等皆為參數。 • 樣本統計Sample statistics是用來描述樣本的特性的數量,樣本統計為觀察到的樣本之函數,樣本的統計量隨著取樣的不同,會有不同的變化。因此,樣本統計量本身可以被視為是一隨機變數。
母體參數,樣本統計量 觀念 • 一個樣本統計量(如樣本平均數)是隨機樣本的函數,其本身為一隨機變數 Sample樣本平均數 隨機變數 x354 x103 x4 Population母體參數 x41 x49 的特定值 x31 x1005 x4 x411 x42909 社會統計(上)
Introduction to Sampling Distribution 觀念 • 用於推估母體的參數(μ)的樣本統計量(如X-bar),稱為「估計式」(an estimator)。 • 將實際抽樣所得到的樣本帶入估計式,得到的數值(如χ-bar)稱為估計值(estimate) 社會統計(上)
抽樣分配 • 樣本的統計量為一隨機變數,樣本統計量的值隨著抽出樣本的不同而不同,每一個特定變量出現的機率呈某一機率分配,稱為樣本統計的抽樣分配(sampling distribution),為多次抽樣結果的機率分佈。 社會統計(上)
抽樣分配 觀念 樣本平均值的抽樣分配 x354 x103 x4 Population母體參數 x41 x49 x31 x1005 x4 x411 x42909 x3423 x1321 x7 x4241 x43209
Very simple random sample (VSRS) 觀念 • 樣本中每一個元素被抽到的機率皆相同 • 每一個元素的期望值為母體平均數μ • 每一個元素的標準差為母體標準差σ P(x1) = P( x2) … = P(xn) = population distribution P(x) Population母體參數 E(x) = μ, Var(X) = σ2 社會統計(上)
Independently and identically distributed, i.i.d. • When X1, X2, …Xn are drawn from the same distribution and are independently distributed, they are said to be independently and identicallydistributed or i.i.d. 社會統計(上)
樣本平均值的期望值與變異數 • 如果X1, X2, …Xn為i.i.d.,則對於每一個X而言都有相同的平均值(μ)及變異量(σ2)。 社會統計(上)
樣本平均值的期望值與變異數 社會統計(上)
中央極限定理The Central Limit Theorem • 當X為來自於母體為常態分配的i.i.d.樣本時,無論樣本數大小,樣本平均數的抽樣分配必為常態。 社會統計(上)
中央極限定理The Central Limit Theorem 無論母體為何種分配,若隨機樣本的樣本數夠大(n>30),則樣本平均數的抽樣分配會趨近於(approximately)常態分配 approximately If n is large 社會統計(上)
標準化分數與標準常態分配 觀念 • 設X為一呈常態分配的隨機變數,其平均數=,變異數為2 • Z = (X - )/,Z為標準化變數,且E(Z) = 0, Var(Z) = 1 社會統計(上)
中央極限定理The Central Limit Theorem • 如果X1, X2, …Xn為i.i.d.,且E(X)=μ及Var(X) =σ2。 approximately N ∞ 社會統計(上)
標準常態分配曲線下的面積 觀念 P(Z<0) = 0.5 P(Z>0) = 0.5 P(Z< -z) = P(Z > z) 社會統計(上)
Interval Estimation區間估計 觀念 • 在前章中我們介紹了各種估計母體參數的方法(point estimator)。例如我們發現樣本平均數X為母體平均數μ的一個不偏估計式。 • 雖然平均而言,X能正確的代表μ,但每一次觀察到的X不會剛好等於μ,而是隨著抽到的樣本不同有高有低: 社會統計(上)
Interval Estimation區間估計 觀念 • 因此除了點估計外,我們還想進一步知道從樣本中得到的估計值有多可靠,由於樣本的估計值本身也是一個隨機變數,不一定會剛好等於母體參數,因此我們問:估計值與母體參數有多接近? 社會統計(上)
Interval Estimation區間估計 • 在估計的問題中,我們希望估計式具有以下兩個性質: • 1. 估計式為不偏估計(unbiased estimator),即估計式不會系統性的高估或低估母體參數。 • 2. 我們希望估計式的抽樣分配集中於母體參數的周圍,即估計式的變異數愈小愈好。 社會統計(上)
Interval Estimation區間估計 • 在估計的問題中,我們希望估計式具有以下兩個性質: θ Unbiased 社會統計(上)
Interval Estimation區間估計 觀念 • 從估計式的抽樣分配中,我們可以建立一套系統性的方法來表達估計式的精確度。 社會統計(上)
例題 • 母體:加州250,000高三學生 • 數學SAT分數 • 樣本500,得樣本平均值=461 • How reliable is this estimate? 社會統計(上)
例題 • 根據樣本平均數的抽樣分配(sampling distribution),我們知道: 假設我們預先就知道σ=100,則 社會統計(上)
根據經驗法則,.95的機率,樣本平均數會落在以μ為中心點,向左右延伸兩個標準誤的界域內。根據經驗法則,.95的機率,樣本平均數會落在以μ為中心點,向左右延伸兩個標準誤的界域內。 • (μ -2 × 4.5 , μ +2 × 4.5) 社會統計(上)
To say that x-bar lies within 9 points of μis the same as saying that μ is within 9 points of x-bar
Statistical confidence • The language of statistical inference uses this fact about what would happen in the long run to express our confidence in the results of any one sample. 社會統計(上)
Interval Estimation區間估計 觀念 • 我們通常以建構信賴區間(confidence intervals)來顯示估計式的準確度。 社會統計(上)
Interval Estimation區間估計 觀念 社會統計(上)
Confidence interval • A level C confidence interval for a parameter is an interval computed from sample data by a method that has probability C of producing an interval containing the true value of the parameter. • We must find the number z* such that any normal distribution has probability C within ± z* standard deviation of its mean. 社會統計(上)
Value of Zα • Let Z be a standard normal random variable and let αbe any number such that 0<α<1. Then zαdenotes the number for which • P(Z≧ zα) = α 社會統計(上)
Value of Zα • 例題:α=.025,求zα? • P(Z≧ zα) =.025 Area=1-.025=0.975 Area=.025 zα 0 zα=1.96 社會統計(上)
Value of Zα • 例題:求z.05? • P(Z≧ z.05) =.05 Area=1-.05=0.95 Area=.05 z.05 0 zα=1.645 社會統計(上)
Value of Zα • 例題:求z.005? • P(Z≧ z.005) =.005 Area=1-.005=.995 Area=.005 z.005 0 zα=2.58 社會統計(上)
Value of Zα • P(Z≧ zα/2) =α/2 • P(Z≦ -zα/2) =α/2 • P(-zα/2 ≦Z≦ zα/2) =(1-α) 1-α/2-α/2 =1-α α/2 社會統計(上)
Confidence intervals for the mean with know population variance • 假設我們從N(μ, σ2)的母體中抽取樣本數為n的樣本。其樣本平均數的抽樣分配為: 社會統計(上)
Confidence intervals for the mean with know population variance • 根據先前的結果: 社會統計(上)
Confidence intervals for the mean with know population variance • 這個結果告訴我們: • 由這兩個數值所構成的隨機區間 會包含母體參數μ的機率為(1-α) 社會統計(上)
Level of Confidence • The level of confidence (C=1-α) of a confidence interval measures the probability that a population parameter will be contained in an interval calculated after a random sample has been selected from a population. • 信賴度衡量從母體中抽取隨機樣本所建構出的信賴區間會含括母體參數的機率。 • α 為信賴區間沒有正確涵蓋母體參數的機率。如α=.05,則信賴度1-α=.95,表示有5%的機率信賴區間無法包含母體參數。 社會統計(上)
Level of Confidence • 一般常用「母體參數會落在信賴區間的機率」來定義信賴度是一種錯誤的說法。 • 母體參數只有一個,不會變來變去 • 所建構出的區間也是一個特定的區間。 • 這個特定區間不是有包含母體參數,不然就是沒有包含母體參數,這不是一個機率的問題。 社會統計(上)
Confidence intervals for the mean with know population variance • Suppose we take random sample of n observations from a normal population with mean u and variance σ2. If σ2is known and the observed sample mean is x, then the confidence interval for the mean with a level of confidence 100(1-α)% is given by: • Where zα/2is the number for which • P(Z≧ zα/2) =α/2 社會統計(上)
例題 • 學校想估計去年畢業的學生第一年的年薪。假設薪資分佈為常態分配,且母體的標準差為$2000。取隨機樣本25名校友得到平均薪資為$19,500,求95%的信賴區間。 • σ= $2000, n=25, x=$19500 • 1-α=95%, α= .05 , α/2=.025, zα/2=1.96 社會統計(上)
例題 • 我們之所以計算出95%的信賴區間為(18,716, 20,284)完全是因為樣本的平均數為$19,500。如果我們再抽取一個25人的樣本,則可能得到不同的區間。 • 如果我們一直不斷的重複取樣本1000次,則有950次(95%)所建構出的信賴區間會含括母體的平均數。 社會統計(上)
母體參數: Mean = μ Variance =σ2 μ 每個區間=
Confidence intervals for the mean with know population variance • 母體參數u不是一個隨機函數,不會隨著樣本的不同而有差異。 • X為會隨著樣本而變的隨機函數,因此信賴區間也會隨著樣本的不同而有差異。 • 100(1-α)%的機率,上述的隨機區間會含括母體參數u。 社會統計(上)
Confidence intervals for the mean with know population variance • 一般所謂95%的信賴區間估計,乃是表示重複抽取樣本數為n的所有可能樣本所建立的全部區間估計中,有95%的區間將會包含真正的母體平均數,而僅有5%沒有包含母體平均數。 • 但實際上我們通常僅抽取一個樣本,且u通常為未知,因此無法確切知道此樣本是否包含u,但我們可以說此區間有95%的機率會包含u. 社會統計(上)