360 likes | 567 Views
第 7 章. 抽樣與抽樣分配 Part B (7.6-7.8). 抽樣與抽樣分配 Part B. 7.6 的抽樣分配. 7.7 點估計量的性質. 7.8 其他抽樣方法. 用樣本資料計算 母體比例. 用 值 推論 m 值. 7.6 的抽樣分配. 母體比例 p 統計推論的過程. 母體比例 p = ?. 從母體抽取 n 個元素 為一簡單隨機樣本. 的抽樣分配. 的抽樣分配是所有樣本比例 值的 機率分配。. 的期望值. 其中 : p = 母體比例. 的抽樣分配.
E N D
第 7 章 抽樣與抽樣分配 Part B (7.6-7.8)
抽樣與抽樣分配 Part B • 7.6 的抽樣分配 • 7.7 點估計量的性質 • 7.8 其他抽樣方法
用樣本資料計算 母體比例 用 值 推論 m值 7.6 的抽樣分配 • 母體比例 p統計推論的過程 母體比例 p = ? 從母體抽取 n 個元素 為一簡單隨機樣本
的抽樣分配 的抽樣分配是所有樣本比例 值的 機率分配。 的期望值 其中: p =母體比例
的抽樣分配 • 在7.1節中我們提到EAI母體的比例p=0.60,此p值為完成管理訓練課程的主管的比例,因此EAI抽樣問題中, 的期望值為0.60。
是母體的標準誤 的抽樣分配 的期望值 無限母體 有限母體
的抽樣分配 • 一般而言,我們使用標準誤來表示點估計量的標準差,因此,也用比例的標準誤表示 的標準差。 • 回到EAI的例子,以30位主管的簡單隨機樣本,求其樣本比例的標準誤。在EAI一例中,參加管理課程的主管的比例為p=0.60,由於n/N = 30/2500=0.012,故計算比例的標準誤時,可忽略有限母體校正因子,若樣本數為30人,則
以常態分配求二項分配近似值的作法,其中,樣本大小必須滿足以下2個條件以常態分配求二項分配近似值的作法,其中,樣本大小必須滿足以下2個條件 抽樣分配的形狀 當樣本數夠大時, 的抽樣分配可近似為常態分配。 np ≥ 5 n(1 – p) ≥ 5 以及
抽樣分配的形狀 • 當 np>5以及 n(1-p)>5, 的抽樣分配可以利用常態分配來近似。 • 在EAI一例中,有參加管理訓練課程的主管的母體比例p=0.60,樣本數為30,則np=30(0.60)=18且n(1-p)=30(0.40)=12,因此 抽樣分配可以趨近常態機率分配,如圖7.8所示。
抽樣分配的實際值 • 假設人事經理想要知道樣本比例 值落在母體比例 ± 0.05範圍內的機率;也就是樣本比例 值落在0.55到0.65間的機率。 • 圖7.9的陰影部分就是此機率。我們已知 抽樣分配可以用常態分配來近似,平均數為0.60,標準差σ=0.0894,則 =0.55所對應的標準常態z值=(0.55-0.60)/0.894=−0.56,查標準常態分配表可知介於z=−0.56到 z=0 間的面積為0.2123;同樣的在 =0.65時,z=0到z=0.56間的面積為0.2123,因此樣本比例 值落在母體比例p值 ± 0.05的機率為0.2123+0.2123=0.4246。
抽樣分配的實際值 • 如果我們增加樣本數到n=100,則比例的標準誤變為樣本大小為100的情況下,我們也可以計算樣本比例 值落在母體比例p值 ± 0.05的機率值。因抽樣分配近似常態分配,且平均數為0.60,標準差為0.049,利用標準常態分配表就可以計算所要的機率。 • 當 =0.55時,z值 =(0.55-0.60)/0.049=−1.02,查標準常態分配表得知介於z=−1.02到z=0間的面積為0.3461;同樣的,當 =0.65時,介於z=0到z=1.02間的面積也為0.3461,因此當樣本數由30增到100時,樣本比例 值落在母體比例 值 ± 0.05的機率從0.4246變為0.3461+0.3461=0.6922。
7.7 點估計量的性質 • 注意: • θ= 母體參數 • θ =樣本統計量或 θ 的點估計量 • θ 是希臘字母,發音是theta,θ 則唸做theta-hat。 • 一般而言,θ 代表任何母體參數,例如母體平均數、母體標準差及母體比例等等;θ 則代表對應的樣本統計量,例如樣本平均數、樣本標準差及樣本比例。 ^ ^ ^
點估計量的性質 • 良好點估計量的性質有: 不偏性 有效性 一致性
點估計量的性質 不偏性 如果樣本統計量的期望值等於要估計的母體參數之期望值,則此樣本統計量就是母體參數的不偏估計量(unbiased estimator)。
點估計量的性質 有效性 假定有n個元素的簡單隨機樣本可以提供同一個母體參數兩個不偏估計量。此種情況下,我們會使用標準差較小的點估計量,因為它可以提供更接近母體參數的估計值。標準差較小的點估計量相對於其他點估計量,有更高的相對有效性(relative efficiency)。
點估計量的性質 一致性 優良點估計量的另一個特性是一致性(consistency)。簡單來說,當樣本變大,點估計量的數值變得更接近母體參數時,就稱點估計量是一致的。換言之,大樣本比小樣本能提供更好的點估計值。
評註 • 我們在第3章說過,平均數與中位數都是集中趨勢的量數。本章只討論平均數的理由是,常態母體的母體平均數及母體中位數是相同的。而自常態母體抽樣,中位數的標準誤比平均數的標準誤大了25%。以EAI問題為例,n=30,樣本平均數的標準誤是σ =730.3,中位數的標準誤則大概是1.25(730.3) =913。因此,樣本平均數是更有效的,且有更大的機率更接近母體平均數。
7.8 其他抽樣方法 • 分層隨機抽樣 • 叢式抽樣 • 系統抽樣 • 便利抽樣 • 判斷抽樣
分層隨機抽樣 在分層隨機抽樣(stratified random sampling)中,母 體的所有元素先被區隔成數群,稱為 層(strata)。 母體中每一個元素只歸屬在某一個資料層中。 較好的區分方法是資料層內的元素愈相像愈好,圖7.12 是一個母體被分成H個層的示意圖。
分層隨機抽樣 區隔出資料層後,再由每個資料層進行簡單隨機抽樣, 利用公式可將各分層的樣本資訊整合成我們感興趣的母 體參數估計值。 分層抽樣品質的好壞端視資料層內元素的同質性程度, 如果同質性高(元素都很相近),則層內的變異將減少, 只要少量的抽樣資料就可以得到整個資料層的良好估計 值。 如果資料層是同質的,分層隨機抽樣的結果就和樣本數 較少的簡單隨機抽樣相同。
叢式抽樣 在叢式抽樣(cluster sampling)中,母體首先被分出幾 群,稱為叢體(clusters),每個元素只歸屬一個叢體。 在理想的情況下,每一個叢體都可代表一整個母體,就 像是母體的縮小版。 叢式抽樣的好壞評斷標準在於所用的叢體對母體是否有 代表性。 如果每個叢體都能代表母體,則只抽出少數的叢體做樣 本就可得到母體參數的良好估計值。
叢式抽樣 叢式抽樣主要的應用之一是地區抽樣,每一叢體可以是 城市的某個區域或其他定義清楚的地理區。 優點:可以達到增加樣本數,減少成本優點(如:可在 短時間內蒐集許多樣本觀察值) 缺點:此抽樣方法通常抽取的樣本數會比簡單隨機抽 樣和分層隨機抽樣來得多
系統抽樣 在N個元素的母體中我們要抽出 n 個當作樣本,可以 從每N/n個元素中抽出一個元素。 假設我們已將母體元素依序排列。這個程序是先從前 N/n個元素隨機抽出一個元素,由這個被抽中的元素開 始,每隔100個元素,就抽出1個,直到抽出n個元素為止。 這樣的抽樣方法比簡單隨機抽樣簡單。當母體元素呈隨 機排序時,由於第一個被抽出的元素是隨機決定的,系 統抽樣通常也被假設為具有簡單隨機抽樣的特性。
優點:此抽樣方法將比簡單隨機抽樣簡單。 例如:從電話簿中隨機抽出第一個元素後,每隔 100個 元素,就抽出1 個。
便利抽樣 便利抽樣(convenience sampling)是屬於非機率抽樣 (nonprobability sampling)方法, 樣本是否被抽出的關鍵是便利性,我們無法知道樣本中 的元素被抽中的機率。 例如教授可能以志願參與實驗的學生為樣本,因為學生 是現成的,資料取得的成本也低。 優點是樣本抽選與資料蒐集都相當簡單,但不可能以樣 本的代表性來評估樣本的好壞。
判斷抽樣 使用判斷抽樣(judgment sampling)這個方法的研究者 必須非常瞭解研究對象,選出他認為最能代表母體的樣 本。 不能作為是適合度分析。 例如一名記者可能會選出他認為最能反應全體參議員 看法的2到3位參議員來採訪。
判斷抽樣 優點:樣本抽選相當簡單 缺點:這個方法選出的樣本品質端視研究者的判斷而定 。
評註 • 我們在本章推薦使用的機率抽樣方法共有:簡單隨機抽樣、分層隨機抽樣、叢式抽樣和系統抽樣,欲知這些方法所抽出的樣本統計量是否接近母體參數,我們可以用某些公式來評估其「適合度」(goodness)。便利抽樣和判斷抽樣並不能做適合度分析,因此在解釋非機率抽樣方法得到的結果時,必須非常小心。