650 likes | 853 Views
第七章. 抽樣與抽樣分配. 機率抽樣. 機率抽樣之定義 : 在完整定義的母體中 , 每一個個體都有一個不為零的中選機會 。 非機率抽樣 : 凡不屬於這個定義的範圍. 抽樣分配 樣本統計量為隨機樣本的函數,而隨機樣本是由 n 個隨機變數 所組成的,故樣本統計量亦為一隨機變數,其機率分配稱為抽樣分配。. 抽樣誤差 抽樣誤差是樣本統計量與相對應的母體參數間的差異。此種差異來自抽樣過程的機遇 (chance) ,抽樣方法及推論方法的不同。. 非抽樣誤差 非抽樣誤差主要來自調查時的執行與事後在記錄、整理資料時所發生的錯誤。.
E N D
第七章 抽樣與抽樣分配
機率抽樣 機率抽樣之定義: 在完整定義的母體中,每一個個體都有一個不為零的中選機會。 非機率抽樣:凡不屬於這個定義的範圍
抽樣分配 樣本統計量為隨機樣本的函數,而隨機樣本是由n個隨機變數 所組成的,故樣本統計量亦為一隨機變數,其機率分配稱為抽樣分配。
抽樣誤差 抽樣誤差是樣本統計量與相對應的母體參數間的差異。此種差異來自抽樣過程的機遇(chance),抽樣方法及推論方法的不同。 非抽樣誤差 非抽樣誤差主要來自調查時的執行與事後在記錄、整理資料時所發生的錯誤。
常見的非抽樣誤差-Kish (1965) , Cochran (1977), 韋端(1990) • 偶遇樣本(Haphazard Sample) or 便利抽樣(Convenient Sample): 即碰到誰就選誰,研究者並不在乎調查對象是否有代表性. • 立意選樣(Purposive Sampling) or 判斷抽樣(Judgment Sampling) : 經由專家主觀判斷,立意選定研究者認為 [有代表性] 的樣本來觀察. 樣本無法確認具代表性---是否為專家?? • 自願樣本(Volunteer Subjects): 聽任自動送上門來的人組成樣本群. 無量的代表性,但有質的代表性
配額選樣(quota sampling): 一母體的人口特徵按比例分配樣本數,在配額之內進行非機率抽樣,調查對象依照特徵分類,根據各類別的百分比每類立意選樣至而滿為止. • 雪球抽樣(snowballed sample) 先找到原始受訪者,然後再從受訪者所提供的資訊找到其他受訪者.
簡單隨機抽樣 分層抽樣 叢式抽樣 系統抽樣 便利抽樣 判斷抽樣 抽樣方法 抽樣的結果:用來估計母體的某些特徵值 Ex:輪胎公司製造新的輪胎,實驗抽出120個測式結 果χ=36,500哩,用來當作新輪胎的哩程壽命 機率性的抽樣方法,可用評估方法來評量其優良度 簡單隨機抽樣:抽取程序完全視母體大小為有限或無限
CN: n 有限母體 利用隨機數表抽取樣本 6 3 2 7 1 5 9 9 8 6 每個數字6,3,2,7,1,都由0~9隨機選取,具有相同發生的機率,五個字一組是為方便查詢與閱讀。 從N中,抽出一樣本n的簡單隨機樣本,其 抽取方法必須滿足在n中,每一樣本被抽出機率皆相同。 Ex:利用“標籤”從2500主管中,抽出30個樣本,另可用 “隨機數表”。 ※ Ex:資料名單、組織成員名冊、學生註冊名單、信用卡帳戶 、存貨數目
隨機抽樣 無限母體:元素無法進行編號,必從滿足 1.每個元素皆抽自相同母體 2.每個元素皆可獨立抽出 (ex:顧客抽出特優待卷,不會影響) Ex:持續不斷的程序:車流量、可能達成的顧客人數、銀行交易、CD製造。
母體 資料層1 資料層2 ‧‧‧‧‧ 資料層N 再抽出一元素來代表 分層隨機抽樣 母體先被區隔成數群,相性質放在一層中,即層內元素相異性較低。 若層內同質性高,則層內變異減少,只要“少量”的抽樣即可代表整層的性質
分層隨機抽樣的優點: • 層內的資料一致而集中,標準差越小,則抽樣誤差也越小. Ex: 以台灣地區民眾為調查母體的抽樣設計,常見分層依據 台北市、高雄市、台灣省5個省轄市各為一層. • 從抽樣的理論來看,能有效降低推論的誤差. • 以推論次母體(各縣市或公私立學校)可使抽樣調查目的易於達成. • 有關工商業界或各行各業的抽樣調查更需要分層.
母體 叢體1 叢體2 ‧‧‧‧‧ 叢體N 叢式抽樣 一叢體內的元素都是相異性質,所以一叢體都可代表整個母體。 Ex:地區抽樣:將地理區分成n個叢體,訪問者可在同一地區訪問,成本降低,時間減少。(利用增加樣本來補其缺失) 直接隨機抽出一叢體
系統抽樣(等距抽樣) 先把全體總數N除以樣本數,得到K,即每間隔K個抽一個. Ex:從5000個元素的母體中,抽出50個樣本 -以100為單位 先從第一個100元素中,隨機抽出一元素,再從另一個100個元素中,抽出第二個元素。 ※比簡單隨機抽機容易,不必對照隨機數表
等距抽樣的中選樣本不但可以自動反應母體代表性,亦可降低抽樣誤差. 在大部分母體清冊都電腦化後,等距抽樣成為主流趨勢. 等距抽樣的優點: 快速方便,所以用的多.不需要N與k . Ex:以百貨公司顧客、汽車乘客或球場觀眾為對象,若決定每30人抽一人,即能馬上進行而不必事先知道全體有多少人?或樣本要多少等.
等距抽樣的缺點:最怕遇到週期性資料, 若此 週期和K成比例,則樣本會死守規則,完全失 去代表性. Ex: 每7天查一次帳,結果永遠查到一星期內 的同一天,後果必然不堪設想.
便利抽樣 非機率性的抽樣方法,其樣本隨其抽樣的方便而 決定。 判斷抽樣 非機率性的抽樣方法,其樣本隨測試者的判斷而 定。
σχ可用來計算μ與χ的距離,因為σχ扮演著 (errors)誤差角色,且被視為平均的標準差。 中央極限定理: 有平均數μ和標準差σ之母體抽出樣本大小為n的簡單隨機樣本,當樣本大小n夠大時,χ的抽樣分配將趨近常態分配。 n≧30,χ的抽樣分配趨近常態分配。 ※當母體是常態分配,則不管樣本的個數,其χ 的抽樣分配亦是常態分配。
樣分平均數的抽樣分配 母體分配: 母體資料的機率分配。
母體μ=? 從母體抽取n個 簡單隨機樣本 用樣本資料計算 樣本平均數χ 用χ推算 μ? 隨機變數:一個試驗結果的數值化描述,以抽樣的過程 當成試驗,χ為此一試驗結果的數值化。 -樣本平均數χ是一隨機變數。 利用樣本平均數χ來推估母體平均μ是常見的統計方法 在重覆這樣的過程,可以得不同的χ,而所有可能的χ所現成的機率分配稱χ的抽樣分配。
σ σχ= √ √ σχ= N-n n N-1 σ ( ) √ n n n N N χ的期望值: E(χ)=μ 母體平均數 χ的標準差: 有限母體 無限母體 當母體無限或 ≦0.05 有限母體校正因數 當母體有限,且 >0.05
母體為常態分配但變異數未知 t分配(小樣本) 自常態母體X~N 隨機抽取樣本 ,則統計量 為自由度n-1的t分配。
Ex:假設 df=9,求k值 p(-k<t<k)=0.9 Sol: (-k,k)之機率為0.9 故在k以左與右的機率為0.1 亦即在k以右的機率為0.05 當 df=9,查表pg719 可得 t0.05=1.833
機率抽樣法 樣本平均數的平均數與變異數 簡單隨機抽樣: 抽取樣本時,若所有可能抽出的樣本被抽出的機率均相等。
樣本平均數抽樣分配的形狀 常態母體的抽樣分配 若母體為常態分配,平均數為,標準差為 ,則不論樣本數為何,樣本平均數 的抽樣分配亦為常態分配,其平均數和標準差分別為:
母體比例與樣本比例 母體比例
樣本比例的變異數與標準差 無限母體
樣本比例的變異數與標準差 有限母體
母體比例p=? 從母體抽出n個 簡單隨機樣本 n n N N √ √ σp= P(1-P) σp= N-n 用樣本資料計算 樣本比例p值 用p值來 來推算p值 √ P(1-P) n N-1 n ‧ 樣本比例p的標準差 無限母體 當 ≦0.05時,即母體夠大而樣本夠小時,有無校正因子並無太大差別 有限母體 >0.05時,加上校正因子
樣本比例(p)的抽樣型態 若樣本夠大,則p的抽樣分配趨近常態機率分配。 即當np≧5,n(1-p) ≧5時,樣本數可認定足夠形成大樣本。
圖8.2 等待看牙時間(樣本1) 圖8.3 等待看牙時間(樣本2)