1.05k likes | 1.16k Views
第七章 抽樣分配. 一般統計推論. 分成 估計 與 檢定 兩大領域, 估計又分成 點估計 與 信賴區間 兩種,. 7.1 估計 與 誤差. 生態學家認為南極海域的藍鯨存量濱臨絕種邊緣,因此想知道現在的藍鯨存量有多少? 在這個問題中,藍鯨存量就是我們感興趣的 『 參數 』. 參數 ( 藍鯨存量 ) 是多少 ? 可能方法之一是將南極海域的水抽光後,數一數就可數出有多少尾藍鯨 較可行的方式是透過統計的手法獲得資料再做推估. 例 7.1 、南極海域藍鯨存量的估計. 南極海域藍鯨捕獲量愈來愈少捕鯨協會想研究南極的藍鯨存量有多少?. 方法 1. 捕獲量比較法
E N D
一般統計推論 • 分成估計與檢定兩大領域, • 估計又分成點估計與信賴區間兩種,
7.1估計與誤差 • 生態學家認為南極海域的藍鯨存量濱臨絕種邊緣,因此想知道現在的藍鯨存量有多少? • 在這個問題中,藍鯨存量就是我們感興趣的『參數』
參數(藍鯨存量)是多少? • 可能方法之一是將南極海域的水抽光後,數一數就可數出有多少尾藍鯨 • 較可行的方式是透過統計的手法獲得資料再做推估
例7.1、南極海域藍鯨存量的估計 • 南極海域藍鯨捕獲量愈來愈少捕鯨協會想研究南極的藍鯨存量有多少?
方法1 • 捕獲量比較法 如第一次捕捉到270尾, 第二次捕捉到243尾,少了10%。 • 則估計為原有270/0.1 = 2700尾, 但現在則有2187尾。
方法2 • 記號法 • 設第一次捕捉到鯨魚150尾,做記號後放回。 第二次再捕100尾,其中有6尾有記號。 • 則估計鯨魚存量為:
例 男生比率 • 某大學共有學生6672人,某教授想了解此大學中男生所佔的比例。 • 便在某角落觀察經過的學生,看到100位中有40位女生、60位男生,因此他估計全校男生比率是0.6。
事實上,全校學生中有 男生3091人、女生3581人, • 因此母體參數男生比例是 = 3091/6672 0.46, • 而此教授估計男生的比例是0.6。
抽樣誤差 • 其差距0.14有二種來源: • 一是由於抽樣誤差造成,如在同一角落多看幾次(每次都是100人) ,所得男女生比例也會有不同。 • 這種由於樣本抽樣所造成的誤差,稱之為“抽樣誤差”,是“隨機性”,也是先天存在的。 • 要獲得抽樣誤差的數據,這要重覆做很多次(如幾千次、幾萬次才能得到) 。
假設此教授後來又觀察了10天,每天都在同一角落觀察100位學生,如果看到10次的男生人數分別如下:假設此教授後來又觀察了10天,每天都在同一角落觀察100位學生,如果看到10次的男生人數分別如下: 58 50 62 61 46 50 55 52 53 51 • 由此10次算出平均數是54人,所以估計男生比例是0.54 • 它與我們原先估計的男生比例是0.60 ,兩者相差, 0.60 - 0.54 = 0.06 • 即為抽樣誤差。
方法偏差 • 此教授在這個角落觀察過往的學生,這種抽查方式也有可能造成偏差,也許這個角落離男生宿舍較近,男生經過的比例偏高,此為偏差的來源。 • 如果每位學生(不論男女生)經過此角落機會均等,則看到男生的比例應是母體的比率0.46 。 • 事實上,因男生經過此角落的機會較大故造成看到男生的比例為0.54 。 • 此兩者的差異0.54-0.46=0.08, 即為方法偏差。
0.60(估計值) = 0.46(參數) + 0.08(方法偏差) + 0.06(抽樣誤差)
7.2 樣本平均數的分配 • 隨機抽樣得到一組資料x1, ..., xn後,我們最常計算的兩個統計量是 樣本平均數 樣本標準差S • 雖然資料是從同一母體抽樣, 但每次抽出的n個樣本會不同,因此算出的樣本平均數、標準差S也會不一樣,所以我們稱 、S是“隨機變數”
既然每次抽樣算出的 、S不同, • 我們有必要了解 、S的抽樣分佈長像是如何?
全國成年男人(約600萬人)的平均身高是多少公分?全國成年男人(約600萬人)的平均身高是多少公分?
樣本平均數 = 168.8, 標準差s = 6.3。 • 如果以這樣的結果做母體平均數 的估計,則估計誤差是 - = 169.5 - 168.8 = 0.7(公分)
樣本平均數 = 171.3,標準差s = 6.8。 • 如果以第二組抽樣的平均數=171.3, 當做所有全國成年人平均身高的估計, • 則估計誤差為 - = 169.5 - 171.3 = - 1.8
隨機變數 • 由上面兩次抽樣結果,我們知道每次 抽樣的資料會變動(故稱xi為“隨機變數”) • 而得到的樣本平均數 也隨之變動 (故也是隨機變數) • 因此估計誤差也是不確定的
X 7.3 100 圖 全國成年男人抽樣 位平均身高 的分佈 1400 1300 1200 1100 1000 次數 900 800 700 600 500 400 300 200 100 0 166.4 166.8 167.2 167.6 168.0 168.4 168.8 169.2 169.6 170.0 170.4 170.8 171.2 171.6 172.0 172.4
(1)此直方圖應像對稱的鐘形(即常態分配)。 (2)此直方圖的中心點(也就是直方圖最高 的部份)仍然是在169.5附近。 (3)此直方圖比原先600萬位身高所畫直方圖更集中在中心點附近,即這些的標準差較原先母體Xi的標準差小。 (4)這10,000個平均數的標準差是0.653比原先的母體(600萬人的身高)的標準差6.5小很,大約是原來的1/10 。
1. 誤差在1公分之內的機會? 抽樣誤差
2. 估計誤差在1.3公分之內的機率? 抽樣誤差
信賴度 3. 控制估計誤差在1公分之內而對的機會有 95%時,那應取多少樣本呢?
1100 1000 900 800 次數 700 ( 600 500 單位:千 400 300 200 人 100 次 0 ) 136 140 144 148 152 156 160 164 168 172 176 180 184 188 192 196 200 全國成年女生610萬人其身高分佈
7.5 圖 全國成年人身高分佈 1300 1200 1100 次數 1000 ( 900 800 700 600 單位:千人次 500 400 300 ) 200 100 0 136 140 144 148 152 156 160 164 168 172 176 180 184 188 192 196 200 m s =164.21 = 7.8831 所有成年人的平均身高是 ,標準差 。
中央極限定理 • 常態分配在理論上有很多好的結果,統計學上常假設資料是常態分配,例如常聽到常態分班、常模、常態曲線等等 • 這些假設的依據是什麼呢? 就是中央極限定理的功勞
(1) 「不論原母體是什麼分配」, • 不管母體資料是連續型或離散型、 對稱或不對稱、右偏或左偏, 甚至是單峰或多峰都無所謂, • 只要樣本數n“足夠大”, 分配 就會變成像鐘形的常態分配。
(2)抽樣樣本數不論是多少個, 代表資料“中心點”的樣本平均數的 期望值與原母體分配的期望值都相同