250 likes | 620 Views
統計三大考量要素. 趨中性 離異性 分布 例如班上同學身高: 166, 168, 166, 170, 185, 180, 185, 190, 166, 158, 165, 170, …………→ 不太有人能記得所有數字 , 尤其是超過 20 個 , 30 個 , 50 個 , 100 個 , 1000 個 , .. → 可能更提不上分析與應用此數據。. 皮爾生( Karl Pearson, 1857-1936 ). 偏斜分布 ( skew distribution ) 平均數( mean ) 標準差( standard deviation ) 分布
E N D
統計三大考量要素 • 趨中性 • 離異性 • 分布 • 例如班上同學身高:166, 168, 166, 170, 185, 180, 185, 190, 166, 158, 165, 170, …………→不太有人能記得所有數字, 尤其是超過 20個, 30個, 50個, 100個, 1000個, .. →可能更提不上分析與應用此數據。
皮爾生(Karl Pearson, 1857-1936) • 偏斜分布 (skew distribution) • 平均數(mean) • 標準差(standard deviation) • 分布 • 對稱(symmetry) • 峰度(kurtosis) →參數 (parameter):希臘文→「幾乎測量」
集中趨勢 _ n Mean (Average): x = 1/nΣxi i=1 N u = 1/NΣxi i=1 Median: (n+1)/2 (when n = odd) [(n/2)+(n/2 +1)]/2 (when n = even) Mode: 眾數
集中趨勢 • 平均數 64.3 • 中間值 65 • 眾數 62
變異數 N Variance (σ2 ) =[Σ(xi – μ)2]/ N i=1 n _ s2 =[Σ(xi – x)2]/ n-1 i=1 Coefficient of Variation (CV): (σ/ μ) × 100% _ (s / x ) × 100%
標準差 6.18 變異數 38.21 範圍 23 最小值 50 最大值 73 →變異係數: 6.18/ 64.3 = 9.61% 變異數
分立隨機變數的期望值 k E(X) = Σxi f(xi) i=1 擲一骰子之點數期望值 6 E(X) = Σxi f(xi) = i=1 1 × 1/6 + 2 × 1/6 + 3 × 1/6 + 4 × 1/6 + 5 × 1/6 + 6 × 1/6 = 21/6 = 3.5
分立隨機變數的變異數 k Var(X) = E((X-μ)2) = Σ(xi – μ)2 f(xi) i=1 擲一骰子之點數變異數與標準差 6 Var(X) = E((X-μ)2) = Σ(xi – μ)2 f(xi) i=1 σ2= (1 - 3.5)2× 1/6 + (2 - 3.5)2× 1/6 + (3 - 3.5)2× 1/6 + (4 - 3.5)2× 1/6 + (5 - 3.5)2× 1/6 + (6 - 3.5)2 × 1/6 = 2.95 σ= √2.92 = 1.71
有關期望值與變異數性質 E(a) = a E(a+x) = a + E(X) E(bx) = bE(X) E(a+bX) = a + bE(X) Var(a) = 0 Var(a+X) = Var(X) Var(bX) = b2Var(X) Var(a+bX) = b2Var(X)
分布 • 二項式分布 • 布瓦松分布 • 常態分布
二項分布之平均數與變異數 平均數 ux = np 變異數 σ2 = np(1-p) = npq When p = 0.5 => 變異數最大 (對稱 symmetric) p < 0.5 => 右偏斜 (skew to right) p > 0.5 => 左偏斜 (skew to left)
布瓦松分布 Poisson Distribution (Distribution of rare events) P(X=x) = Poisson(μ) = e-μμx / x!; x = 0, 1, 2, … (e = 2.71828) 布瓦松分布之三基本前題: • 在一個區間內,單一事件發生的機率與區間的大小成正比例。 • 在一個區間內,事件發生次數超過一次以上的機率機乎等於 0。 • 在同一個區間內,或不互相重疊的區間,事件發生彼此互相獨立。 n 〔 〕= n! / [x!(n-x)!] => 二項分布 x 當 n 變大,二項分布 做為計算基礎是不切實際 => 當 n 很大, p 很小,二項分布 非常近似布瓦松分布 *
*當 n 很大, p 很小 →二項分布非常近似布瓦松分布 np = 1; n = 10, 50, 100, 500, 1000, X =2 的機率 n p np b(2; n, p) 10 0.1 1 0.1937 50 0.02 1 0.1858 100 0.01 1 0.1849 500 0.002 1 0.1841 1000 0.001 1 0.1840 u = np = 1 P(X=2) = e-112 / 2! = 0.1840
常態分布(Normal Distribution/Gaussian Distribution) Probability Density Function x2 P(x1≦X≦x2) = ∫ f(x)dx x1 Normal Distribution (Gaussian Distribution) f(x) = 1/(√2πσ)e -1/2[(x-μ)/σ]2 (π = 3.1416) Z = (X-μ)/σ
常態分布(Normal Distribution/Gaussian Distribution) μ± 1σ = 68.3% μ± 2σ = 95.4% μ± 3σ = 99.7% 查 Z table μ± ?σ = 95% μ± ?σ = 90% μ± ?σ = 99%
二項式分布與常態分布 When np and n(1-p) are both ≧5 → Binomial Distribution is likely as Normal Distribution
抽樣與中央極限定理 中央極限定理 (The Central Limit Theorem): • 樣本平均數抽樣分布的平均數等於母群體平均 數。 (2) 樣本平均數抽樣分布的標準差等於 σ/ √n。 (3) 若樣本數 n 夠大,樣本平均數之抽樣分布接近常 態分布。
Student-t - 戈斯特(William Sealy Gosset, 1876-1937)→To 皮爾生:如果你以為我是你認識的人當中,唯一利用小樣本進行研究的人,那你是孤陋寡聞了。 • 小樣本: 學生(Student-t) 檢定 • 如果沒有Student-t 檢定,統計分析師恐怕得先估計出觀測數據的四個參數,再估計這四個參數估計值的四個參數,然後再估計….. ,就這樣一值估計下去,根本沒有機會得到最後的計算結果。戈斯特證明了,分析者可以再第一步就停止計算。 • Student-t 最初基本假設→初始的那組測量是常態分布 • 1967年,史丹福大學的艾夫隆(Bradley Efron)證實,一般的條件下,這項假設(初始的那組測量是常態分布)的是多餘的。
Example: 1. 1976-1980 年,美國 20-74 歲男性之血清膽固醇: 平均數 μ = 211 mg/100 ml, 標準差 σ = 46 mg/100 ml, 若自此族群以 n = 25 重複抽樣, 則樣本平均數大於或等於 230 mg/100 ml 的比例有多少? Answer: n = 25 μ = 211 mg/100 ml σ = 46 mg/100 ml σ x = σ/ √n = 46/√25 = 9.2 mg/100ml x = 230 mg/100ml Z = (x - 211)/ σ x = (230-211)/9.2 = 2.07 查 z 表,Z = 2.07 單尾檢定 P = 0.019 1976-1980 年,美國 20-74 歲男性之血清膽固醇分佈情形及樣本數 25 重複抽樣之抽樣分佈圖。 抽樣分佈 母群體分佈 73 119 165 211 257 303 349 血清膽固醇 (mg/ml) 中央極限定理的應用