1 / 25

統計三大考量要素

統計三大考量要素. 趨中性 離異性 分布 例如班上同學身高: 166, 168, 166, 170, 185, 180, 185, 190, 166, 158, 165, 170, …………→ 不太有人能記得所有數字 , 尤其是超過 20 個 , 30 個 , 50 個 , 100 個 , 1000 個 , .. → 可能更提不上分析與應用此數據。. 皮爾生( Karl Pearson, 1857-1936 ). 偏斜分布 ( skew distribution ) 平均數( mean ) 標準差( standard deviation ) 分布

edaline
Download Presentation

統計三大考量要素

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 統計三大考量要素 • 趨中性 • 離異性 • 分布 • 例如班上同學身高:166, 168, 166, 170, 185, 180, 185, 190, 166, 158, 165, 170, …………→不太有人能記得所有數字, 尤其是超過 20個, 30個, 50個, 100個, 1000個, .. →可能更提不上分析與應用此數據。

  2. 皮爾生(Karl Pearson, 1857-1936) • 偏斜分布 (skew distribution) • 平均數(mean) • 標準差(standard deviation) • 分布 • 對稱(symmetry) • 峰度(kurtosis) →參數 (parameter):希臘文→「幾乎測量」

  3. 集中趨勢 _ n Mean (Average): x = 1/nΣxi i=1 N u = 1/NΣxi i=1 Median: (n+1)/2 (when n = odd) [(n/2)+(n/2 +1)]/2 (when n = even) Mode: 眾數

  4. 集中趨勢 • 平均數 64.3 • 中間值 65 • 眾數 62

  5. 變異數 N Variance (σ2 ) =[Σ(xi – μ)2]/ N i=1 n _ s2 =[Σ(xi – x)2]/ n-1 i=1 Coefficient of Variation (CV): (σ/ μ) × 100% _ (s / x ) × 100%

  6. 標準差 6.18 變異數 38.21 範圍 23 最小值 50 最大值 73 →變異係數: 6.18/ 64.3 = 9.61% 變異數

  7. 分立隨機變數的期望值 k E(X) = Σxi f(xi) i=1 擲一骰子之點數期望值 6 E(X) = Σxi f(xi) = i=1 1 × 1/6 + 2 × 1/6 + 3 × 1/6 + 4 × 1/6 + 5 × 1/6 + 6 × 1/6 = 21/6 = 3.5

  8. 分立隨機變數的變異數 k Var(X) = E((X-μ)2) = Σ(xi – μ)2 f(xi) i=1 擲一骰子之點數變異數與標準差 6 Var(X) = E((X-μ)2) = Σ(xi – μ)2 f(xi) i=1 σ2= (1 - 3.5)2× 1/6 + (2 - 3.5)2× 1/6 + (3 - 3.5)2× 1/6 + (4 - 3.5)2× 1/6 + (5 - 3.5)2× 1/6 + (6 - 3.5)2 × 1/6 = 2.95 σ= √2.92 = 1.71

  9. 有關期望值與變異數性質 E(a) = a E(a+x) = a + E(X) E(bx) = bE(X) E(a+bX) = a + bE(X) Var(a) = 0 Var(a+X) = Var(X) Var(bX) = b2Var(X) Var(a+bX) = b2Var(X)

  10. 分布 • 二項式分布 • 布瓦松分布 • 常態分布

  11. 二項分布之平均數與變異數 平均數 ux = np 變異數 σ2 = np(1-p) = npq When p = 0.5 => 變異數最大 (對稱 symmetric) p < 0.5 => 右偏斜 (skew to right) p > 0.5 => 左偏斜 (skew to left)

  12. 布瓦松分布 Poisson Distribution (Distribution of rare events) P(X=x) = Poisson(μ) = e-μμx / x!; x = 0, 1, 2, … (e = 2.71828) 布瓦松分布之三基本前題: • 在一個區間內,單一事件發生的機率與區間的大小成正比例。 • 在一個區間內,事件發生次數超過一次以上的機率機乎等於 0。 • 在同一個區間內,或不互相重疊的區間,事件發生彼此互相獨立。 n 〔 〕= n! / [x!(n-x)!] => 二項分布 x 當 n 變大,二項分布 做為計算基礎是不切實際 => 當 n 很大, p 很小,二項分布 非常近似布瓦松分布 *

  13. *當 n 很大, p 很小 →二項分布非常近似布瓦松分布 np = 1; n = 10, 50, 100, 500, 1000, X =2 的機率 n p np b(2; n, p) 10 0.1 1 0.1937 50 0.02 1 0.1858 100 0.01 1 0.1849 500 0.002 1 0.1841 1000 0.001 1 0.1840 u = np = 1 P(X=2) = e-112 / 2! = 0.1840

  14. 常態分布(Normal Distribution/Gaussian Distribution) Probability Density Function x2 P(x1≦X≦x2) = ∫ f(x)dx x1 Normal Distribution (Gaussian Distribution) f(x) = 1/(√2πσ)e -1/2[(x-μ)/σ]2 (π = 3.1416) Z = (X-μ)/σ

  15. 常態分布(Normal Distribution/Gaussian Distribution) μ± 1σ = 68.3% μ± 2σ = 95.4% μ± 3σ = 99.7% 查 Z table μ± ?σ = 95% μ± ?σ = 90% μ± ?σ = 99%

  16. 二項式分布與常態分布 When np and n(1-p) are both ≧5 → Binomial Distribution is likely as Normal Distribution

  17. 抽樣與中央極限定理 中央極限定理 (The Central Limit Theorem): • 樣本平均數抽樣分布的平均數等於母群體平均 數。 (2) 樣本平均數抽樣分布的標準差等於 σ/ √n。 (3) 若樣本數 n 夠大,樣本平均數之抽樣分布接近常 態分布。

  18. Student-t - 戈斯特(William Sealy Gosset, 1876-1937)→To 皮爾生:如果你以為我是你認識的人當中,唯一利用小樣本進行研究的人,那你是孤陋寡聞了。 • 小樣本: 學生(Student-t) 檢定 • 如果沒有Student-t 檢定,統計分析師恐怕得先估計出觀測數據的四個參數,再估計這四個參數估計值的四個參數,然後再估計….. ,就這樣一值估計下去,根本沒有機會得到最後的計算結果。戈斯特證明了,分析者可以再第一步就停止計算。 • Student-t 最初基本假設→初始的那組測量是常態分布 • 1967年,史丹福大學的艾夫隆(Bradley Efron)證實,一般的條件下,這項假設(初始的那組測量是常態分布)的是多餘的。

  19. Example: 1. 1976-1980 年,美國 20-74 歲男性之血清膽固醇: 平均數 μ = 211 mg/100 ml, 標準差 σ = 46 mg/100 ml, 若自此族群以 n = 25 重複抽樣, 則樣本平均數大於或等於 230 mg/100 ml 的比例有多少? Answer: n = 25 μ = 211 mg/100 ml σ = 46 mg/100 ml σ x = σ/ √n = 46/√25 = 9.2 mg/100ml x = 230 mg/100ml Z = (x - 211)/ σ x = (230-211)/9.2 = 2.07 查 z 表,Z = 2.07 單尾檢定 P = 0.019 1976-1980 年,美國 20-74 歲男性之血清膽固醇分佈情形及樣本數 25 重複抽樣之抽樣分佈圖。 抽樣分佈 母群體分佈 73 119 165 211 257 303 349 血清膽固醇 (mg/ml) 中央極限定理的應用

  20. 假說檢定 (Hypothesis Testing)

  21. 標準差估計與信賴區間估計

  22. 標準差估計與信賴區間估計

  23. 資料種類與統計分析方法

  24. 資料種類與統計分析方法

  25. 資料種類與統計分析方法

More Related