1 / 27

Mean & Variance

Mean & Variance. Dr. C. Hsieh College of Informatics Kao yuan University. ● 母體 , 群體 (Population): 研究者所欲研究的全部對象所成之集合 樣本 (Sample): 母體的部分集合 ● 參數 , 母數 (Parameter): 描述母體的特徵量數 統計量 (Statistic): 描述樣本的特徵量數. 抽樣 (Sampling). Population. Sample. Parameter. Statistic.

Download Presentation

Mean & Variance

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Mean & Variance Dr. C. Hsieh College of Informatics Kao yuan University

  2. ● 母體,群體(Population): 研究者所欲研究的全部對象所成之集合 樣本(Sample): 母體的部分集合 ● 參數,母數(Parameter): 描述母體的特徵量數 統計量(Statistic): 描述樣本的特徵量數

  3. 抽樣(Sampling) Population Sample Parameter Statistic Population size N Sample size n 推論(inference)

  4. 觀測值(Observations): X1 , X2 , …, Xn 有序統計量(Order Statistics): X(1) , X(2) ,…, X(n) ● 位置量數(Location measures), 集中趨勢量數(Measures of central tendency) ● 差異量數(Dispersion measures)

  5. 用統計數字說話 • 描述資料中心(center)位置的統計數字: • 平均數(mean) • 中位數(median) • 描述資料分散(spread)程度的統計數字: • 四分位(quartiles) • 四分位間距(Interquartile range) • 標準差(standard deviation)

  6. 平均數(mean) • 所有資料加總除以資料個數即為平均數。 • n筆資料分別為x1, x2, …, xn則均數為 • 簡記為

  7. 中位數(median) • 將所有資料由小到大排序後,排在最中間的數,稱為中位數,記為M。 • n筆資料的中位數 • 若 n 為奇數,則排序第(n +1)/2為中位數。 • 若 n 為偶數,則排序第 n /2與第 n/2 +1的平均數為中位數。

  8. 平均數與中位數的比較 • 對稱資料 • 平均數與中位數的數字相當。 • 偏斜資料(skewed data) • 左偏斜資料(skewed to the left): • 中位數在平均數的右邊,即中位數大於平均數。 • 右偏斜資料(skewed to the right): • 中位數在平均數的左邊,即中位數小於平均數。

  9. 右偏斜資料 (Figure 1.4)

  10. Skewed (to the Right) Distribution右偏斜分佈Figure 1.15(b)

  11. Symmetric Distribution對稱分佈Figure 1.15(a)

  12. 四分位數(quartiles) • 將所有資料由小到大排序後, • 排在前面 ¼ 位置的數,稱為第 1 四分位數,記為Q1。 • Q1也可視為前半資料的中位數。 • 排在前面 ¾ 位置的數,稱為第 3 四分位數,記為Q3。 • Q3也可視為後半資料的中位數。 • 四分位間距(inter-quartile range)

  13. 例題1.9 • Mark McGwire 的全壘打數: (偶數) • 9 9 22 32 33 39 39 42 49 52 58 70 • Q1 M Q3 • Babe Ruth 的全壘打數: (奇數) • 22 25 34 35 41 41 46 46 46 47 49 54 54 59 60 • Q1 M Q3

  14. 五數總結與盒形圖 • 五個重要敘述性統計量,最小值、第1 四分位數、中位數、第3 四分位數及最大值又稱為五數總結(five-number summary)。 • 軟體多可算出五數總結的資料。 • 盒形圖(boxplot)將資料的五數總結,以圖形呈現出來。

  15. ● 位置量數: 1.平均數(Mean) (統計量) (參數) 2.中位數(Median) 3.眾數(Mode)

  16. 4.百分位數(Percentile) 第 k 百分位數(k-th Percentile) where Note: 10. Sample size n=50

  17. 20. P50=Md 30. 四分位數(Quartile) Q1= P25 , Q2= P50=Md, Q3= P75 40. 十分位數(Deciles) D1= P10 , D2= P20 , … , D9= P90

  18. ● 差異量數 1.全距(Range) R=X(n) - X(1) 2.四分位距(Interquartile-range) IQR=Q3 - Q1 3.四分位差(Quartile deviation) Q.D.=IQR/2(=Q2 - Q1=Q3 - Q2,對稱資料)

  19. 4.平均絕對偏差(Mean Absolute Deviation) 5.變異數(Variance) , 6.標準差(Standard Deviation) (統計量) (參數)

  20. 樣本數 平均數 標準差 C.V. 成人 160 57.0 11.0 19.3% 小孩 18 5.6 1.4 25.0% 7.變異係數(Coefficient of Variation) (統計量) (參數) 例1. 成人 v.s. 小孩之體重

  21. 平均數 標準差 C.V. 身高 120 15 12.5% 體重 25 5 20.0% 例2. 某一群小孩之身高、體重 如下表

  22. 標準差(Standard Deviation)與變異數(Variance) n筆資料分別為 x1, x2, …, xn,則定義變異數為 簡記為 標準差 s 則為變異數 s2 的平方根

  23. 標準差與變異數實例 • 例題1.10:7位受試者的新陳代謝率,每24小時消耗卡路里數,資料如下: • 1792, 1666, 1362, 1614, 1460, 1867, 1439 • 平均數為 1600卡路里。 • 變異數為 s2= 35,811.67。 • 標準差為 s = 189.24 卡路里。

  24. 標準差與變異數演算

  25. 離差(deviation)圖示 x = 1439 x = 1792 離差= -161 離差= 192 1400 1500 1600 1700 1800 1900 1300

  26. 離差值與自由度 • n筆資料對均值的差稱為離差值,即 • 因為 n個離差值的總和必為零, • 所以第n個離差值,可由前面 n- 1個離差值來決定。我們稱離差值有n- 1個自由度 (degrees of freedom)。

  27. 標準差的運用 • 平均數 被選為度量中心時,標準差s可度量平均值的離散度。 • 所有的資料都一樣時,s = 0,沒有離散度。其他情形 s都大於零。 • 觀測值離平均數越遠時,s就越大。 • s與 和原有的觀察值有相同的單位。 • 高度偏斜或少數離群值會使s變很大。

More Related