1 / 51

第 3 章

第 3 章. 敘述統計:數值方法 Part A (3.1-3.2). 本章內容. 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數、相對位置,以及離群值 的偵測 3.4 五數彙總與箱形圖 3.5 兩變數的相關性量數 3.6 加權平均數與群組資料的處理. 第 3 章 敘述統計:數值方法 Part A (3.1 - 3.2) 第 83-124 頁. 3.1 位置量數. 測量值是由樣本資料計算而得,則稱之為

owen-small
Download Presentation

第 3 章

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 第 3 章 敘述統計:數值方法 Part A (3.1-3.2)

  2. 本章內容 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數、相對位置,以及離群值 的偵測 3.4 五數彙總與箱形圖 3.5 兩變數的相關性量數 3.6 加權平均數與群組資料的處理 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第83-124頁

  3. 3.1 位置量數 測量值是由樣本資料計算而得,則稱之為 樣本統計量(sample statistics)。 若是由整個母體計算而得,則稱之為 母體參數(population parameters)。 統計推論中,樣本統計量是指 相對應的母體參數的 點估計量(point estimator)。 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第84-85頁

  4. 平均數 一個變數最重要的位置量數或許是平均數 (mean 或 average value)。 平均數是一種中央位置量數。 若此資料來自某一樣本,則平均數記為 。 若此資料來自某一母體,則以希臘字母 μ表示之。 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第85頁

  5. 樣本平均數 資料集中 n 個觀察值 的總和 觀察值的樣本數 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第85頁

  6. 母體平均數 資料集中 N 個觀察值的總和 觀察值的樣本數 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第86頁

  7. 平均數實例 假設某大學的就業輔導室寄出一份問卷給被抽中的商學院畢業生,以調查工作起薪。 表3.1為所蒐集的資料。 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第83-84頁 表3.1

  8. 平均數實例 樣本中12個商學院畢業生之平均起薪計算如下。 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第86頁

  9. 加權平均數 某些情況為反映個別觀察值的重要性,計算平均數時要對每一觀察值加上權重,以此方式計算而得到的值即稱為加權平均數 (weighted mean)。 當資料來自樣本時,式(3.15)提供了樣本加權平均數的算法,當資料來自母體時,我們可以用 μ取代 ,則式(3.15)也可用來計算母體加權平均數。 加權平均數中所使用的權重依實際情況各有不同。 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第87頁

  10. 加權平均數 加權資料值的總和 當資料來自母體時,可以用 μ取代 權重的總和 其中 xi= 第 i 個觀察值 wi= 第i 個觀察值的權重 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第87頁

  11. 加權平均數實例 以下是一個加權平均數的例子,我們以過去3個月所做的5次採購來做說明。 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第87頁

  12. 加權平均數實例 我們可以由資料中觀察到,每磅成本由 $2.80至 $3.40不等,而且採購數量在500至2750磅之間,假設經理想要瞭解原料每磅的平均成本,由於訂購數量各有不同,我們必須應用加權平均數的觀念。資料顯示5筆原料每磅成本分別為 x1=3.00、 x2=3.40、x3=2.80、x4=2.90及 x5=3.25,則 每磅成本的加權平均成本等於每項成本乘上其對應採購量加權而得。 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第87頁

  13. 加權平均數實例 所以,本例的權重分別為 w1=1200、w2=500、w3=2750、w4=1000及w5=800,應用式(3.3),我們可以求得加權平均數: 由加權平均數的計算,可以得到原料的每磅平均成本等於 $2.96。值得注意的是,若我們使用式 (3.2) 而非加權平均數的公式(3.3),將誤導結果。因為(3.00+3.40+2.80+2.90+3.25)/5=15.35/5=$3.07。這個結果高估了每磅平均採購成本。 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第87頁

  14. 加權平均數實例 加權平均數中所使用的權重依實際情況各有不同。以學生的平均成績為例,4代表 A,3 代表 B,2 代表 C,1 則代表 D,0 則代表 F,權重則為學分數,習題 10即提供一個練習的例子。其他的加權平均數的例子中磅數、金額、及/或數量等等都常被用來當成權重。不管何種情況,只要觀察值的重要性是不相同的,分析人員就必須使用權重以反映每個觀察值在平均數中的重要性。 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第88頁

  15. 中位數 中位數(median)是變數的另一種中央位置量數。 將資料值由小排到大時,中位數為中間的那一個值。 若資料個數為奇數時,中位數即位於中間的數值;若資料項目為偶數時,就沒有單一的中間項。 根據傳統的中位數定義,將中間兩個值之平均數當作中位數。 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第88頁

  16. 中位數 • 將資料遞增排列(即由小到大排列) • 資料值為奇數項時,中位數為此資料之中間值。 • 資料值為偶數項時,中位數為此資料之中間兩個數值的平均數。 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第87頁

  17. 中位數實例 3710 3755 3850 3880 3880 3890 3920 3940 3950 4050 4130 4325 中間兩個值 計算表 3.1 中商學院12位畢業生起薪的中位數,將資料遞增排列後如下 因為n=12是偶數,故有兩個中間值:3890 和3920,中位數為此兩個值之平均。 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第88頁

  18. 幾何平均數 幾何平均數 (geometric mean) 是位置量數,由 n 個值的連乘積的 n 次方根,幾何平均數表示為 。 幾何平均數常用來分析財務資料的成長率。 幾何平均數特別普遍地運用在財務、金融及銀行相關的問題,只要你想決定經過若干連續時期的平均成長率,就可運用幾何平均數。 其他普遍運用包括物種族群、農作物生產、汙染水準及出生率的改變。 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第89.91頁

  19. 幾何平均數 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第89頁

  20. 眾數 眾數(mode)眾數是資料集中出現次數最多的資料值。 當資料集中出現次數最多的值有兩個或以上時,眾數就不只一個。 若資料集恰有兩個眾數,則稱此資料為雙峰(bimodal)。 若出現兩個以上的眾數時,則稱為多峰(multimodal)。 第3章敘述統計:數值方法 Part A (3.1-3.2) 第91頁

  21. 眾數實例 表3.1的商學院畢業生起薪樣本,僅有月薪$3880出現過2次(其餘均為1次),因此$3880就是眾數。 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第91頁

  22. 百分位數 • 百分位數(percentile)也是一種位置量數,有助於瞭解資料在最小值與最大值間的分布情況。 • 針對那些沒有太多重複的資料集而言,p-百分位數可將資料分割成兩部分,大約 p-百分比的觀察值會小於 p-百分位數;而大約有(100-p)百分比的觀察值會大於 p-百分位數。 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第91-92頁

  23. 百分位數 p-百分位數表示至少有 p-百分比 (百分之 p) 的觀察值小於或等於它,而至少有 (100-p) 百分比的觀察值大於或等於它。 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第92頁

  24. 計算百分位數 i = (p/100)n • 步驟1.將資料遞增排列,即由小到大排序。 • 步驟2.計算指標 i p為百分位,n為觀察值的個數。 • 步驟3. • (a)若i 不是整數,無條件進位後的整數即 p-百分位數的位置。 • (b)若 i 是整數,則 p-百分位數為資料排序後的第 i 個與第 i+1 個觀察值之平均數。 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第92頁

  25. 百分位數實例 • 求表3.1起薪資料的85-百分位數。 • 步驟 1.將資料集的所有資料由小到大排序。3310 3355 3450 3480 34803490 3520 35403550 3650 3730 3925 • 步驟 2. • 步驟3. 因為 i 不為整數,無條件進位為11,即85-百分位數的位置指標。因此,85-百分位數排在第11位。 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第92頁

  26. 百分位數實例 再看看50-百分位數的計算過程,由步驟2得知 因為 i是整數,步驟3(b)指出50-百分位數為排序資料的第6個與第7個數值的平均數;因此,50-百分位數為(3890+3920)/2=3905。要注意的是,此處的50-百分位數也是中位數。 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第92-93頁

  27. 四分位數 四分位數(quartiles)是百分位數的特例。 Q1= 第一四分位數或25-百分位數 Q2 = 第二四分位數或50-百分位數(即中位數) Q3= 第三四分位數或75-百分位數 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第93頁

  28. 四分位數實例 3310 3355 3450 3480 3480 3490 3520 3540 3550 3650 3730 3925 將起薪資料再次重新由小到大排序後,第二四分位數(即中位數)為3905。 我們需利用找出25-與75-百分位數的規則來得到第一四分位數Q1與第三四分位數Q3,計算如下。 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第93頁

  29. 四分位數實例 對Q1而言: 因為 i 是整數,步驟3(b)指出第一四分位數,或25-百分位數,為第3個與第4個資料之平均數。因此,Q1 =(3850+3880)/2=3865。 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第93頁

  30. 四分位數實例 對Q3而言: 因為 i 為整數,步驟3(b)指出第三四分位數,或75-百分位數,為第9個與第10個資料之平均數,因此, Q3 =(3950+4050)/2=4000。 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第93頁

  31. 四分位數實例 四分位數將 12 個資料分成四部分,而每一部分均包含 25% 的觀察值。 我們定義了25-百分位數、50-百分位數、75-百分位數等三個四分位數後,便可利用計算百分位數的規則求出四分位數。 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第93-94頁

  32. 評註 當資料集出現極端值時,中位數會比平均數更合適作為中央位置量數。極端值存在時,有時會用到另一種量數,稱做截尾平均數 (trimmed mean) ,截尾平均數是刪除資料集的極小值與極大值後,剩下資料值的平均數。例如, 5 % 的截尾平均數即是刪除最小的 5 %,以及最大的 5 % 觀察值後得到的平均數。以n = 12 筆起薪資料的樣本為例, 12 筆資料的 5 % 是 12 ×0. 05 = 0.6,將 0.6 進位為 l ,表示 5 % 的修正平均數是將最高的一筆起薪與最低的一筆起薪刪除後,再求10比起薪資料的平均值。因此,對起薪資料的樣本而言, 5 % 的截尾平均數是 3924.50。 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第94頁

  33. 評註 其他常用的百分位數是五分位數 (quintiles) ( 20-、 40-、 60- 及 80-百分位數),以及十分位數 ( 10-、20-、 30-、 40-、 50-、 60-、 70-、 80- 及 90-百分位數)。 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第94頁

  34. 3.2 離散量數 除了位置量數外,我們還常希望能知道離散量數或變異量數。 例如,向兩家不同的供應商訂貨,不僅要考慮其平均運送時間,還要考慮其運送時間的變異性。 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第97頁

  35. 全距 最簡單的離散量數就是全距(range)。 全距 = 最大值 - 最小值 全距僅用到資料中的兩個值,因此深受極端值的影響。 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第97-98頁

  36. 全距實例 參考表 3.1 商學院畢業生的起薪資料,最大值是 4325,最小值是 3710,全距就是4325-3710=615。 假設有一位畢業生的每月起薪是 $10,000,此例中的全距變為 10,000-3710=6290 而不是 615,這個值並不是非常適合描述資料集的變動性,因為 12 個資料中的 11 個資料均是在 3710 與 4130 之間。 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第98頁

  37. 四分位距 • 四分位距(interquartile range, IQR)是第三四分位數 Q3與第一四分位數 Q1的差。 • IQR= Q3-Q1 • IQR為中間50% 資料的全距。 • 能克服極端資料值的離散量數。 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第98頁

  38. 四分位距實例 參考表3.1商學院畢業生的起薪資料,對每月起薪資料而言,第三四分位數與第一四分位數分別為 Q3=4000 與 Q1=3865,因此,IQR 為 4000-3865=135。 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第98頁

  39. 變異數 變異數(variance)是利用到全部資料的離散量數。變異數是根據每一個觀察值( xi )與平均數之差而 求得。每一個觀察值 xi與平均數( 為樣本平均 數,μ為母體平均數)之差稱為離差(deviation about the mean)。 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第98頁

  40. 變異數 母體變異數 樣本變異數 當樣本平均數的差距平方和除以n-1,而非 n時,此樣本變異數為母體變異數的不偏估計量。 變異數之定義如下: 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第98-99頁

  41. 利用3.1節中五個大學班級人數的樣本為例。 資料的彙總在表3.3,包括離差及離差平方。離差平方的總和為 。因此,在 n-1=4 時,樣本變異數為 變異數實例 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第99頁

  42. 變異數實例 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第99頁 表3.3

  43. 以表3.1的起薪資料為例,說明樣本變異數的計算,在3.1節中,我們算出樣本平均起薪值為3940。樣本變異數(s2=27,440.91)的結果列於表3.4。以表3.1的起薪資料為例,說明樣本變異數的計算,在3.1節中,我們算出樣本平均起薪值為3940。樣本變異數(s2=27,440.91)的結果列於表3.4。 表3.3與3.4中值得注意的是,我們算出離差與離差平方的總和。對於任何資料集,離差的總和必為0。因此,如同表3.3與表3.4顯示 ,這是恆成立的,因為正的離差與負的離差會相互抵銷,而使得離差的總和為 0。 變異數實例 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第99頁

  44. 表3.4 起薪資料樣本變異數的計算 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第100頁 表3.4

  45. 標準差 標準差(standard deviation)的定義是變異數的正平方根。 標準差比變異係數容易解釋,因為標準差的衡量單位與資料相同。 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第100頁

  46. 標準差 樣本標準差 母體標準差 由變異數得到標準差的方法如下。 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第100頁

  47. 標準差實例 以表3.1的起薪資料為例,樣本標準差為 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第100頁

  48. 變異係數 樣本變異係數 母體變異係數 變異係數是變異性的相對衡量,它衡量標準差相對於平均值的大小。 變異係數計算如下: 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第100-101頁

  49. 變異係數實例 以表3.1起薪資料為例,其樣本平均數 3940 與樣本標準差 165.65,變異係數為[(165.65/3940)×100]%=4.2%。 一般而言,欲比較具有不同的標準差與平均數的資料之離散程度時,變異係數是一個有用的統計量。 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第101頁

  50. 表3.1 起薪資料為例 此樣本之標準差佔平均數的4.7% 變異數 標準差 變異係數 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第98-101頁

More Related