510 likes | 671 Views
第 3 章. 敘述統計:數值方法 Part A (3.1-3.2). 本章內容. 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數、相對位置,以及離群值 的偵測 3.4 五數彙總與箱形圖 3.5 兩變數的相關性量數 3.6 加權平均數與群組資料的處理. 第 3 章 敘述統計:數值方法 Part A (3.1 - 3.2) 第 83-124 頁. 3.1 位置量數. 測量值是由樣本資料計算而得,則稱之為
E N D
第 3 章 敘述統計:數值方法 Part A (3.1-3.2)
本章內容 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數、相對位置,以及離群值 的偵測 3.4 五數彙總與箱形圖 3.5 兩變數的相關性量數 3.6 加權平均數與群組資料的處理 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第83-124頁
3.1 位置量數 測量值是由樣本資料計算而得,則稱之為 樣本統計量(sample statistics)。 若是由整個母體計算而得,則稱之為 母體參數(population parameters)。 統計推論中,樣本統計量是指 相對應的母體參數的 點估計量(point estimator)。 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第84-85頁
平均數 一個變數最重要的位置量數或許是平均數 (mean 或 average value)。 平均數是一種中央位置量數。 若此資料來自某一樣本,則平均數記為 。 若此資料來自某一母體,則以希臘字母 μ表示之。 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第85頁
樣本平均數 資料集中 n 個觀察值 的總和 觀察值的樣本數 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第85頁
母體平均數 資料集中 N 個觀察值的總和 觀察值的樣本數 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第86頁
平均數實例 假設某大學的就業輔導室寄出一份問卷給被抽中的商學院畢業生,以調查工作起薪。 表3.1為所蒐集的資料。 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第83-84頁 表3.1
平均數實例 樣本中12個商學院畢業生之平均起薪計算如下。 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第86頁
加權平均數 某些情況為反映個別觀察值的重要性,計算平均數時要對每一觀察值加上權重,以此方式計算而得到的值即稱為加權平均數 (weighted mean)。 當資料來自樣本時,式(3.15)提供了樣本加權平均數的算法,當資料來自母體時,我們可以用 μ取代 ,則式(3.15)也可用來計算母體加權平均數。 加權平均數中所使用的權重依實際情況各有不同。 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第87頁
加權平均數 加權資料值的總和 當資料來自母體時,可以用 μ取代 權重的總和 其中 xi= 第 i 個觀察值 wi= 第i 個觀察值的權重 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第87頁
加權平均數實例 以下是一個加權平均數的例子,我們以過去3個月所做的5次採購來做說明。 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第87頁
加權平均數實例 我們可以由資料中觀察到,每磅成本由 $2.80至 $3.40不等,而且採購數量在500至2750磅之間,假設經理想要瞭解原料每磅的平均成本,由於訂購數量各有不同,我們必須應用加權平均數的觀念。資料顯示5筆原料每磅成本分別為 x1=3.00、 x2=3.40、x3=2.80、x4=2.90及 x5=3.25,則 每磅成本的加權平均成本等於每項成本乘上其對應採購量加權而得。 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第87頁
加權平均數實例 所以,本例的權重分別為 w1=1200、w2=500、w3=2750、w4=1000及w5=800,應用式(3.3),我們可以求得加權平均數: 由加權平均數的計算,可以得到原料的每磅平均成本等於 $2.96。值得注意的是,若我們使用式 (3.2) 而非加權平均數的公式(3.3),將誤導結果。因為(3.00+3.40+2.80+2.90+3.25)/5=15.35/5=$3.07。這個結果高估了每磅平均採購成本。 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第87頁
加權平均數實例 加權平均數中所使用的權重依實際情況各有不同。以學生的平均成績為例,4代表 A,3 代表 B,2 代表 C,1 則代表 D,0 則代表 F,權重則為學分數,習題 10即提供一個練習的例子。其他的加權平均數的例子中磅數、金額、及/或數量等等都常被用來當成權重。不管何種情況,只要觀察值的重要性是不相同的,分析人員就必須使用權重以反映每個觀察值在平均數中的重要性。 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第88頁
中位數 中位數(median)是變數的另一種中央位置量數。 將資料值由小排到大時,中位數為中間的那一個值。 若資料個數為奇數時,中位數即位於中間的數值;若資料項目為偶數時,就沒有單一的中間項。 根據傳統的中位數定義,將中間兩個值之平均數當作中位數。 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第88頁
中位數 • 將資料遞增排列(即由小到大排列) • 資料值為奇數項時,中位數為此資料之中間值。 • 資料值為偶數項時,中位數為此資料之中間兩個數值的平均數。 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第87頁
中位數實例 3710 3755 3850 3880 3880 3890 3920 3940 3950 4050 4130 4325 中間兩個值 計算表 3.1 中商學院12位畢業生起薪的中位數,將資料遞增排列後如下 因為n=12是偶數,故有兩個中間值:3890 和3920,中位數為此兩個值之平均。 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第88頁
幾何平均數 幾何平均數 (geometric mean) 是位置量數,由 n 個值的連乘積的 n 次方根,幾何平均數表示為 。 幾何平均數常用來分析財務資料的成長率。 幾何平均數特別普遍地運用在財務、金融及銀行相關的問題,只要你想決定經過若干連續時期的平均成長率,就可運用幾何平均數。 其他普遍運用包括物種族群、農作物生產、汙染水準及出生率的改變。 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第89.91頁
幾何平均數 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第89頁
眾數 眾數(mode)眾數是資料集中出現次數最多的資料值。 當資料集中出現次數最多的值有兩個或以上時,眾數就不只一個。 若資料集恰有兩個眾數,則稱此資料為雙峰(bimodal)。 若出現兩個以上的眾數時,則稱為多峰(multimodal)。 第3章敘述統計:數值方法 Part A (3.1-3.2) 第91頁
眾數實例 表3.1的商學院畢業生起薪樣本,僅有月薪$3880出現過2次(其餘均為1次),因此$3880就是眾數。 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第91頁
百分位數 • 百分位數(percentile)也是一種位置量數,有助於瞭解資料在最小值與最大值間的分布情況。 • 針對那些沒有太多重複的資料集而言,p-百分位數可將資料分割成兩部分,大約 p-百分比的觀察值會小於 p-百分位數;而大約有(100-p)百分比的觀察值會大於 p-百分位數。 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第91-92頁
百分位數 p-百分位數表示至少有 p-百分比 (百分之 p) 的觀察值小於或等於它,而至少有 (100-p) 百分比的觀察值大於或等於它。 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第92頁
計算百分位數 i = (p/100)n • 步驟1.將資料遞增排列,即由小到大排序。 • 步驟2.計算指標 i p為百分位,n為觀察值的個數。 • 步驟3. • (a)若i 不是整數,無條件進位後的整數即 p-百分位數的位置。 • (b)若 i 是整數,則 p-百分位數為資料排序後的第 i 個與第 i+1 個觀察值之平均數。 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第92頁
百分位數實例 • 求表3.1起薪資料的85-百分位數。 • 步驟 1.將資料集的所有資料由小到大排序。3310 3355 3450 3480 34803490 3520 35403550 3650 3730 3925 • 步驟 2. • 步驟3. 因為 i 不為整數,無條件進位為11,即85-百分位數的位置指標。因此,85-百分位數排在第11位。 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第92頁
百分位數實例 再看看50-百分位數的計算過程,由步驟2得知 因為 i是整數,步驟3(b)指出50-百分位數為排序資料的第6個與第7個數值的平均數;因此,50-百分位數為(3890+3920)/2=3905。要注意的是,此處的50-百分位數也是中位數。 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第92-93頁
四分位數 四分位數(quartiles)是百分位數的特例。 Q1= 第一四分位數或25-百分位數 Q2 = 第二四分位數或50-百分位數(即中位數) Q3= 第三四分位數或75-百分位數 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第93頁
四分位數實例 3310 3355 3450 3480 3480 3490 3520 3540 3550 3650 3730 3925 將起薪資料再次重新由小到大排序後,第二四分位數(即中位數)為3905。 我們需利用找出25-與75-百分位數的規則來得到第一四分位數Q1與第三四分位數Q3,計算如下。 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第93頁
四分位數實例 對Q1而言: 因為 i 是整數,步驟3(b)指出第一四分位數,或25-百分位數,為第3個與第4個資料之平均數。因此,Q1 =(3850+3880)/2=3865。 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第93頁
四分位數實例 對Q3而言: 因為 i 為整數,步驟3(b)指出第三四分位數,或75-百分位數,為第9個與第10個資料之平均數,因此, Q3 =(3950+4050)/2=4000。 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第93頁
四分位數實例 四分位數將 12 個資料分成四部分,而每一部分均包含 25% 的觀察值。 我們定義了25-百分位數、50-百分位數、75-百分位數等三個四分位數後,便可利用計算百分位數的規則求出四分位數。 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第93-94頁
評註 當資料集出現極端值時,中位數會比平均數更合適作為中央位置量數。極端值存在時,有時會用到另一種量數,稱做截尾平均數 (trimmed mean) ,截尾平均數是刪除資料集的極小值與極大值後,剩下資料值的平均數。例如, 5 % 的截尾平均數即是刪除最小的 5 %,以及最大的 5 % 觀察值後得到的平均數。以n = 12 筆起薪資料的樣本為例, 12 筆資料的 5 % 是 12 ×0. 05 = 0.6,將 0.6 進位為 l ,表示 5 % 的修正平均數是將最高的一筆起薪與最低的一筆起薪刪除後,再求10比起薪資料的平均值。因此,對起薪資料的樣本而言, 5 % 的截尾平均數是 3924.50。 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第94頁
評註 其他常用的百分位數是五分位數 (quintiles) ( 20-、 40-、 60- 及 80-百分位數),以及十分位數 ( 10-、20-、 30-、 40-、 50-、 60-、 70-、 80- 及 90-百分位數)。 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第94頁
3.2 離散量數 除了位置量數外,我們還常希望能知道離散量數或變異量數。 例如,向兩家不同的供應商訂貨,不僅要考慮其平均運送時間,還要考慮其運送時間的變異性。 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第97頁
全距 最簡單的離散量數就是全距(range)。 全距 = 最大值 - 最小值 全距僅用到資料中的兩個值,因此深受極端值的影響。 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第97-98頁
全距實例 參考表 3.1 商學院畢業生的起薪資料,最大值是 4325,最小值是 3710,全距就是4325-3710=615。 假設有一位畢業生的每月起薪是 $10,000,此例中的全距變為 10,000-3710=6290 而不是 615,這個值並不是非常適合描述資料集的變動性,因為 12 個資料中的 11 個資料均是在 3710 與 4130 之間。 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第98頁
四分位距 • 四分位距(interquartile range, IQR)是第三四分位數 Q3與第一四分位數 Q1的差。 • IQR= Q3-Q1 • IQR為中間50% 資料的全距。 • 能克服極端資料值的離散量數。 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第98頁
四分位距實例 參考表3.1商學院畢業生的起薪資料,對每月起薪資料而言,第三四分位數與第一四分位數分別為 Q3=4000 與 Q1=3865,因此,IQR 為 4000-3865=135。 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第98頁
變異數 變異數(variance)是利用到全部資料的離散量數。變異數是根據每一個觀察值( xi )與平均數之差而 求得。每一個觀察值 xi與平均數( 為樣本平均 數,μ為母體平均數)之差稱為離差(deviation about the mean)。 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第98頁
變異數 母體變異數 樣本變異數 當樣本平均數的差距平方和除以n-1,而非 n時,此樣本變異數為母體變異數的不偏估計量。 變異數之定義如下: 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第98-99頁
利用3.1節中五個大學班級人數的樣本為例。 資料的彙總在表3.3,包括離差及離差平方。離差平方的總和為 。因此,在 n-1=4 時,樣本變異數為 變異數實例 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第99頁
變異數實例 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第99頁 表3.3
以表3.1的起薪資料為例,說明樣本變異數的計算,在3.1節中,我們算出樣本平均起薪值為3940。樣本變異數(s2=27,440.91)的結果列於表3.4。以表3.1的起薪資料為例,說明樣本變異數的計算,在3.1節中,我們算出樣本平均起薪值為3940。樣本變異數(s2=27,440.91)的結果列於表3.4。 表3.3與3.4中值得注意的是,我們算出離差與離差平方的總和。對於任何資料集,離差的總和必為0。因此,如同表3.3與表3.4顯示 ,這是恆成立的,因為正的離差與負的離差會相互抵銷,而使得離差的總和為 0。 變異數實例 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第99頁
表3.4 起薪資料樣本變異數的計算 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第100頁 表3.4
標準差 標準差(standard deviation)的定義是變異數的正平方根。 標準差比變異係數容易解釋,因為標準差的衡量單位與資料相同。 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第100頁
標準差 樣本標準差 母體標準差 由變異數得到標準差的方法如下。 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第100頁
標準差實例 以表3.1的起薪資料為例,樣本標準差為 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第100頁
變異係數 樣本變異係數 母體變異係數 變異係數是變異性的相對衡量,它衡量標準差相對於平均值的大小。 變異係數計算如下: 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第100-101頁
變異係數實例 以表3.1起薪資料為例,其樣本平均數 3940 與樣本標準差 165.65,變異係數為[(165.65/3940)×100]%=4.2%。 一般而言,欲比較具有不同的標準差與平均數的資料之離散程度時,變異係數是一個有用的統計量。 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第101頁
表3.1 起薪資料為例 此樣本之標準差佔平均數的4.7% 變異數 標準差 變異係數 第3章 敘述統計:數值方法 Part A (3.1-3.2) 第98-101頁