第 5 章

第 5 章 樣本資料的數值分布

統計量(statistic)或表徵數：依據樣本資料計算出具有特定意義的數值，是描述統計學(Descriptive Statistics)的主要內容，也是推論統計學的推論基礎。 • 統計量的測量(measure)或統計量的計算：定義和計算出統計量的過程或方法。

曲線圖與統計量的關係： 1. 集中趨勢量數(measures of central tendency)：位於圖形最高點附近的統計量，包含平均數(Mean)、中位數(Median)和眾數(Mode)； 2. 差異量數(measures of variability)：集中趨勢量數平均數上下界限的統計量，包含標準差(Std deviation)和變異數(Variance)；

3. 大小量數(measures for size)：位於圖形二極端點的統計量，包括最大值(Maximum)、最小值(Minimum)和全距(Range)； 4. 偏差量數(measures of deviation from normality)：表示圖形是否常態分布的統計量，包括偏態(Skewness)和峰度(Kurtosis)。

具有特殊意義的圖形或量數： 1. 抽樣誤差(sampling error)或平均數穩定性量數(measures of stability)：用標準誤差(S.E. mean)來表示，是推論統計學的基礎； 2. 五數綜合(five-number summary)圖：最大值(Maximum) 、第一四分位數(first quartile)、中位數(Median)、第三四分位數(third quartile)和最小值(Minimum)；

3. 盒形圖(boxplot)：將五數綜合圖加上二個內柵，用來找出離群值(outlier)；3. 盒形圖(boxplot)：將五數綜合圖加上二個內柵，用來找出離群值(outlier)； 4. 相對變異量數(measures of relative variability)：比較不同單位變項間的變異，例如變異係數(coefficient of variation)。

(5.1) 2. 求連乘積的數學符號是 (pei)： (5.2) 5.1 常用數學運算符號 1. 求總和的數學符號Σ(sigma)：

(5.6) 5.1 常用數學運算符號 3. 用積分符號表示機率函數：

5.2 集中趨勢量數 • 集中趨勢量數(measures of central tendence)或中心位置量數(measures of central location)：圖形最高點的統計量，平均數(Mean)、中位數(Median)或眾數(Mode)。

算術平均數 (arithmetic mean) ：觀測值總和 ，除以有效樣本數 n ： (5.7) 5.2.1 算術平均數

中位數(Median)或稱二分位數：資料分布的中間值。中位數(Median)或稱二分位數：資料分布的中間值。 • 中位數求算步驟如下： 1. n個觀測值由小到大重新排列。 2. 求出中項 O (md)： (5.8) 5.2.2 中位數

3. 求出中項的對應值中位數 md： (5.9) (5.10) 5.2.2 中位數

5.2.3 眾　數 • 眾數(Mode)mo：出現次數最多次的值。 • 眾數求算步驟如下： 1. 將 n個觀測值由小到大重新排列。 2. 重複出現次數最多的觀測值就是眾數。

算術平均數、中位數 md 和眾數 mo 關係圖形： 1. 單峰對稱 (symmetric) 分布：參閱圖 5.1。圖5.1　單峰對稱分布 5.2.4 集中量數間的關係

2. 單峰左偏 (skewed to left)分布： 參閱圖 5.2。圖5.2　單峰左偏分布 5.2.4 集中量數間的關係

3. 單峰右偏 (skewed to right)分布： 參閱圖5.3。圖5.3　單峰右偏分布 5.2.4 集中量數間的關係

5.2.5 平均數與中位數的使用時機 • 選用原則如下： 1. 常態分布，二者皆可使用，優先使用平均數。 2. 偏態分布，中位數比平均數具代表性。 3. 序位變項或整群抽樣資料，使用中位數。 4. 指數或對數分布變項，使用中位數。 5. 母數推論統計法使用平均數，無母數推論統計法使用中位數。

5.3 平均數的差異量數 • 差異量數(measures of variability)、離勢量數(measures of dispersion)或分散量數(measures of spread)：表示分散情形的統計量，標準差(Standard deviation)和變異數(Variance)。

樣本變異數(Variance)：觀測值與算術平均數差距平方和 ，除以自由度： (5 .11) 5.3.1 變異數

自由度 df (degree of freedom)： (5 .12) • 母體變異數： (5 .13) 5.3.1 變異數

樣本標準差S.D. (Standard deviation)：樣本變異數平方根值： (5 .14) 5.3.2 標準差

5.3.2 標準差 • 母體標準差： (5 .15) 變異數或標準差大，表示觀測值差異性或分散程度大。

(5 .16) 5.4 分布的大小量數 • 大小量數(measures for size)或分布的分散(spread of the distribution)：觀測值或圖形二極端值的統計量，最大值(Maximum)、最小值(Minimum)和全距(Range)。 • 最大值(Maximum)：最大的觀測值。 • 最小值(Minimum)：最小的觀測值。 • 全距R(Range)：最大值 max 和最小值 min 的差：

5.5 常態分布的偏差量數 • 偏差量數(measures of deviation from normality)：判斷資料是否常態分布的統計量，偏態(Skewness)和峰度(Kurtosis)。

(5.17) 5.5.1 峰　度 • 峰度(Kurtosis)或峰度係數：量度尖(peakness)或平(flatness)程度的統計量： • 判斷標準如下： (1) 高窄峰 (leptokurtic)：峰度 Kur > 3。 (2) 常態峰 (mesokurtic)：峰度 Kur = 3。 (3) 低闊峰 (platykurtic)：峰度 Kur < 3。

標準化峰度 Nkur： (5.18) 5.5.1 峰　度

5.5.1 峰　度 • 判斷標準： (1) 高窄峰 (leptokurtic)：峰度 Kur > 0。參閱圖 5.5 (2) 常態峰 (mesokurtic)：峰度 Kur = 0。參閱圖 5.1 (3) 低闊峰 (platykurtic)：峰度 Kur < 0。參閱圖 5.4

圖5.4　低闊峰 圖5.5　高窄峰 5.5.1 峰　度

(5.19) 5.5.2 偏　態 • 偏態(Skewness)或偏態係數：量度偏離對稱程度的統計量：

5.5.2 偏　態 • 判斷標準如下： (1) 右偏 (skewed to the right)：偏態 Sk > 0。參閱圖 5.2。 (2) 對稱 (symmetry)：偏態 Sk = 0 。參閱圖 5.1。 (3) 左偏 (skewed to the left)：偏態Sk < 0 。參閱圖 5.3。

2. 標準差與平均數比較，標準差超過平均數 25%，是偏差形態。 3. 最大值和最小值與比較，超出範圍，是偏差形態。 (5.20) 5.5.3 簡易判斷法 • 快速判斷偏差形態的方法： 1. 中距值(mid-range)與平均數比較，二數有明顯差異，是偏差形態，中距值 MR：

(5.21) 5.6 穩定性量數 • 標準誤差(S.E. mean或Standard errors)或標準誤：表示平均數穩定性或抽樣誤差大小的統計量：

5.7 分布的比較及離群值 • 五數綜合(five-number summary)圖：最大值(maximum) 、第一四分位數(first quartile)、中位數(median)、第三四分位數(third quartile)和最小值(minimum)。 • 盒形圖(boxplot)：由五數綜合圖增加二內柵而成，用來找出離群值(outlier)。

四分位數(quartile)：將數列分割成四等份，由小到大依序是第一四分位數 Q1、第二四分位數 Q2 和第三四分位數 Q3，分割步驟如下： 1. 將 n個觀測值由小到大重新排列。 2. 將數列分割成四等份。 3. 第一個分割點 25% 的位置O(Q1)： (5.22) 5.7.1 四分位數

(5.8) 5.7.1 四分位數 4. 第二個分割點 50%的位置O(Q2)或O(md)：

6. Q1、Q2和 Q3分別是： (5.24) (5.25) 5.7.1 四分位數 5. 第三個分割點 75% 的位置 O ( Q3 )： (5.23)

圖5.6 五數綜合圖 5.7.2 五數綜合圖 • 五數綜合圖：將最小值 min、第一四分位數 Q1、中位數 md、第三四分位數 Q3和最大值 max 依序按比例大小排列，五條垂直線表示五數的位置，然後在 Q1、md和 Q3之間繪出盒形，如圖 5.6 所示：

四分位差 Q.D.(quartile deviation)：Q3和 Q1 的差距離： (5.26) 5.7.3 四分位差

(5.27) 5.7.4 盒形圖 • 盒形圖：將五數綜合圖中間的盒形邊緣向二端各延伸相同距離的內柵(inner fence)。 • 內柵IF1和 IF2：

圖5.7　含有內柵的盒形圖 5.7.4 盒形圖 • 盒形圖如圖5.7所示：

(5.28) 5.8 相對離勢量數 • 相對離勢量數(measures of relative dispersion)：比較相同或不同單位變項間相對變異情形的統計量，例如變異係數(coefficient of variation)。 • 變異係數(coefficient of variation) C.V.：標準差和算術平均數的比值：變異係數沒有單位，變異係數大者，該變項分散程度或差異性較大。

5.9 偏態資料的處理 • 偏態資料來源： 1. 資料本身具有偏態的特性 2. 受離群值影響。

(5.29) 或 (5.30) 5.9.1 資料轉換 • 轉換前變數 x和轉換後變數 x

(5.31) 5.9.2 幾何平均數 • 幾何平均數 G：

(5.32) 此處 (5.33) 5.9.3 截尾算術平均數 • 截尾算術平均數(trimmed mean)或修剪平均數：

5.9.4Windsorized 算術平均數 • Windsorized 算術平均數計算步驟如下： 1. 求出 Q1和 Q3。 2. 小於 Q1 的資料一律改成 Q1 的值。 3. 大於 Q3 的資料一律改成 Q3 的值。 4. 計算修改後的算術平均數。 5. 此種算術平均數稱為Windsorized 算術平均數 (Windsorized mean)。

5.10 例　題

第 5 章

第 5 章

Presentation Transcript