810 likes | 1.12k Views
第 5 章. 樣本資料的數值分布. 統計量( statistic) 或 表徵數: 依據樣本資料計算出具有特定意義的數值,是描述統計學( Descriptive Statistics) 的主要內容,也是推論統計學的推論基礎。 統計量的 測量 ( measure) 或統計量的計算:定義和計算出統計量的過程或方法。. 曲線圖與統計量的關係:. 1. 集中趨勢量數 ( measures of central tendency): 位於圖形最高點附近的統計量,包含平均數( Mean)、 中位數( Median) 和眾數( Mode);
E N D
第 5 章 樣本資料的數值分布
統計量(statistic)或表徵數:依據樣本資料計算出具有特定意義的數值,是描述統計學(Descriptive Statistics)的主要內容,也是推論統計學的推論基礎。 • 統計量的測量(measure)或統計量的計算:定義和計算出統計量的過程或方法。
曲線圖與統計量的關係: 1. 集中趨勢量數(measures of central tendency):位於圖形最高點附近的統計量,包含平均數(Mean)、中位數(Median)和眾數(Mode); 2. 差異量數(measures of variability):集中趨勢量數平均數上下界限的統計量,包含標準差(Std deviation)和變異數(Variance);
3. 大小量數(measures for size):位於圖形二極端點的統計量,包括最大值(Maximum)、最小值(Minimum)和全距(Range); 4. 偏差量數(measures of deviation from normality):表示圖形是否常態分布的統計量,包括偏態(Skewness)和峰度(Kurtosis)。
具有特殊意義的圖形或量數: 1. 抽樣誤差(sampling error)或平均數穩定性量數(measures of stability):用標準誤差(S.E. mean)來表示,是推論統計學的基礎; 2. 五數綜合(five-number summary)圖:最大值(Maximum) 、第一四分位數(first quartile)、中位數(Median)、第三四分位數(third quartile)和最小值(Minimum);
3. 盒形圖(boxplot):將五數綜合圖加上二個內柵,用來找出離群值(outlier);3. 盒形圖(boxplot):將五數綜合圖加上二個內柵,用來找出離群值(outlier); 4. 相對變異量數(measures of relative variability):比較不同單位變項間的變異,例如變異係數(coefficient of variation)。
(5.1) 2. 求連乘積的數學符號是 (pei): (5.2) 5.1 常用數學運算符號 1. 求總和的數學符號Σ(sigma):
(5.6) 5.1 常用數學運算符號 3. 用積分符號表示機率函數:
5.2 集中趨勢量數 • 集中趨勢量數(measures of central tendence)或中心位置量數(measures of central location):圖形最高點的統計量,平均數(Mean)、中位數(Median)或眾數(Mode)。
算術平均數 (arithmetic mean) :觀測值總和 ,除以有效樣本數 n : (5.7) 5.2.1 算術平均數
中位數(Median)或稱二分位數:資料分布的中間值。中位數(Median)或稱二分位數:資料分布的中間值。 • 中位數求算步驟如下: 1. n個觀測值由小到大重新排列。 2. 求出中項 O (md): (5.8) 5.2.2 中位數
3. 求出中項的對應值中位數 md: (5.9) (5.10) 5.2.2 中位數
5.2.3 眾 數 • 眾數(Mode)mo:出現次數最多次的值。 • 眾數求算步驟如下: 1. 將 n個觀測值由小到大重新排列。 2. 重複出現次數最多的觀測值就是眾數。
算術平均數 、中位數 md 和眾數 mo 關係圖形: 1. 單峰對稱 (symmetric) 分布: 參閱圖 5.1。 圖5.1 單峰對稱分布 5.2.4 集中量數間的關係
2. 單峰左偏 (skewed to left)分布: 參閱圖 5.2。 圖5.2 單峰左偏分布 5.2.4 集中量數間的關係
3. 單峰右偏 (skewed to right)分布: 參閱圖5.3。 圖5.3 單峰右偏分布 5.2.4 集中量數間的關係
5.2.5 平均數與中位數的使用時機 • 選用原則如下: 1. 常態分布,二者皆可使用,優先使用平均數。 2. 偏態分布,中位數比平均數具代表性。 3. 序位變項或整群抽樣資料,使用中位數。 4. 指數或對數分布變項,使用中位數。 5. 母數推論統計法使用平均數,無母數推論統計法使用中位數。
5.3 平均數的差異量數 • 差異量數(measures of variability)、離勢量數(measures of dispersion)或分散量數(measures of spread):表示分散情形的統計量,標準差(Standard deviation)和變異數(Variance)。
樣本變異數(Variance):觀測值與算術平均數差距平方和 ,除以自由度 : (5 .11) 5.3.1 變異數
自由度 df (degree of freedom): (5 .12) • 母體變異數: (5 .13) 5.3.1 變異數
樣本標準差S.D. (Standard deviation):樣本變異數平方根值: (5 .14) 5.3.2 標準差
5.3.2 標準差 • 母體標準差: (5 .15) 變異數或標準差大,表示觀測值差異性或分散程度大。
(5 .16) 5.4 分布的大小量數 • 大小量數(measures for size)或分布的分散(spread of the distribution):觀測值或圖形二極端值的統計量,最大值(Maximum)、最小值(Minimum)和全距(Range)。 • 最大值(Maximum):最大的觀測值。 • 最小值(Minimum):最小的觀測值。 • 全距R(Range):最大值 max 和最小值 min 的差:
5.5 常態分布的偏差量數 • 偏差量數(measures of deviation from normality):判斷資料是否常態分布的統計量,偏態(Skewness)和峰度(Kurtosis)。
(5.17) 5.5.1 峰 度 • 峰度(Kurtosis)或峰度係數:量度尖(peakness)或平(flatness)程度的統計量: • 判斷標準如下: (1) 高窄峰 (leptokurtic):峰度 Kur > 3。 (2) 常態峰 (mesokurtic):峰度 Kur = 3。 (3) 低闊峰 (platykurtic):峰度 Kur < 3。
標準化峰度 Nkur: (5.18) 5.5.1 峰 度
5.5.1 峰 度 • 判斷標準: (1) 高窄峰 (leptokurtic):峰度 Kur > 0。 參閱圖 5.5 (2) 常態峰 (mesokurtic):峰度 Kur = 0。 參閱圖 5.1 (3) 低闊峰 (platykurtic):峰度 Kur < 0。 參閱圖 5.4
圖5.4 低闊峰 圖5.5 高窄峰 5.5.1 峰 度
(5.19) 5.5.2 偏 態 • 偏態(Skewness)或偏態係數:量度偏離對稱程度的統計量:
5.5.2 偏 態 • 判斷標準如下: (1) 右偏 (skewed to the right):偏態 Sk > 0。 參閱圖 5.2。 (2) 對稱 (symmetry):偏態 Sk = 0 。 參閱圖 5.1。 (3) 左偏 (skewed to the left):偏態Sk < 0 。 參閱圖 5.3。
2. 標準差與平均數比較,標準差超過平均數 25%,是偏差形態。 3. 最大值和最小值與 比較,超出 範圍,是偏差形態。 (5.20) 5.5.3 簡易判斷法 • 快速判斷偏差形態的方法: 1. 中距值(mid-range)與平均數比較,二數有明顯差異,是偏差形態,中距值 MR:
(5.21) 5.6 穩定性量數 • 標準誤差(S.E. mean或Standard errors)或標準誤:表示平均數穩定性或抽樣誤差大小的統計量:
5.7 分布的比較及離群值 • 五數綜合(five-number summary)圖:最大值(maximum) 、第一四分位數(first quartile)、中位數(median)、第三四分位數(third quartile)和最小值(minimum)。 • 盒形圖(boxplot):由五數綜合圖增加二內柵而成,用來找出離群值(outlier)。
四分位數(quartile):將數列分割成四等份,由小到大依序是第一四分位數 Q1、第二四分位數 Q2 和第三四分位數 Q3,分割步驟如下: 1. 將 n個觀測值由小到大重新排列。 2. 將數列分割成四等份。 3. 第一個分割點 25% 的位置O(Q1): (5.22) 5.7.1 四分位數
(5.8) 5.7.1 四分位數 4. 第二個分割點 50%的位置O(Q2)或O(md):
6. Q1、Q2和 Q3分別是: (5.24) (5.25) 5.7.1 四分位數 5. 第三個分割點 75% 的位置 O ( Q3 ): (5.23)
圖5.6 五數綜合圖 5.7.2 五數綜合圖 • 五數綜合圖:將最小值 min、第一四分位數 Q1、中位數 md、第三四分位數 Q3和最大值 max 依序按比例大小排列,五條垂直線表示五數的位置,然後在 Q1、md和 Q3之間繪出盒形,如圖 5.6 所示:
四分位差 Q.D.(quartile deviation):Q3和 Q1 的差距離: (5.26) 5.7.3 四分位差
(5.27) 5.7.4 盒形圖 • 盒形圖:將五數綜合圖中間的盒形邊緣向二端各延伸相同距離的內柵(inner fence)。 • 內柵IF1和 IF2:
圖5.7 含有內柵的盒形圖 5.7.4 盒形圖 • 盒形圖如圖5.7所示:
(5.28) 5.8 相對離勢量數 • 相對離勢量數(measures of relative dispersion):比較相同或不同單位變項間相對變異情形的統計量,例如變異係數(coefficient of variation)。 • 變異係數(coefficient of variation) C.V.:標準差和算術平均數的比值: 變異係數沒有單位,變異係數大者,該變項分散程度或差異性較大。
5.9 偏態資料的處理 • 偏態資料來源: 1. 資料本身具有偏態的特性 2. 受離群值影響。
(5.29) 或 (5.30) 5.9.1 資料轉換 • 轉換前變數 x和轉換後變數 x
(5.31) 5.9.2 幾何平均數 • 幾何平均數 G:
(5.32) 此處 (5.33) 5.9.3 截尾算術平均數 • 截尾算術平均數(trimmed mean)或修剪平均數:
5.9.4Windsorized 算術平均數 • Windsorized 算術平均數計算步驟如下: 1. 求出 Q1和 Q3。 2. 小於 Q1 的資料一律改成 Q1 的值。 3. 大於 Q3 的資料一律改成 Q3 的值。 4. 計算修改後的算術平均數。 5. 此種算術平均數稱為Windsorized 算術平均數 (Windsorized mean)。