650 likes | 927 Views
統計學. 郭信霖 許淑卿. 第三章 資料的測度與描述. ■ 3-1 集中趨勢量數 ■ 3-2 離勢量數 ■ 3-3 形狀 ■ 3-4 平均數與標準差的應用 ■ 3-5 枝葉圖及箱形圖 ■ 3-6 電腦範例 ■ 3-7 流程圖. 透過各種蒐集方法的資料經過整理後,還需進一步描述一群數量資料的特性,其方法大致有: 1. 集中趨勢量數( measured of central tendency )。 2. 離勢量數( measured of dispersion )。 3. 形狀( shape )。.
E N D
統計學 郭信霖 許淑卿
第三章 資料的測度與描述 ■ 3-1 集中趨勢量數 ■ 3-2 離勢量數 ■ 3-3 形狀 ■ 3-4 平均數與標準差的應用 ■ 3-5 枝葉圖及箱形圖 ■ 3-6 電腦範例 ■ 3-7 流程圖
透過各種蒐集方法的資料經過整理後,還需進一步描述一群數量資料的特性,其方法大致有:透過各種蒐集方法的資料經過整理後,還需進一步描述一群數量資料的特性,其方法大致有: 1. 集中趨勢量數(measured of central tendency)。 2. 離勢量數(measured of dispersion)。 3. 形狀(shape)。
3-1 集中趨勢量數 用來描述該組資料的中心位置所在或集中的程度,謂之集中趨勢量勢,又稱中心位置量數(measure of central location)。 一、平均數(mean) (一)算術平均數 • A. 未分組資料: • 1. 母體資料:母體平均數 • 2. 樣本資料:樣本平均數 、 等。
(二)加權算術平均數: • 母體加權算術平均數 w = = 樣本加權算術平均數 =
組界 次數fi 組中點mi fimi L1~U1 f1 m1 f1m1 L2~U2 f2 m2 f2m2 Lk~Uk fk mk fkmk 合 計 • B. 已分組資料:
(1) 母體平均數:= ,N = 。 • (2) 樣本平均數: = ,n = 。
二、中位數(median):通常以Me(或)表示。二、中位數(median):通常以Me(或)表示。 • A. 未分組資料 其步驟如下: • 1. 由小到大順序排列,X(1)X(2) … X(n)。 • 2. Me =
B. 已分組資料 • Me = Li + h 三、其他分位數: • 四分位數(Quartiles,Qi,i = 1, 2, 3) • 十分位數(Deciles,Di,i = 1, 2, ‥., 9) • 百分位數(Percentiles,Pi,i = 1, 2, ‥., 99) 。
A. 未分組資料 • B. 已分組資料 • Me、Qj、Dj及Pj之關係 • 1. 表3-13
2. (1) Me = Q2 = D5 = P50 (2) Q1 = P25,Q3 = P75 (3) D1 = P10; D2 = P20‥.D9 = P90
四、眾數(mode):通常以M0表示。 • (三) 眾數的求法 • A. 未分組資料 • B. 已分組資料 • 普通求眾數的方法大致有:
1. 視察法 • 2. King’s插補法(W.I. King’s method) • 3. Czuber’s比例法(Czuber’s proportional method) • 4. Perason’s經驗法(K. Pearson’s method) • 當次數分配為單峰對稱時,則 = Me =M0 • 當次數分配為單峰微偏時,則 -M0 3( -Me)或M0- 3( -Me)
※五、全距中點(midrange)與中樞紐(midhinge)※五、全距中點(midrange)與中樞紐(midhinge) • (一) 全距中點(midrange) • (二) 中樞紐(midhinge) • 六、截尾平均數與溫塞平均數 • 1. 截尾平均數 • 2. 溫塞平均數
3-2 離勢量數 • 離勢(dispersion),又稱為離差(derivation)或差異量數。 • 一、意義 • 離勢是用來衡量資料的集中或分散程度,亦就是測量各個觀測值之間的差異變化情形。 • 如表3-15。
二、種類 • 離勢量數:(一) 絕對離勢量數(measure of absolute dispersion)
1. 全距(range,R) • 2. 四分位差(quartile deviation,Q.D.) • 3. 平均偏差(average deviation,A.D.) • 4. 變異數與標準差(variance and standard deviation)
母體變異數 2 = = - 2 • A. 未分組資料
樣本變異數 S 2 = = = =
母體標準差 = 0 = 樣本標準差 S = = 0
變異數性質: (1) 設X的母體變異數為 ,平均數為X, 若Y = aX + b,a,b R,則 Y = aX +b, = a2 (2)
(3) 若甲、乙二組母體資料的變異數、平均數及大小如下表,則合併後之平均數、變異數為何?(3) 若甲、乙二組母體資料的變異數、平均數及大小如下表,則合併後之平均數、變異數為何? • 表3-16
則 總平均數 = ,N = N1 + N2 總變異數 2 = + 2
(4)推廣至k組母體、樣本資料,求合併後之平均數、變異數。(4)推廣至k組母體、樣本資料,求合併後之平均數、變異數。 總母體平均數 = ,N = N1 + …… + Nk 總母體變異數 2 = 總樣本平均數 = ,n = n1 +n2 + …… + nk 總樣本變異數S 2 =
B. 已分組資料 2 = = -2 S 2 = =
(二) 相對離勢量數(measure of relative disperson) • 相對離勢量數中最常用的變異係數(coefficient of variation,C.V.)是指標準差與平均數的比值,
即 C.V. = 100%……母體資料 100%……樣本資料 = 相對離勢量數的主要功用: 1.比較幾組資料單位不同的差異情形。 2.比較幾組資料單位相同,但平均數相差懸殊之差異情形。
3-3 形狀(Shape) • 反映資料的分佈形狀: 偏態係數及峰度係數。 • 一、偏態係數(coefficient of skewness,SK) • 所謂偏態(skewness)是指次數分配形態不對稱的偏斜的方向和程度。用以測度偏態的量數,稱之為偏態係數,通常以SK表示。
若SK = 0,表示資料呈對稱分配。 • 若SK > 0,表示資料呈右偏或正偏(right or positively skewed)分配。 • 若SK < 0,表示資料呈左偏或負偏(left or negatively skewed)分配。
SKB = = SKP = ……母體資料 = ……樣本資料 = = 偏態係數的計算方法有很多,一般較常用者有二種: 1.Bowley公式:Bowley偏態係數,其公式如下: 2.Pearson公式:Pearson偏態係數,其公式如下:
※二、峰度係數(coefficient of kurtosis) 測量峰度高低的量數稱為峰度係數,通常以k表示。 k = = =
1. k > 3,表示資料分布呈高狹峰(lepto kurtosis)。 • 2. k = 3,表示資料分布呈常態峰(normal kurtosis)。 • 3. k < 3,表示資料分布呈低潤峰(platy kurtosis)。
3-4 平均數與標準差的應用 • 一、謝比雪夫定理(Chebyshev’s Theorem) • 任何一組資料中,會落在平均數左右各k個標準差之範圍內的觀測值至少佔有 100%,k > 1。
二、經驗法則(empirical rule) • 設資料近似單峰對稱分配,則 • 1. 在平均數左右1個標準差之範圍內的觀測值約佔68%。 • 2. 在平均數左右2個標準差之範圍內的觀測值約佔95%。 • 3. 在平均數左右3個標準差之範圍內的觀測值約佔99.7 %。 • 將謝比雪夫定理,經驗法則與實際結果整理如下表:
表3-22 其中N表全部資料的個數,a表落在(- , + )之間的個數,b表落在(- 2, + 2)之間的個數,c表落在(- 3, + 3)之間的個數。
3-5 枝葉圖(Stem and leaf) 及箱形圖(Box-plot) • 探索性資料分析方法:一為枝葉圖(stem and leaf),另一為箱形圖(box- plot)。 • 一、枝葉圖(Stem and leaf)又稱莖葉圖 • 枝葉圖是次數分配表和次數直方圖的結合,並保有原始觀測值的訊息。其編製步驟如下:
1. 『樹枝』(stem),即資料中重複出現的部分,以取代組界的地位。1. 『樹枝』(stem),即資料中重複出現的部分,以取代組界的地位。 • 2. 『樹葉』(leaf),即枝幹以外的部分,以取代組次數的地位。 • 3. 將每一樹枝中葉的值由小到大順序排列,即為有序枝葉圖。
1. 若定組距為10(即長度為10),則所求的枝葉圖為一枝一葉。1. 若定組距為10(即長度為10),則所求的枝葉圖為一枝一葉。 圖3-8
2. 當資料個數眾多時,可考慮縮小組距。 若定組距為5(即長度為5),則數值0,1,2,3,4以“*”符號表示;數值5,6,7,8,9以“”符號表示。因此,枝葉圖變為一枝二葉。 圖3-9
(2) 若定組距為2(即長度為2),則0,1以“*”表示;2,3以“t”表示;4,5以“f ”表示;6,7以“s”表示;8,9以“‧”表示,此枝葉圖變為一枝五葉 圖3-10
由這三個枝葉圖可知,例2-4.4,應以組距為2,所編製的次數分配表,才能看出原始資料的分佈狀況。由這三個枝葉圖可知,例2-4.4,應以組距為2,所編製的次數分配表,才能看出原始資料的分佈狀況。 圖3-11
由枝葉圖中可了解以下幾點: • 1. 該組原始資料的分佈形況。 • 2. 資料的中心點位置。 • 3. 資料是否對稱。 • 4. 是否有離群值(outlier)。
二、箱形圖(Box-plot)又稱盒鬚圖(box and whisker plot) • 五種數值的彙總:X(1)、Q1、Me、Q3、X(n),可用來了解資料的分佈形狀。 • 若資料為完全對稱分配,則 • (1) Q3 - Me = Me - Q1 • (2) X(n) - Q3 = Q1 - X(1) • (3) Me = 中樞紐 = 全距中點 =