490 likes | 625 Views
第 3 章. 敘述統計:數值方法 Part B (3.3 - 3.6). 分配的形狀. 分配形狀的重要數值衡量則是 偏度 (skewness) 。 計算偏度的公式有些複雜。 衡量樣本的偏度公式是: 但是若以統計軟體來計算,則是輕而易舉。. 第 3 章 敘述統計:數值方法 Part B (3.3 - 3.6) 第 103 頁. 分配的形狀. 對稱 ( 不偏 ) 偏度為 0 。 對稱分配的平均數及中位數是相等的。. 第 3 章 敘述統計:數值方法 Part B (3.3 - 3.6) 第 103-104 頁 圖 3.3. 分配的形狀.
E N D
第 3 章 敘述統計:數值方法 Part B (3.3-3.6)
分配的形狀 • 分配形狀的重要數值衡量則是偏度(skewness)。 • 計算偏度的公式有些複雜。 • 衡量樣本的偏度公式是: • 但是若以統計軟體來計算,則是輕而易舉。 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第103頁
分配的形狀 • 對稱 (不偏) • 偏度為 0 。 • 對稱分配的平均數及中位數是相等的。 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第103-104頁 圖3.3
分配的形狀 • 適度左偏 • 偏度為負值。 • 平均數常小於中位數。 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第103-104頁 圖3.3
分配的形狀 • 適度右偏 • 偏度是正值。 • 平均數通常大於中位數。 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第103-104頁 圖3.3
分配的形狀 • 高度右偏 • 偏度是正值。 (通常大於1.0) • 平均數通常大於中位數。 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第103-104頁 圖3.3
分配的形狀 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第103-104頁 圖3.3
z分數 z分數通常稱為標準化值(standardized value)。 每個 xi會有一個稱之為 z 分數(z -score)的數值與之對應。 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第104-105頁
z 分數 利用平均數與標準差,我們便能決定任何觀察值的相對位置。 資料集小於樣本平均數則 z分數小於 0。 資料集大於樣本平均數則 z分數大於 0。 資料集等於樣本平均數則 z分數等於 0。 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第105頁
表 3.5 是班級人數資料的 z分數,之前算出平均數為 =44,樣本標準差為 s=8。第 5 個觀察值的 z分數為 -1.50,是離平均數最遠的資料值,比平均數小 1.50個標準差。 z分數實例 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第105頁 表3.5
柴比雪夫定理 在資料集內,至少有 (1 – 1/z2)百分比的觀察值與平均數的差距在 z個標準差之內,此處 z為任何大於 1 之值。 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第105頁
柴比雪夫定理 至少有 0.75 或 75% 的觀察值,與平均數的差距在 z=2 個標準差之內。 至少有 0.89 或 89% 的觀察值,與平均數的差距在 z=3 個標準差之內。 至少有 0.94 或 94% 的觀察值,與平均數的差距在 z=4 個標準差之內。 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第106頁
柴比雪夫定理實例 若某學院商用統計課程有 100 位學生修課,期中考成績之平均數為 70,標準差為 5。有多少學生的分數介於 60 與 80 之間?又有多少學生的分數介於 58 與 82 之間? 我們注意到 60 的值是小於平均數 2 個標準差,而80 則是大於平均數 2 個標準差。利用柴比雪夫定理,我們可看出至少 0.75 或至少75% 的觀察值與平均數的差距必須在2 個標準差之內。因此,100 個學生至少有75 人分數介於 60 與 80 之間。 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第106頁
柴比雪夫定理實例 而分數介於 58 與 82 的人數又是多少?我們可看出 (58-70)/5=-2.4,表示58 是小於平均數 2.4 個標準差;而 (82-70)/5=+2.4,表示 82 大於平均數 2.4 個標準差。利用柴比雪夫定理 z=2.4,我們可得到 至少有82.6%的學生的分數必須介於58與82之間。 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第106頁
經驗法則 • 針對鐘形分配的資料集而言: • 大約68%的觀察值與平均數的差距在1個標準差內。 • 大約95%的觀察值與平均數的差距在2個標準差內。 • 幾乎所有的觀察值與平均數的差距在3個標準差內。 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第107頁
99.72% 95.44% 68.26% 經驗法則 x m m + 3s m – 3s m – 1s m + 1s m – 2s m + 2s 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第107頁 圖3.5
離群值的偵測 • 有時資料集會有一個或更多極大或極小的觀察值。此類極端觀察值為離群值(outliers)。 • 使用 z分數確認離群值時,觀察值之 z分數若小於−3或大於 +3,就是離群值。 • 離群值可能是 • 未被正確登錄的資料 • 被錯放在資料集 • 離群值若是登錄正確的資料,而且也屬於這個資料集的話,則必須保留。 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第107-108頁
離群值的偵測 根據資料分析制定決策時,最好先檢查離群值。誤差通常產生自記錄資料,並將其輸入電腦時。並非一定要刪除離群值,但必須適當確認其正確性與適當性。 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第107頁
離群值的偵測實例 參考表 3.5 的班級人數資料之 z分數,z分數為 − 1.50 表示第 5 個觀察值為離平均數最遠的值。然而,此標準化值仍在 − 3 到 +3 之間,因此, z分數顯示出在班級人數資料中並無離群值。 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第108頁
評註 • 柴比雪夫定理適合用於任何的資料集,用來指出至少有多少個觀察值與平均數的差距在特定個標準差之內。若資料集已知為鐘形時,則會得到更多的訊息。例如,經驗法則告訴我們:有大約 95% 的觀察值與平均數的差距在兩個標準差之內;由柴比雪夫定理所得到的結論只是:至少有 75% 的觀察值會在上述的差距之內。 • 在分析一個資料集之前,統計學者通常做各種檢查以確信資料的有效性。在大型研究中,登錄資料或將資料鍵入電腦的過程中發生錯誤也很常見。確認離群值是檢查資料有效性的方法之一。 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第108頁
五數彙總 • 五數彙總(five-number summary)是利用下列五個數來匯總資料。 • 最小值 • 第一四分位數 (Q1) • 中位數 (Q2) • 第三四分位數 (Q3) • 最大值 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第110頁
3310 3355 3450 3480 3480 3490 3520 3540 3550 3650 3730 3925 Q1=3465 Q2=3505 Q3=3600 (中位數) 五數彙總實例 以表 3.1 的起薪資料為例,可以得到下列結果。 由3.1節已知中位數為3905,Q1=3865且Q3=4000。檢視此資料集之最小值為3710,而最大值為4325。因此,此資料集之五數彙總為3710、3865、3905、4000、4325。大約有1/4或25% 的資料值會介於這五數的兩兩間隔之間。 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第110頁
箱形圖 箱形圖(box plot)是根據五數彙總而繪製的圖形。 繪製箱形圖的關鍵在求出四分位數距 IQR=Q3-Q1。 箱形圖是另一種辨別離群值的方法。但是這種方法不見得會與用 z 分數找出的離群值相同。 運用兩種方法或只用任一種方法皆可行。 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第110頁
箱形圖 圖3.6為每月起薪資料的箱形圖以及上、下界限。 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第110頁 圖3.6
箱形圖 • 繪製箱形圖的步驟如下: • 箱形的製作以第一四分位數、第三四分位數為前後邊。以起薪資料為例,Q1=3865, Q3=4000,箱形包含中間50% 的資料。 • 箱形中的垂直線位置為中位數 (以起薪資料而言是 3905)。因此,中位數位置的直線將所有資料分割成兩等分。 • 使用四分位數距 IQR=Q3-Q1時,必須設定界限 (limits),箱形圖的界限分別位於 Q1之下1.5(IQR)或 Q3 之上1.5(IQR)。對起薪資料而言,IQR= Q3-Q1=4000-3865=135。因此,界限為 3865-1.5(135)=3662.5 與 4000+1.5(135)=4202.5。在界限之外的值為離群值。 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第110頁
箱形圖 • 圖 3.6 的虛線稱之為鬚 (whiskers)。鬚的畫法是從步驟 3 中箱形的兩邊至界限內最大值與最小值,以圖 3.6 為例,分別是 3310 與 3730。 • 最後,以 * 表示離群值的位置;在圖 3.5 中,可看到一個離群值 3925。 • 圖 3.6 中有標示上、下界限的直線。這些線用來標示資料的範圍,雖然我們會算出這些數值,但在箱形圖中通常不會顯示出來。圖 3.7 是起薪資料的箱形圖的一般形式。 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第111頁
箱形圖 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第111頁 圖3.7
評註 • 探究性資料分析過程的優點之一是容易使用;需要的計算很少,我們僅是將資料由小到大排序並找出中位數與第一四分位數、第三四分位數去獲得五數彙總,便可很容易地做出箱形圖,並不需要計算資料的平均數與標準差。 • 附錄 3.1 將說明如何以 Minitab 繪製起薪資料箱形圖,其箱形圖與圖 3.7 相似,只是圖形轉了 90°。 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第112頁
共變異數 共變異數(covariance)是兩變數間線性相關的敘述量數。 共變異數為正值表示正相關。 共變異數為負值表示負相關。 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第114頁
共變異數 樣本共變異數 母體共變異數 樣本共變異數 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第114-115頁
共變異數實例 回顧 2.4 節立體音響設備店的例子。該店的經理有興趣研究未來幾個週末的電視廣告與銷售量的關係,樣本資料列於表 3.6 中。 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第114頁 表3.6
共變異數實例 圖 3.9 為兩變數的散布圖,其顯示出一種正向的關係:較高的銷售量 (y) 伴隨著較高的廣告次數 (x)。 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第114頁 圖3.9
共變異數實例 為了測量廣告次數 x與銷售額 y的線性關係之強度,我們利用式(3.12)計算樣本共變異數。表3.7是 的計算過程。請注意 = 30/10=3且 =510/10=51,利用式(3.12),可得共變異數為 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第115頁
共變異數實例 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第115頁 表3.7
共變異數的意義 以圖3.10來解釋樣本共變異數。 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第114頁 圖3.10
圖3.11 樣本共變異數的解釋 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第117頁 圖3.11
圖3.11 樣本共變異數的解釋 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第117頁 圖3.11
圖3.11 樣本共變異數的解釋 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第117頁 圖3.11
相關係數 相關係數的範圍由−1到+1。 樣本相關係數為+1代表兩變數 x與 y之間是完全正線性相關。 樣本相關係數為− 1代表兩變數 x 與 y 之間是完全負線性相關。 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第119頁
相關係數 樣本資料 母體資料 相關係數 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第116-117.118頁
相關係數 相關係數讓我們瞭解兩個變數間線性相關的程度,而非因果關係存在與否。 兩變數間的高度相關並不表示兩變數間必然有因果關係。 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第119頁
相關係數實例 以立體音響店的資料為例,求其樣本相關係數。利用表3.6的資料,我們便能計算兩變數的樣本標準差。 因為 sxy=11,可得到樣本相關係數為 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第117-118頁
相關係數的解釋 圖3.12的散佈圖是根據以下樣本資料而得。 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第118頁
相關係數的解釋 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第119頁 圖3.12
相關係數的解釋 通過這三點的直線顯示變數 x與 y存在有完全線性相關。為了套用式(3.14)來計算樣本相關係數,要先算出 sxy、sx 與 sy,某些計算過程列在表3.8。運用表中的資料,我們發現因此,樣本相關係數為1。 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第119-120頁
相關係數的解釋 假設某一特定資料集顯示 x與 y間有正線性相關但不是完全正線性相關,rxy之值將會小於1,表示在散布圖上的點並非全部落在一條直線上。當資料點愈來愈偏離完全正線性相關, rxy的值會愈變愈小。 rxy之值等於零表示 x與 y之間沒有線性關係,且 rxy之值接近零表示一種微弱的線性相關。 以立體音響店的資料為例, rxy=0.93,因此,我們的結論是:廣告次數與銷售量之間存在強大正的線性關係。更明確地說,廣告次數增加時,銷售量也增加。 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第119頁
相關係數實例 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第114頁 表3.8
3.6 資料儀表板:增加數值量數以提升效能 資料儀表板不僅限於圖形顯示。 增加諸如關鍵績效指標 (key performance indicators, KPIs) 的平均值與標準差的數值量數到資料儀表板是很緊要的,因為數值量數可以作為評估 KPIs 的目標或標竿。 資料儀表板經常是互動式的。 向下鑽取 (drilling down) 是指互動式資料儀表板的功能,讓使用者可以在更細部的層次存取資訊、進行分析。 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第121-125頁