340 likes | 482 Views
第三章 檢視資料與敍述性統計. 3-1 檢視資料 3-2 敘述性統計分析 (Descriptive Statistics). 3-1 檢視資料. 檢視資料是在統計分析之前 , 必需要作的事 , 目的是為了確保資料分析結果的正確性。 我們整理檢視資料時 , 常見又可以避免或處理的問題如下: 登錄錯誤 遺漏值 遺漏值的處理 偏離值 ( 是否要刪除 ) 檢定多變量分析的基本假設. 3-1-1 登錄錯誤.
E N D
第三章 檢視資料與敍述性統計 • 3-1 檢視資料 • 3-2 敘述性統計分析 • (Descriptive Statistics)
3-1 檢視資料 • 檢視資料是在統計分析之前, 必需要作的事, 目的是為了確保資料分析結果的正確性。 • 我們整理檢視資料時, 常見又可以避免或處理的問題如下: • 登錄錯誤 • 遺漏值 • 遺漏值的處理 • 偏離值(是否要刪除) • 檢定多變量分析的基本假設
3-1-1 登錄錯誤 • 登錄錯誤是很難避免的, 只要是有人工輸入的資料, 經常會發生登錄錯誤, 在筆者的經驗中, 不管是自行輸入或則找工讀生輸入資料, 都曾經發生過登錄錯誤, 例(1):輸入性別, 男性為1, 女性為2, 在登錄資料時, 很容易發生資料登錄為12和21, 例(2):輸入李克特(Linkert)5點量表, 非常不滿意為1到非常滿意為5, 在登錄資料時, 很容易發生資料登錄為11,12, 23, 34, 45…等等, 這時候應如何處理呢? 我們提供最簡單的方式便是利用數值統計中的次數,最小值(minimum)和最大值(maximum)來檢視資料一旦發現異常值, 則馬上可以回到資料集進行修正。
實務操作如下: • 1. 開啟範例檔 missing data.sav • 2. 按 Analyze Descriptive Statistics Frequencies • 3. 選取 Sex • 4. 按 >,將 Sex 選入Variable(s) • 5. 按 Statistics,選取 Range、Minimum、Maximum • 6. 按 Continue,回到 Frequencies視窗 • 7. 按 OK,出現報表結果,如下圖:
輸出報表結果如下: • 我們登錄性別是男性為1,女性為2,因此Minimum應為1,Maximum應為2,上表中的Maximum為11,顯然是有登錄錯誤,請回原始資料進行修正。
3-1-2 遺漏值 • 遺漏值一直也是在數量方法中, 很常碰到的問題, 一般在E-mail(word檔)和當面填寫問卷回收後, 都會發覺有漏填, 甚至是有大半都未填, 這些漏填的值, 可能對於結果都有著多多少少的影響, 甚至會將結果倒轉, 也就是從顯著影響變成不顯著, 或則是從不顯著變成了顯著的影響, 因此, 當遺漏值發生時, 對於遺漏值的處理, 我們就必須謹慎小心, 適當地去處理。
遺漏值的分析 • 遺漏值發生的原因有很多, 有可能是未登錄而產生遺漏值, 填答者拒絶回答(隱私的問題…), 或則是取樣不適當, 也就是找來的填答者, 根本不適合填答我們的問題, 這些都有可能導致於遺漏值的發生。當遺漏值發生時 • ,我們就需要做遺漏值的分析。 • 1. 開啟範例檔 missing data.sav,按Analyze Missing Value Analysis • 2. 選取 Score,Cost • 3. 按 > , 將Score,Cost選入 Quantitative Variables,點選 Listwise、 • Pairwise、EM、Regression,再選取 Sex、Income、Location • 4. 按 >,將 Sex、Income、Location選入Categorical Variables • 5. 按 Descriptives, 選取 Univariate statistics、Percent mismatch、Sort • by missing value patterns、t tests with groups formed by indicator • variabels、 Crosstabulations of categorical and indicator variables • 6. 按Continue,回到 Missing Value Analysis 視窗 • 7. 按 Variables,使用預設 Use all quantitative variables • 8. 按 Cancel,回到Missing Value Analysis視窗 • 9. 按 EM,使用預設 Normal • 10. 按 Continue,回到Missing Value Analysis視窗 • 11. 按 Regression,使用預設Residuals • 12. 按 Continue,回到Missing Value Analysis視窗 • 13. 按 OK,出現報表結果
報表結果 • MVA (missing values analysis) 遺漏值分析 • Univariate Statistics • a Number of cases outside the range (Q1 - 1.5*IQR, Q3 + 1.5*IQR). • Missing Count遺漏值的數量 • Missing Percent遺漏值百分比
3-1-3 遺漏值的處理 • 一般處理遺漏值的方法有(1) 只採用填寫完整的資料 (2) 刪除樣本個數 (3) 插補法 三大類, 我們介紹如下: • 1. 只採用填寫完整的資料 • 2. 刪除樣本個數或變數 • 3. 插補法 (Imputation method) • 插補法適用於量化的變數(metric variables), 常用的方法有 (a) 使用所有資訊 (b) 估計取代遺漏的資料兩個方法。
實務操作如下: • 1. 開啟範例檔missing data.sav • 2. 按 Transform Replace Missing Values • 3. 選取 Score • 4. 在Method選取 Series mean,按 >,將 Score選入 New Variable(s) • ,變成 Score_1 • 5. 選取 Cost • 6. 按 >,將 Cost選入New Variable(s),變成 Cost_1,在Method選 • 取 Linear trend at point • 7. 按Change • 8. 按 OK,出現報表結果 • 9. 我們回到資料檔,會看到插補的數值,以新的變數 Score_1和 • Cost_1 儲存,如下圖:
在Score_1變數中,用Score變數的Series mean 平均數:例如 75.78,來代替遺漏值。在Cost_1變數中,用Cost 變數的線性迴歸所預測的數值:例如 9072.93來代替遺漏值。
3-1-4 偏離值Outlier • 偏離值指的是變數的觀察值明顯的與其它值有所有不同, 我們不能因此就判定偏離值的好與壞, 而是要依變數含的內容而定, 例如, 變數代表的是企業的年淨利, 若是有正的偏離值, 其所代表的是企業該年表現的很傑出, 賺了很多錢, 相反的, 調查物品的賣出價格時, 若是有多個偏離值, 其所代表的可能是售價有異常, 需要加以檢視, 以判定要保留或刪除, 以避免偏離值影響正常的研究結果。 • 偏離值發生的原因很多, 常見的有輸入或編碼錯誤, 異常的事件發生, 若是具有代表性, 則保留偏離值, 若是不具有代表性, 則刪除此偏離值, 異常事件發生的偏離值, 雖然本身是偏離值, 但若是與其它變數結合時, 其有相當的代表含意, 則我們仍然需要保留此偏離值。有關偏離值的量測,我們會在檢定多變量分析基本假設的實務操作中,一併實作。
3-1-5 檢定多變量分析的基本假設 • 在進行多變量分析之前, 我們須先確認收集而來的樣本, 必須符合多變量分析的基本假設, 有常態性(normality), 同質性(homoscedasticity) 也稱為變異數相等, 和線性(linearity), 若是變數和變量無法符合多變量分析的基本假設, 則可以透過資料的轉換, 以達到符合多變量分析的基本假設, 在一般的量化研究中, 若是資料未符合多變量分析的基本假設, 並且未經由資料的轉換而符合多變量分析的基本假設, 那麼使用多變量技術, 進行統計的假設檢定結果, 無法支持其結果無法支持結果的論述, 原因就在於其收集的資料, 根本就不適用於多變量分析, 而是需要其它量化技術的處理。
常態性的檢定 • 常態性的檢定有多種, 我們介紹常用的方式如下: • Histogram直方圖 • Stem-and-leaf根菜圖 • skewness偏度 • kurtosis峰度 • kolmogorov-Smirnov, K-S檢定 • Shapiro-wilk, S-W檢定
Histogram 直方圖 • 直方圖是簡易的判定方式, 如下圖, 其呈現的分配, 如同常態分配的型態 • 中間較高, 兩邊較低
Stem-and-leaf 根菜圖 • 根菜圖是另一種簡易的判別方式, 如下圖: • Stem是根, 也就是觀察的值, leaf是次數, 觀察值發生的次數, 看根葉圖時, 必須轉90度看, 也是如同常態分配的型態中間較高, 兩邊較低。
Skewness 偏度 • 資料分佈的情形, 以偏度來看除了正常的常態分配外, 有可能是左偏或右偏的資料分配, 如下圖: • 資料的左偏和右偏的分佈, 有時難以判定時, 可以用偏度的統計值Z skewness來作統計檢定 • Z skewness =N是樣本數(Hair, 1998) • 我們需要的是Z值小於常態分配的臨界值, 例如, 在95%的信心水準下, 臨界值是1.96, 也就是說, z值介於1.96時, 接受為常態分配, 若是在99%的信心水準下, 臨界值是+2.58, 也就是說z值介於+2.58時, 接受常態分配。
kurtosis 峰度 • 資料的分佈, 以峰度來看, 除了正常的常態分配外, 有可能是高狹峰態分佈和低闊峰態分佈, 如下圖: • 資料的高狹峰態分佈和低闊峰態分佈, 有時難以判定時, 可以用峰度的統計值 Z kurtosis來作統計檢定 • Z kurtosis = N是樣本數(Hair, 1998) • 我們需要的是Z值小於常態分配的臨界值, 例如, 在95%的信心水準下, 臨界值是+1.96, 也就是說, z值介於+1.96時, 接受為常態分配, 若是在99%的信心水準下, 臨界值是+2.58, 也就是說z值介於+2.58時, 接受常態分配。
Kolmogorov-Smirnov 檢定和Shapiro-wilk檢定 • Kolmogorov-Smirnov 檢定和Shapiro-wilk 檢定是常態性檢定中, 最常用的2個方法, 因為這兩種檢定都提供了統計檢定的顯著水準, 若是達到顯著水準, 以95%的信心水準為例, Sig.p0.05, 則會拒絶虛無假設 –也就是拒絶了常態性, 我們想要的是”不顯著”, Sig.p>0.05, 代表的是符合常態分配。 • Homoscedasticity (同質性) • Homoscedasticity (同質性)也稱為變異數相等, 我們檢定變異數相等的目的是避免依變數只被部份的自變數所解釋, 特別是在ANOVA單變量變異數分析和MANOVA多變量變異數分析, 都需要作變異數相等的檢定, 一般最常用的方式如下: • 依變數為一個計量變數(metric)時, 適用Levene test, 來檢測單一變數是否平均分佈於不同組別。 • 依變數為兩個計量變數(metric)時, 適用Box’s M檢定, 來檢測變異矩陣或共變異矩陣的相等性。 • 對於Levene test和Box’s M檢定, 我們在ANOVA和MANOVA章節有實作和解說。
Linearity 線性 • 多變量分析中, 另一個重要的基本假設就是Linearity 線性, 只要是基於線性結合的多項式關係而進行的多變量分析技術, 都需要符合線性的特性, 例如, 多元迴歸(Multiple regression), 邏輯迴歸(Logic regression)和結構方程式(SEM), 一般用來檢定變數是否為線性分佈的方法有散佈圖(scatter plots) 和簡易迴歸, 從散佈圖可以看出資料呈現的型態是否為線性, 從簡易迴歸可以看出非線性部份所呈現的殘差(residuals), 殘差會反應出依變數無法解釋的部份, 若是殘差過大, 已經影響到線性分佈時, 就需要透過資料的轉換作處理, 將非線性份佈的變數轉換成線性分佈, 我們整理資料的轉換方式如下: • 變數在偏度Skewness為平坦時, 適用倒數(例如: ) • 變數在偏度Skewness左偏時, 適用開根號 • 變數在偏度Skewness右偏時, 適用倒數或log • 讀者可以視需要將資料轉換成常態分佈和線性的分佈
實務操作如下: • 1. 開啟範例檔normal data.sav • 2. 按 Analyze Descriptive Statistics Explore • 3. 選取 Score和Cost • 4. 按 > , 將Score和Cost選入Dependent List • 5. 按 Statistics,選取Descriptives 和Outliers • 6. 按 Continue,回到Explore視窗 • 7. 按 Plots,選 Factor levels together、Stem-and-leaf、Histogram、Normality plots • with tests • 8. 按 Continue,回到Explore視窗 • 9. 按OK,出現結果報表
報表輸出的結果如下: • Tests of Normality:常態性檢定 • * This is a lower bound of the true significance. • a Lilliefors Significance Correction • Score和Cost變數經由Kolmogorov-Smirnov和Shapiro-Wilk檢定,均 • 為不顯著,化表的是符合常態分配。
3-2 敘述性統計分析(Descriptive statistics) • 敘述性統計就是將收集到的資料,使用各種統計圖表及統計量的計算,清楚的呈現統計的結果。 • 範例:我們設計的研究問卷如下: • 本研究問卷共發出957份,回收有效問卷350份。根據問卷企業基本資料部份之填答內容,有公司使用之大型資訊系統、員工人數、資本額、營業額、ERP專案預算、公司產業類別等,經編碼輸入資料後,存檔成descriptive.sav 。
實務操作如下: • 1. 開啟範例檔 descriptive.sav • 2. 按 Analyze Descriptive Statistics Frequencies • 3. 在 Frequencies 視窗,選取所有變數 • 4. 按 >,將所有變數選入 Variable(s) • 5. 按 Statistics,選取 Std. deviation ,Variance,Range,Minimum,Maximum, • S.E.Mean • 6. 按 Continue,回到 Frequencies 視窗 • 7. 按 OK ,出現報表結果
敘述統計結果整理 • 回收樣本基本資料描述 • 本研究問卷共發出957份,回收372份,扣除填答不全與胡亂填答之無效問卷22份,有效問卷350份,有效回收率為36.57 %。根據問卷企業基本資料部份之填答內容,依公司使用之大型資訊系統、員工人數、資本額、營業額、ERP專案預算、公司產業類別等。 • 資本額 • 企業年資本額,如下表所示,以2億~10億(不含)佔最多,共152家(43.4%),其次為10億~50億(不含),佔樣本25.1%。2億以上之企業共佔79.7%。 • 樣本回收企業2004年資本額分佈情況
公司員工總人數 • 在公司員工總人數方面,如下表所示,以100~ 499人為最多,共有179家(51.1%),其次為100人以下,佔樣本16.6%,500~999人,佔樣本15.1%,1000~1999人為最少,共22家(6.3%)。 • 樣本回收總人數分佈情況表
營業額 • 營業額如下表所示,顯示企業年營業額以10億~20億(不含)最多,佔樣本27.1%,其次為10億以下佔樣本25.7%,20億~30億(不含)佔樣本12.0% 和 30億~50億(不含)佔樣本12.0%,100億以上佔樣本11.7%,50億~100億(不含)佔樣本11.4%。 • 樣本回收企業營業額分佈情況
我國ERP 專案建置的方式,主要可以分為專案統包與專業分工兩種類型。外商ERP軟體業者多採取「專業分工」的策略,透過企業管理顧問公司或國際級資訊大廠,以專業顧問服務與最佳典範經驗滿足大型企業流程再造的需求。而所謂「專案統包」指業者同時扮演專案建置與ERP軟體開發的角色。過去,由於台灣軟體市場規模太小(不及資訊硬體的十分之一)(資料來源:2003,周樹林),造成本土ERP業者多採取專案統包的建置策略,並強調軟體修改的彈性以滿足企業本土化特殊流程的需求,所以大部分的企業ERP系統屬於客制化的系統,故回收問卷回覆多以40.6%「其他」。 • 另外,企業對於ERP專案資本支出的要求謹慎,其中ERP專案預算低於一千萬高達63.4%,因為導入ERP金額多寡為台灣地區企業主之考慮建置ERP系統之關鍵因素之一,雖然SAP及Oracle擁有技術領先及軟體功能完整之優勢,但其高額的導入費用(SAP:一億以上及Oracle:1千萬~五千萬)也令台灣企業望之卻步。故回收樣本中,除了其他之外,有部分企業是優先以企業本身的資訊部門來自行開發相關軟體,有23.4%以「自行開發」為主。
企業採用ERP系統現況 • 在企業採用ERP系統方面,以「其他」所佔樣本比率最高為40.6%,其次為「自行開發」,佔樣本24.3%,SAP佔樣本8.9%,Oracle佔樣本10.0%和鼎新Tip-Top佔樣本16.3%。 • 除「其他」和「自行開發」以外,台灣企業電子化(e-Business)軟體市場在經過整合後,有呈現大者恆大的態勢,本研究調查ERP前三大的廠商SAP(8.9%)、Oracle(10.0%)與鼎新(16.3%)合計市佔率即高達35.2%。整體而言, 在各項應用軟體市場中, 除國外大廠SAP 及Oracle 等外,鼎新為目前國內最具規模之廠商。 • ERP系統採用現況
ERP專案預算(包含軟硬體和系統開發) • 在專案預算方面,顯示企業大部分對於ERP導入的投資費用以1仟萬以下所佔比率最高為63.1%,其次為1仟萬~3仟萬(不含),佔樣本24.9%,3仟萬~5仟萬(不含)佔樣本3.4%,5仟萬~1億(不含)佔樣本3.7%,2億以上佔樣本2.6%,1億~2億(不含)佔樣本2.3%,如下表所示。 • ERP專案預算
企業產業別分佈情況 • 企業產業別分佈情況,如下表所示,在企業產業類別以電子及通訊器材為最多,共102家(29.1%),其次為消費性電子,佔樣本10.9%,在其次為電機機械與其他,皆佔樣本9.4%。 • 樣本回收企業產業別分佈情況
問卷回收後,針對填答「其他」的企業,再以電子郵件的方式詢問其行業別,對於仍無回函者,參考中華徵信所「2004年台灣地區TOP 5000」之行業別,對回收樣本中「其他」部分的資料進行分類,如下表所示。 • 樣本回收「其他」產業別分佈情況