550 likes | 682 Views
民意調查的分析 I. 蔡佳泓 政大選舉研究中心 副研究員. 課程大綱. 名目變數之描述性統計 連續變數之描述性統計 順序變數. 11%+89%=100%. 有 89% 主婦說謊 ?. 調查指出有 11% 主婦依賴速食,這代表什麼 ?. 名目變數描述性統計. 類別資料例如性別、 居住地、贊成反對等皆可以用次數分配表示。 表示的重點在於指出那一個類別佔多數,即眾數。. 使用 SPSS 分析資料. 以 「 台灣的公民意識 」為例 檔案 - 讀取文字資料 分析 - 描述統計 - 次數分配表 統計圖 - 圓餅圖或線形圖. SPSS 介面.
E N D
民意調查的分析I 蔡佳泓 政大選舉研究中心 副研究員
課程大綱 • 名目變數之描述性統計 • 連續變數之描述性統計 • 順序變數
11%+89%=100% 有89%主婦說謊? 調查指出有11%主婦依賴速食,這代表什麼?
名目變數描述性統計 • 類別資料例如性別、 居住地、贊成反對等皆可以用次數分配表示。 • 表示的重點在於指出那一個類別佔多數,即眾數。
使用SPSS分析資料 • 以「台灣的公民意識」為例 • 檔案-讀取文字資料 • 分析-描述統計-次數分配表 • 統計圖-圓餅圖或線形圖
順序尺度資料分析 • 順序尺度變數可以用中位數表示其中間趨勢。 中位數指的是將全部觀察值分成一半的觀察值。 • 例如:2,5,5,8,10,13,60,77,125,336,336,999,1021之中60為中位數。
順序尺度變數 • 重新歸類為比較好、 差不多、 比較差三類。 • 中位數為2—差不多, 因為累積次數過半。 • 眾數也是2 。
連續性變數1 • 平均數 X-bar = ΣX/n • 中位數 Median =如果樣本大小n 為偶數,則以第n/2個與n/2+1為中位數 如果樣本大小n為奇數, 則以第(n+1)/2個數值 • 眾數 最多分配的那個數
連續性變數2 • 全距(Range):一群體全部數值的變動範圍 ---易受兩極端數值的影響 • 變異數(Variance):一群體中所有數值與平均數離散的情形
連續性變數3 • Q3:第三個四分位數(75%的觀察值之上) • Q1:第一個四分位數(25%的觀察值之上) • 四分位差(Interquartile range, IQR)=Q3-Q1 • Q3:按大小排列後, 前一半觀察值的中位數 Q1: 後一半觀察值的中位數
有20位學生的物理成績由低至高排序如下(單位為分):47, 50, 52, 53, 54, 56, 56, 60, 62, 62, 62, 65, 67, 69, 71, 73, 74, 79, 80, 82 • 中位數: (62+62)/2=62 • Q1: 第5跟第6個數目之平均: (54+56)/2=55 • Q3: (71+73)2=72
偏態 • 平均數>中位數>眾數---右偏, 正偏 • 眾數>中位數>平均數---左偏, 負偏
偏態圖形 右偏 左偏
峰度 • 峰度(Kurtosis)是次數分配曲線與常態曲線比較,是較為尖峻或平坦
變項分配 • 莖葉圖(stem-and-leaf plot) • 盒鬚圖(box plot)
grade Stem-and-Leaf Plot Frequency Stem & Leaf 3.00 4 . 459 4.00 5 . 1345 2.00 6 . 06 .00 7 . 4.00 8 . 0468 5.00 9 . 01348
最大值 75分位 中位數 25分位 最小值
例---收入 • 收入資料如下: {2, 56, 41, 45, 48, 60, 66, 61, 49, 160, 55, 93}
極端值 界外值 64.75 55.5 25 界外值
極端值與界外值 • 極端值(Extreme value): 小於Q1-3Q的值或是大於Q3+3Q的值 • 界外值(Outlier): 介於Q1-1.5*(IQR) 與Q1- 3*(IQR)之間或是Q3+ 1.5*(IQR) 與Q3+ 3*(IQR)之間
交叉列表 • E11/A1 = E12/A2 = B1/N • E21/A1 = E22/A2 = B2/N • 所以:E11= A1*B1/N ,每一格子數目由邊際機率決定
交叉列表的獨立性檢定 • 用Chi-square分布做獨立性檢定。 • 如果拒斥檢定假設表示兩者是相關的。 • 如果接受檢定假設表示兩者是獨立的。 也就是期待值跟觀察值非常相近。 • χ2=∑(期待值-觀察值)2/期待值 • 自由度: (列數-1)(行數-1)
名目變數的相關性 • 名目尺度只有類別沒有順序或距離, 因此相關性的原理是用某個變數的眾數去猜另一個變數的眾數, 猜對減猜錯的比率就是相關性。 • PRE(proportional reduction of error):用依變數的全部減眾數為底, 分子為每一自變數值對應的非眾數。1-[(d1+d2+..+d3)/ (N-m)]
名目變數相關係數: lambda • 可用在對稱性或有依變數之名目變數之關聯性計算 • 不對稱:lambda= (每個X變項下Y的眾值)-Y之眾值/N-Y之眾值 對稱:(每個X變項下Y的眾值)+(每個y變項下x的眾值)-Y之眾值-X眾值/2N-Y之眾值-X之眾值
名目變數的相關性 • 以有沒有出去玩當依變數N=1124 • 眾數為627 • N-m=497 • 用年齡當做自變數時, 每個年齡對應的d-m為86, 122, 129, 75, 39(猜錯的) • 497-451/497=.093
順序尺度變數相關性 • 如果有兩個順序尺度的變數,一般而言是用Gamma表示其相關程度。 • Gamma的觀念是比對觀察值在兩個變數上的順序,順序一致的比率越高,則兩者的相關性越高。 • 另外一種指標是Kendall’s tau-b ,可以幫助Gamma係數處理一些平手的配對。
Gamma: Ns-Nd/Ns+Nd • Tau-a:Ns-Nd/0.5*N(N-1) • Tau-b:Ns-Nd/sqrt(Ns+Nd+Tx) (Ns+Nd+Ty) • Sommer’s D: Ns-Nd/Ns+Nd+Ty • Ns: 同序的數目 Nd: 不同序的數目 • Tx:X變數下平手的格子
計算方式 • Ns=f11(f22+f23+f32+f33)+f12(f23+f33)+f21(f32+f33)+f22(f33) • Nd=f13(f22+f21+f32+f31)+f12(f21+f31)+f23(f32+f31)+f22(f31) • Ty=f11(f12+f13)+f12(f13)+f21(f22+f23)+f22(f23)+f31(f32+f33)+f32(f33)