290 likes | 445 Views
CH12 資料整理:描述統計. CH 12. 12.1 複習基本原理 測量的定義:測量指的是我們給變數的不同水準賦值的過程。 使用的數字代表的僅僅是變數觀測值之間的類別差異,那麼我們碰到的就是定類量尺(以性別這個變數為例,共有男、女兩類互斥的水準值,我們用 1 代表男性、 2 代表女性)。 當數字代表的是變數觀測值之間的等級順序時,我們看到的就是定序量尺的測量(比如對政治熱情的測量分為 1= 低, 2= 中等, 3= 高,共有三個由低至高排序的水準值)。. CH 12.
E N D
CH 12 • 12.1 複習基本原理 • 測量的定義:測量指的是我們給變數的不同水準賦值的過程。 • 使用的數字代表的僅僅是變數觀測值之間的類別差異,那麼我們碰到的就是定類量尺(以性別這個變數為例,共有男、女兩類互斥的水準值,我們用1代表男性、2代表女性)。 • 當數字代表的是變數觀測值之間的等級順序時,我們看到的就是定序量尺的測量(比如對政治熱情的測量分為1=低,2=中等,3=高,共有三個由低至高排序的水準值)。
CH 12 • 當賦予變數的數字代表的是該變數觀測值之間相同的等級距離時,我們就達到了測量的定距量尺(例如,用華氏溫度計測量白天的氣溫,32度和33度之間的差別與82度和83度之間的差別是一樣的)。 • 當我們在測量過程中使用的數字代表的就是實際的變數觀測值時,我們達到就是測量的定比量尺(比如,用某人在過去三個月內參加社區活動的次數測量他的社區歸屬感)。 • 統計學(statistics)可以被認為是一套用來分析測量結果的方法。或者用另一種說法來講,統計學是一套整理資料的工具。 • 簡單定義:統計學就只是整理資料的一套工具。
CH 12 • 12.2 量化資料整理 • 描述統計(descriptive statistics)是一套用來整理和概括資料的方法,目的是瞭解資料的總體情況。 • 頻率分布(frequency of distribution)根據每個觀測值出現的次數對變數進行有規則地排列(從高到低)。 • 頻率分布使得我們能夠輕鬆地得出一組資料,並以一種簡潔直觀的形式呈現這些資料。
CH 12 • 12.3 總結描述 • 整理資料的另一種方法是進行總結描述。這是描述統計的核心和本質。 • 在這些總體資訊中,我們通常最感興趣的是均值(average)。還有人會關注所有成績的全距(range)。 • 我們對這些總體資訊的關注體現了兩種主要描述統計方法的價值:集中趨勢測量指標和離散趨勢測量指標。 • 12.3.1 集中趨勢 • 集中趨勢(central tendency)測量指標是一種統計的摘要總結,也就是說,它們從眾多資料中抽象出一個最具代表性的數值,來代表或概括全部資料或觀測值。
CH 12 • 常用的集中趨勢指標有三種,分別是:平均數、中位數和眾數。 • 平均數(mean)是基於算術運算的均值。 • 要計算平均數,我們必須先把一個資料集的所有變數值都累加起來,然後把這個總數除以這些變數值的個數。 • 關於平均數,你們要注意三個要點。1.平均數是集中趨勢指標中唯一一個受整個資料集中每一個變數值影響的指標。2.平均數並不一定等於資料集當中的某一個數值。3.平均數和高於(或大於)它的數值之間的距離等於平均數和低於(或小於)它的數值之間的距離。這點的重要性在我們討論離散趨勢時就會顯現出來。
CH 12 • 中位數是測量集中趨勢的「中間」指標。要確定一組資料的中位數(median),我們首先必須把資料從低到高排序,然後找到那個處在中間次序的數值,這個數值就是這組資料的中位數。 • 如果變數值的個數是奇數,那麼確定中位數就比較簡單,就是處在數列中間的那個數。 • 34, 46, 50, 52, 65 • 奇數:中位數 = 中間值 = 50 • 34, 46, 50, 52, 65, 68 • 偶數:中位數 = 兩個中間值(50, 52)的平均數 = 51
CH 12 • 眾數(mode)指的是一組資料中最常見或出現頻率最高的那個數值。 • 選擇平均數、中位數還是眾數,這個任務是為資料分析尋找合適的統計工具的一個組成部分。眾數是唯一一個適合測量定類量尺資料集中趨勢的指標。 • 當資料包含一些極端的變數值〔又叫做極端值(outliers)〕時,中位數就是測量集中趨勢的合適指標。 • 極端值指的是那些和資料集當中大部分數值存在顯著差異的數值。
CH 12 • 其實,平均數只適合描述定序和定距量尺資料的集中趨勢。只有在這兩個測量量尺上,賦予變數值上的數字才是「真正的」數字。 • 只有真正的數字才適合用來進行諸如加和除(計算平均數必須要用到這兩種數學運算)之類的數學計算。 • 12.3.2 離散趨勢的描述 • 測量資料離散趨勢的指標:全距(range)、標準差(standard deviation)和變異數(variance)。
CH 12 • 全距(range)的涵義就是它的字面意思,它代表的是一組資料最大值與最小值之間的差距。 • 用全距來測量資料的離散趨勢速度快,但也相當粗糙。 • 10, 85, 85, 85, 85, 100 • 這組資料的全距是90,也就是最高分(100)減去最低分(10)。 • 理想狀態是,資料集當中的每一個數值都可以進入這個離散指標的計算過程。變異數(variance)就完全符合這一要求,它的計算就包括資料集當中的每一個數值。
CH 12 • 12.3.3 一個巴掌拍不響:相關統計描述 • 資料整理的另一種重要途徑是在總體層面上描述兩個變數之間的關係。例如,考試成績和花在準備考試的時間之間是否存在某種關聯?隨著一個變數值的增加,第二個變數值是否也跟著增加或減少? • 相關係數(correlation coefficient)是用來概括兩個變數共同變化程度的數字。它的取值範圍為-1到+1。 • 如果相關係數為1(不管是-1還是+1),那麼這兩個變數的變化就完全同步,一個變數改變n個單位,另一變數也改變n個單位。如果兩個變數變化的方向相反(一個增加,另一個減少),那麼它們之間的關係就是負相關。
CH 12 • 當相關係數為0時,兩個變數之間不存在任何關係,即一個變數和另一個變數之間沒有任何關聯。 • 一般情況下,相關係數落在沒有關係(0)和完全相關(+/-1)之間。相關係數越接近+/-1,兩個變數之間的相關就越強烈。相關係數越接近0,兩個變數之間的相關就越微弱。 • 概括兩個變數之間相關的係數有很多種,比如皮爾遜相關係數、斯皮爾曼等級相關係數,和係數。和我們在選擇表達均值的統計工具一樣,相關係數的選擇也必須考慮變數的測量量尺。
CH 12 • 皮爾遜係數(Pearson coefficient)應該用於描述兩個定距變數的相關關係,例如收入和存款金額之間的相關關係;身高和體重之間的相關關係;受教育年限和辭彙量之間的相關關係,等等。 • 斯皮爾曼等級係數(Spearman rank coefficient)適合用於描述兩個定序變數之間的相關關係,如識字水準(A,B,C,等)和對上學的興趣(高,中等,低)之間的相關關係;出生順序(第一個,中間,最後一個)和自尊心(低,中等,高)之間的相關關係。
CH 12 • Φ係數(Phi coefficient)應該被用於概括兩個定類變數之間的相關關係,比如性別(男,女)和黨派(共和黨,民主黨)之間的相關關係;婚姻狀況(已婚,未婚)和投票傾向(布希,高爾)之間的相關關係。 • 12.4 統計圖表 • 我們可以借助幾個關鍵的統計工具有效地概括資料的總體情況,即集中趨勢、離散趨勢和相關關係。 • 生動形象的視覺圖像可以進一步加深我們對資料總體情況的瞭解。統計圖表就是能把數字轉化成視覺圖像的工具。事實證明,統計圖表比起一大堆數字來說,更能說明問題。
CH 12 • 12.4.1 統計圖基本介紹 • 12.4.2 頻率分布和集中趨勢的統計圖表示法 • 當我們想要表示一組資料中各個數值的出現頻率時,我們可以使用條形圖、直方圖或頻率折線圖。 • 條形圖(bar chart)適合用於表示定類變數的頻率分布。定類變數的每一個種類或觀測值都由各自在軸上的條形表示。每個條形的高度(Y軸)形象地表示每個觀測值(X軸)的相對頻率。如圖12.2所示。
CH 12 • 直方圖和頻率折線圖都適用於表示定量變數的頻率分布。這兩種方法有一些共同點,即都用X軸表示變數的類別,Y軸表示頻率資訊。 • 直方圖(histogram)採用一系列連續的條形來顯示頻率資訊。每一個條形與X軸上的變數類別相對應。直方圖對查找極端值或資料之間的遺缺值(gap,即該觀測值的出現頻率為零)特別有用。 • 頻率折線圖(frequency polygon)用散點和連續的折線取代直方圖的連續條形來表示頻率分布。折線連接軸上每個類別的中點。 • 從這兩種統計圖中可以形象地看出眾數(直方圖中最高的條形,折線圖中的最高點)。
CH 12 • 12.4.3 離散趨勢的統計圖表 • 直方圖和頻率折線圖還能用來表示離散趨勢。 • 看一看圖12.5。 • 從A折線中我們可以清楚地看到,該組資料的離散程度很小。之所以下這樣的結論,原因在於這條折線十分陡峭,這表示大部分數值都聚集在折線的中點(平均數)附近。折線B代表的是一組離散趨勢中等的資料,這條折線的形狀像個鐘形。最後,折線C代表的資料離散程度相對較高,因為折線十分平緩,有相當一部分數值遠離平均數。
CH 12 • 12.4.4 相關關係的統計圖表 • 散點分布圖(scatterplot)是相關係數的視覺呈現。它能展現兩個變數之間是否存在共變關係,從而幫助我們發現潛在的因果關係。 • X軸表示一個變數,Y軸表示另一個變數。(如果我們要論證因果關係,那麼自變數應該放在X軸上。) • 每個坐標軸上變數的值可以用絕對數字、百分比、等級或觀測值表示。 • 在散點分布圖裡,我們用點(又叫資料點)來同時表示兩個變數的變化情況。為了精確地找到每個點的位置,我們先在X軸上確定的變數值,然後再確定該變數在Y軸上的相應值(使用方格紙可以幫助我們準確地找到相應的交叉點)。一個點代表資料組裡的一個數值。
CH 12 • 12.5SPSS(社會科學統計套裝軟體) • 最新版本的SPSS極大地簡化了操作過程,用戶只需點擊滑鼠就可以完成諸如均值(平均數、中位數、眾數)計算,離散趨勢測量指標(全距、變異數、標準差)計算,以及條形圖、統計表和統計摘要的繪製等資料整理工作。 • 如果你能熟練掌握本章介紹的統計學知識,那麼(在SPSS的幫助下)你就會欣慰地發現,自己已經成為一個統計高手了。