550 likes | 646 Views
人口統計方法. 政治大學統計系 余清祥 2002 年 10 月 22 日 csyue@nccu.edu.tw 課程下載: 140.119.81.22 Tel: (02) 2938-7695 ; 2936-5313. 什麼是統計 ?. 統計學是研究定義問題、運用資料蒐集、整理、陳示、分析與推論等科學方法 , 在不確定 (Uncertainty) 情況下 , 做出合理決策的科學。. 人口統計的定義.
E N D
人口統計方法 政治大學統計系 余清祥 2002年10月22日 csyue@nccu.edu.tw 課程下載:140.119.81.22 Tel: (02) 2938-7695;2936-5313
什麼是統計? • 統計學是研究定義問題、運用資料蒐集、整理、陳示、分析與推論等科學方法, 在不確定(Uncertainty)情況下, 做出合理決策的科學。
人口統計的定義 • 人口統計或人口統計學(Demography)為研究一個地區或國家人口的學門,主要涵蓋人口總數、人口結構、與人口變遷及發展等方面。其精細之意義為︰「對人類人口數量及其因出生、死亡及移民所引起之變動之研究。」近年來其範圍擴大為︰「對於生育、婚姻、移民及死亡等資料之蒐集及統計的分析。」
人口統計研究主要項目 (1)確定某區域內人口之數量及分佈情形; (2)描述以往人口之成長與減退之情形; (3)描繪以往及現在人口之分佈情形; (4)發掘社會組織各方面影響人口趨勢之原因; (5)預測人口之未來發展及可能結果。
定 義 問 題 蒐 集 資 料 分 析 資 料 詮 釋 結 果
從事人口統計之研究,須注意下列四事︰ (1)必須對所有重要名詞有明晰及確切之了解。 (2)對所觀察之資料之品質,首須加以正確之判斷-查明是否有A.調查不確實;B.報告或紀錄不正確;C.計算與製表有錯誤。 (3)如該資料係由計算得來,對其計算程序須加以批判性之研究。 (4)對於國際資料之比較,所用名詞定義,須建立於普遍接受之基礎上。且對同一地區不同時期資料之比較,亦應使其內涵一致;而在分類製表方面,亦應合乎國際標準。
有趣(或殘酷)的範例 • 一位教授及其學生到非洲探勘,在一望無際的平原上被獅子追殺。眼看即將被追到,學生趕緊換上球鞋,教授說:「換上球鞋也跑不過獅子。」學生卻說:「我不必跑贏獅子,只要跑贏你就夠了。」 真正的問題是甚麼?
資料蒐集的方式 • 一般將資料蒐集分類成: 1. 實驗設計(Experimental Design) 包括臨床試驗 (Clinical Trials),需要較精密計畫,一般分成實驗、對照組。 2. 抽樣調查(Sampling Survey) 設計問卷,藉由調查取得資訊。 • 目標:藉由蒐集的資料推得訊息。
人口統計資料的來源 • 人口統計的資料絕大多數來自於: 1. 戶口普查(Census) 2. 抽樣調查(Surveys) 3. 生命統計(Vital Statistics; 或譯為人口動態統計) 4. 戶籍登記(Population Register)
戶口普查 • 戶口普查指某一特定地區於某一特定時刻,對其全部人口本身的自然與法律身份事項,及其有關的經濟與社會特定資料加以調查、蒐集、整理、分析等全部作業。 • 台閩地區戶口普查每十年舉辦一次,最近一次在2000年12月進行,由主計處負責規劃。
兩種不同普查的方法: 1. de facto (實際上):紀錄普查當時的人口結構,聯合國推薦的方法。 2. de jure (法理上或權利上):紀錄常住人口,我國、美國、加拿大等國使用的方法。 • 我國普查原則上採事前訪問、事後調查,並於普查後辦理抽樣複查。
調查方法 • 調查方法通常可因獲取資料方法之異,通常分為: (1)人員調查法(Personal Survey) (2)電話調查法(Telephone Survey) (3)郵件調查法(Mail Survey)
為什麼要抽樣? • 為什麼只看一部份的母體? 普查需要較長的時間、較多的經費與人力。(兩次普查之間通常輔以問卷調查等方法彌補資料的不足。例如:1990年及2000年兩次工商業普查間,在1995年進行抽樣調查。) 有時抽樣是唯一可行的方法。 (例如:各年齡婦女墮胎率、攤販調查)
抽樣方法的分類 • 抽樣的方法可分為隨機抽樣(Random Sampling或稱為機率性抽樣)及非隨機抽樣,前者不加人為意志,僅以隨機抽取樣本;而後者則按人為意志選取具有典型代表性樣本。 隨機抽樣法因樣本以隨機抽出,較具代表性,但需要較完備的規劃,通常衍生的費用也較高。
較常見的隨機抽樣法 • 簡單隨機抽樣(Simple Random Sampling) • 分層隨機抽樣 • 集體隨機抽樣 • 系統抽樣 • 兩段、多段抽樣 簡單隨機抽樣如同摸彩,將所有的個體逐一編號再抽出。
分層隨機抽樣(Stratified Random Sampling) ○○○○○○ ○○○○○ ○ ○ 第一層 ○○○○ ○○ XXXXX XXXX X XXX XX 第二層 第三層 抽樣
○○○○○○○ ××× △△△△△ A ○○○○○○○ ××× △△△△△ B ○○○○○○○ ××× △△△△△ C ○○○○○○○ ××× △△△△△ ○○○○○○○ ××× △△△△△ D ○○○○○○○ ××× △△△△△ ○○○○○○○ ××× △△△△△ E ○○○○○○○ ××× △△△△△ F 集體隨機抽樣(Cluster Random Sampling) 抽出A、D
較常見的非隨機抽樣法 • 立意抽樣:不依隨機原則抽取樣本,而由母體中選取部份具有典型代表樣本。(e.g. 專家意見) • 便利抽樣:事先不預定樣本,碰到即問或樣本自動回答。(e.g. 街頭調查) • 滾球抽樣:利用樣本尋找樣本,對於特定族群樣本取得不易時採用。(e.g. 愛滋病的罹病人數) • 配額抽樣:規定具有某種特性的樣本比例,類似分層隨機抽樣。
資料分析的步驟 • 基本資料分析(Explanatory Data Analysis) --- 敘述性統計 (Descriptive Statistics) --- 表格與圖形 (A picture is worth 1,000 words!) • 統計模型、統計推論、統計檢定
基本資料分析 • 資料偵錯 資料輸入錯誤、尋找可能的離群值。 • 初步探索資料的特性 資料的集中、散佈趨勢。 • 驗證已知的結果 是否與已知的結果相同?
資料分析的要訣 • 化繁為簡(反璞歸真) • 結合相關知識 • 發揮聯想力(大膽假設) • 勿驟下結論(小心求證) • 圖形較能反映資料特性
集中趨勢量數 • 平均數(Mean;期望值) 算術平均數(Average); 加權平均數(Weighted Average); 其他(幾何平均數、調合平均數) 。 • 中位數(Median): 一半的數值比中位數大,一半的數值比中位數小。 • 眾數(Mode):出現次數最多的數值
集中趨勢量數(範例) • 員工薪資為25, 30, 30, 30, 35, 43, 70, 80, 85 →中位數是35 • 25, 30, 30, 30, 35, 43, 70, 80, 85, 90 →中位數是 • 員工薪資為25, 30, 30, 30, 35, 43, 70, 80, 85 →眾數是30 • 25, 30, 30, 35, 38, 43, 43, 80, 85 →眾數是30及43(眾數不唯一)
差異量數 • 全距(Range): 最大與最小數值之差(Range = Max-Min) • 四分位差(Quartile Deviation): 四分位數(Quartile;Q1): 3/4的數值比大Q1,1/4的數值比Q1小。 四分位差 = Q3 – Q1 • 變異數(Variance; σ2)與標準差(Standard Deviation;σ)
敘述統計量(範例) 例題一、試以文字詮釋以下隨機抽出內政部戶政司20位員工的年齡: 41 25 25 33 27 31 42 35 36 32 36 41 34 29 34 31 34 35 32 35 平均數=33.4,中位數=34.0, 標準差=4.75,全距=17。
敘述統計量(續) 例題二、試以文字詮釋以下隨機抽出行政院20位員工去年請假的天數: 0 0 0 0 0 0 0 0 1 1 1 2 2 3 4 5 5 6 7 42 你/妳 看到了甚麼現象?
敘述統計量(續) 例題三、街頭隨機訪問20位成年受訪者去年閱讀某月刊的期數: 0 1 11 0 0 0 2 12 0 0 12 1 0 0 0 0 12 0 11 0 請問這是甚麼樣的月刊?
敘述統計量(續) 例題四、以下為隨機抽出某地區16位孕婦的身高(單位:公尺): 1.57 1.55 1.60 1.52 1.68 1.57 1.62 1.55 1.65 1.52 2.55 1.60 1.55 1.60 1.62 1.57 請問你/妳看到資料有何特性?
選項 人數 百分比 1 簡便快速 153 38.25 2 食物 89 22.25 3 環境因素 135 33.75 4 其它 23 5.75 N= 400 表格與圖形 • 以表格、圖形展示資料更有效果! 長條圖(Bar Chart)
馬克吐溫對統計的想法 There are three kinds of lies: Lies, Damned lies, and Statistics!!
表格與圖形(續) 例題五、A、B兩公司的差距大嗎?
表格與圖形(續) 例題六、謀殺率上升嚴重嗎?
表格與圖形(續) 例題七、飛機的裝甲該加在哪裡? 顏色愈深代表被擊中的次數愈多
人口統計的重要觀念(平衡公式) 其中 P(t):第 t 個時間的總人數 B(t):第 t 個時間的出生人數 D(t):第 t 個時間的死亡人數 I(t):第 t 個時間的移入人數 E(t):第 t 個時間的移出人數
也就是說,一個國家或地區的人口變化由出生、死亡、移民3個因素決定。也就是說,一個國家或地區的人口變化由出生、死亡、移民3個因素決定。 • 通常出生及死亡的影響較為明顯。 因此,出生及死亡的變化,通常是研究人口統計最重要的課題。 藉由出生率與死亡率反映變化。 • 問題:如何有效地定義出生率及死亡率?
出生率與死亡率 • 粗略率(Crude Rate)為直觀的定義。 粗出生率=出生總人數 總人數 粗死亡率=死亡總人數 總人數 • 粗人口增加率=粗出生率 – 粗死亡率 • 但粗略率通常無法反映實際狀況,例如台灣現在的粗人口增加率上升,但青壯人口比例下降,人口老化現象日趨明顯。
修正的定義 • 年齡別生育率及年齡別死亡率 fx=生母 x歲的出生人數 x歲婦女人數 qx= x歲死亡人數 x歲總人數 • 總生育率(Total Fertility Rates): • 生命表(Life Tables): 由各年齡的qx勾勒出各年齡的死亡風險