250 likes | 477 Views
統計 (Statistics). “Statistics” 一字源自拉丁字 status (城邦、國家)或 statista ( 政治家 ) 。 最早係亞里斯多德出版之“政治學”一書中描述 158 城邦各項數字比較。 在 1797 年大英百科全書才出現此字。. (384-322 B.C.). 統計與統計學. 統計是認識我們周遭環境與世界的鑰匙 統計是“分門別類”“數東數西” 統計原來是以數字描述現象的工作 近代統計學發展始於 十九世紀末 統計學的興起是緣於現實生活中充滿許多的不確定性或變異. 統計改變了世界. 十九世紀之前,科學是物理、化學、數學的世界
E N D
統計(Statistics) • “Statistics”一字源自拉丁字status(城邦、國家)或 statista (政治家)。 • 最早係亞里斯多德出版之“政治學”一書中描述158城邦各項數字比較。 • 在1797年大英百科全書才出現此字。 (384-322 B.C.) Stat_cos
統計與統計學 • 統計是認識我們周遭環境與世界的鑰匙 • 統計是“分門別類”“數東數西” • 統計原來是以數字描述現象的工作 • 近代統計學發展始於十九世紀末 • 統計學的興起是緣於現實生活中充滿許多的不確定性或變異 Stat_cos
統計改變了世界 • 十九世紀之前,科學是物理、化學、數學的世界 • 十九世紀的科學家發現理論的預測與實際測得的結果並不完全吻合,將之歸於誤差函數。 • 當時科學家都認為,隨著量測愈來愈精確,最後一定不再需要這項誤差函數,到了十九世紀末,誤差不但沒有消失,反而一直增加。 • 因此,在實務研究上,需要統計模式替代數學模式。 • 目前,幾乎所有的科學都已經轉而運用統計模型。 Stat_cos
關於統計學 • 統計是依據數字描述或分析現象 • 以數字描述現象稱為敘述統計 • 以樣本估計或檢測母體現象稱為推論統計 • 建立統計模式解釋因果關係,或預測未來結果是統計建模 • 統計報導非常普遍。有關民生問題、民調、醫學、科技 • 統計的學習重在建立正確統計觀念,合理的推論能力 • 數學不好仍然可以學好統計 • 統計和數字有關,可用統計軟體執行計算 Stat_cos
常見的統計報導 • 去年一般流感病患總共約有十三萬例,而今年截至目前為止,就出現了十六萬三千個病例,不僅比同期增加兩成五,死亡人數也比去年高。 • 國內有160萬人對自己的性別不滿意,約40萬人口有希望變成異性的想法,女性想變性比率佔全部受訪女性的3.7%,男性想變性比率佔全部受訪男性的1.4% Stat_cos
例:台灣受僱者疲勞的分布狀況與相關因素 • 資料:源自2004年全國受僱員工調查 共計男性8906人,女性6382人。 • 如何測量疲勞? • 疲勞是一現象,是相當主觀的,但必需將現象量化,用同一標準測量才能執行研究。 • 本研究以「哥本哈根疲勞量表」做為測量的工具 包括「一般疲勞」與「工作相關疲勞」 • 測量因素包括工作時數、工作負荷、工作控制感、教育程度、職業等級、家庭照顧負荷等。 Stat_cos
哥本哈根疲勞量表 • 你常覺得疲勞 • 常覺得體力上體力透支 • 常覺得情緒上心力交瘁 • 常覺得快撐不下去 • 常覺得精疲力竭 • 常覺得虛弱、快生病了 以 每天、經常、偶而、不常、從不 等五項為選項 (依據李克量表) Stat_cos
結果: • 12.7% 的男性與9.1% 的女性在調查前一週中工作49小時或以上。 • 在所有年齡層與職等中,女性受僱者的疲勞指數皆顯著高於男性。 • 當依性別分析,我們發現在女性受僱者中,高職等、高教育程度者的疲勞指數高於低職等、低教育程度者。然而在男性受僱者中,疲勞指數並沒有清楚的社會階層分布。 • 疲勞的高危險族群:每週工時49小時或以上者、工作心理負荷量較高者、以及家中有六歲以下幼兒或失能老人者。 Stat_cos
統計學的應用 • 對1000位民眾的訪問結果,有400位支持甲,有410位支持乙,請問乙是否一定當選。 • 有人宣稱有百分之七十以上的某型飛機的尾舵上,出現因金屬疲勞而造成的裂縫。倘若在隨機選取的18架該型飛機上,有15架的確出現因金屬疲勞而造成的裂縫,請檢定上述的說法。 • 金屬疲勞而造成的裂縫 可換成醫師對薪資的不滿,或汽車排放廢氣超過標準值。 • 了解國內受僱工作者疲勞狀況及相關因素。 Stat_cos
2.1 數值資料的種類 • 類別資料(Nominal data),如:婚姻狀況、有無患病(二元變數)、血型,注意:此類變數的均值是無意義的。 為了便利性,類別資料通常都會進行編碼,不同的 類別給予不同的數字編號,藉此將類別資料轉換成數值資料。 • 有序資料(Ordinal data),如:傷害程度、治療組別,注意:此類變數要先詳加定義,各值間的差異不一定是等距的,使用其均值時需小心。 Stat_cos
2.1 數值資料的種類 • 等級化資料(Ranked data),如:死亡原因排名 • 離散型資料(Discrete data),如:發生次數、個數 • 連續型資料(Continuous data),如:重量、血壓等測量值 Stat_cos
不同型資料使用的統計方法不同 注意: 1、不同的測值會產生不同的結論,應針對研究的目的來選擇合適的測值。 2、在應用統計學方法的時候,必須要先明辨資料本身在性質上的限制,不能永遠用同一套;也就是說,必須根據資料的屬性,選擇適當的統計分析方法。 Stat_cos
2.2 資料整理 – 表(Tables) • 列表之目的在呈現資料分布 • 次數分布表(Frequency Distributions) 參考 表2.4 肉瘤人數 表2.5 每人每年紙菸消費量 表2.6 膽固醇值分布表 Stat_cos
建立次數表 (frequency table) • 次數 Frequency • 相對次數(Ralative frequency) • 累積次數(Cumulative frequency) • 相對累積次數(Relative cumulative frequency)。 Stat_cos
25~34美國男性膽固醇值分布表 Stat_cos
2.3 資料分配圖 用於呈現連續型資料分布之圖形 • Histogram 直方圖 • Frequency polygon 次數多邊圖 • 累積次數多邊圖 (肩形圖) • 盒形圖 Stat_cos
直方圖代表資料的分布型態 次數 (比例) 多邊圖 Stat_cos
你是否能由以下的肩形圖估計出第30及第80百分位數?你是否能由以下的肩形圖估計出第30及第80百分位數? 第30百分位數約為 ,第80百分位數約為 。 Stat_cos
盒形圖 • Q1,Q3: 第一、三個四分位數 • 中位數、四分位數,以及最大值與最小值,可以畫成盒形圖(box plot),或盒鬚圖(box-and-whisker plot)。 最小值 Q1中位數 Q3 最大值 Stat_cos
製作盒形圖 • 最小值 35,最大值 81。 • 先劃一橫線,在上面標出合適的坐標 • 求出中位數,以及Q1 ,Q3 。 • 在橫線上標出最小值、,Q1、中位數、Q3 、以及最大值的位置。 • 畫盒子及鬚。 Stat_cos
質性變數描述 • 統計圖 : Bar chart, Pie chart 長條圖 Bar Chart • 比較各項目之頻率。 • 注意坐標數字,以做出客觀的比較 圓餅圖 Pie Chart • 表現出每一類所佔的比例,以做比較。 Stat_cos
長條圖 (bar chart) 針對二分類變數作長條圖,可表現此二變數的相關性,選擇不同的主要分類項,表現的意義不同 Stat_cos
圓餅圖 (pie chart) 北美洲與大洋洲的人口分佈是增加的,亞洲與拉丁美洲的人口分佈是減少的。 Stat_cos
圖形刻度會影響資料呈現的意義 由19.5百萬上升至20百萬,只上升了4%,左圖的誤導似乎是上升了400% Stat_cos
不確實的刻度 左圖誤導為每一季增加一倍,事實上是緩慢上升 Stat_cos