1k likes | 1.27k Views
你應該知道的統計知識. 資商訊息顧問有限公司 中華資料採礦協會 杜長嶸. 何謂統計學. 統計就是從數據中獲取資訊的科學 收集資料 整理資料 分析資料 導出結論 敘述統計學、推論統計學. 母體 個體 樣本 抽樣底冊 參數. 統計量 變數 眾數 中位數 平均數. 統計詞彙. 母體與樣本間的關係. 母體. 樣本. 抽樣. 推論. 樣本統計量. 母體參數. 抽樣誤差 非抽樣誤差. 變數. 個體. 樣本. 觀察值. 騙人的平均數. 老謝應徵工作 公司規模:老闆、經理 2 位、組長 3 位、職員 5 位。
E N D
你應該知道的統計知識 資商訊息顧問有限公司 中華資料採礦協會 杜長嶸
何謂統計學 統計就是從數據中獲取資訊的科學 • 收集資料 • 整理資料 • 分析資料 • 導出結論 敘述統計學、推論統計學
母體 個體 樣本 抽樣底冊 參數 統計量 變數 眾數 中位數 平均數 統計詞彙
母體與樣本間的關係 母體 樣本 抽樣 推論 樣本統計量 母體參數 抽樣誤差 非抽樣誤差
變數 個體 樣本 觀察值
騙人的平均數 • 老謝應徵工作 • 公司規模:老闆、經理2位、組長3位、職員5位。 • 老闆:公司平均月薪6萬元,受訓期間1萬五千元,很快會加薪。 ? 做 不做
中間數:4萬 平均數:6萬 眾數:2萬
平均數:量測觀察值散佈情形的中間值。 • 標準差:衡量觀察值的散佈情形偏離平均值有多遠。 • 偏度:描述一個分配偏離對稱性的情形 • 峰度:衡量觀察值偏離平均數有多快。 • 變異係數:獲得相對的變異情形。 變異係數=標準差/平均數
乙班 甲班 • 某次統計學考試,甲班平均分數為80分,標準差為20,乙班平均分數為75分,標準差為5,哪一班成績較優?
資料衡量尺度 • 量化的處理工具便稱為衡量的尺度,又稱量表(Scale)。 • 問卷衡量尺度的設計是評估報告是否深入的關鍵。 • 不同的量表應用不同的統計分析,準確性才會提高。 • 考量的依據: • 1.研究目的與問題深入的程度 • 2.事後資料整理時之便利性 • 3.各種可能選項的周延性與互斥性需兼顧 • 4.統計的方法
一、名目尺度(nominal scale) 此種量表是根據被調查對象的性質而分類,如根據消費者答案可分為「喜歡」與「不喜歡」或「是」與「否」兩類。 每類答案的數字只作為分類之用,如果將這些答案數字(1,2,3)做運算,根本沒有意義,因為這些數字在此僅屬名義而已,真正目的是在分類。 二、順序尺度(ordinal scale) 較類別量表多一特性,可以表示各類別之間的順序關係。 如要求消費者根據其心中偏好,將五種飲料品牌依最喜歡到最不喜歡的順序排列,最喜歡給5分、最不喜歡給1分,這就是一種順序量表。 不過代表順序的數字還是不能用來做運算,只能看出高低次序,卻無法確定順序之間的差異大小,例如若已知A>B>C>D>E,但並不知道A與B的差距,或C與D的差距,所以也無法得知兩種差距是否相等。
三、差距尺度(interval scale) 較順序量表再推進一步,不單能表示順序關係,尚能測量各順序之間的距離,可確定地指出5分與4分之差距等於4分與3分的差距。 差距量表的分數可用來做加減乘除的運算,此為其之一大優點,但是不能說明6分為3分的兩倍,因為差距量表並沒有一個真正零點(真零)。 四、比率尺度(ratio scale) 比率量表除了具有差距量表的全部特色外,再加上「真零」這個特性。 例如身高、年齡、體重等變數的測量都是用比率量表,故可說體重180磅的人比90磅的人重兩倍。 不過在態度測量方面,運用比率量表顯然有困難,消費者給一種飲料100分,另一種給50分,但卻不表示喜歡程度有兩倍的差距。因為態度測量本質上為一順序概念,顯然不宜用比率或差距量表測量。
資料處理與展示—統計圖表 定性資料 • 次數分配表 • 相對次數分配 • 長條圖 • 圓餅圖
計量資料 次數分配表 相對次數分配表 累加次數分配表 累加相對次數分配表 直方圖 次數多邊圖 枝葉圖 散佈圖 資料處理與展示—統計圖表
自有住屋 貸款中 第一次購屋貸款:3人 勞工貸款:2人 公教補助貸款:4人 優惠利率 • 圓餅圖
知道的民眾主要特徵(14.7%) • 支持國民黨 • 50~59歲 • 職業為軍公教或自營商 • 男性 • 不知道的民眾主要特徵(85.2%) • 年齡為20~29歲 • 職業為學生或家庭主婦 • 女性 • 圓餅圖
枝葉圖 • 全班35位同學統計學考試分數 86,77,91,60,35,76,92,47,88,67,23,59,72,75,83,77,68,82 97,89,81,75,74,39,67,79,83,70,78,91,68,49,56,94,81
多數人都以一般車速開車,自然多數車禍發生於一般車速。多數人都以一般車速開車,自然多數車禍發生於一般車速。 這兩類數字的增加是因為人口快速成長的結果。 • 根據統計顯示,多數車禍發生在車子行駛於一般車速的時候,只有少數車禍發生在車速超過時速150公里。 • 開快車較安全。 • 研究顯示,有個城市死於心臟病的人數與口香糖的消費量同時遽增。 • 嚼口香糖導致心臟病。
平均為5人 23人機率略高於1/2, 40人機率達到90%以上。 • 現在我要寄一封文件給一位我不認識的人,我先寄給最有可能認識目標者的人,再請他轉寄,如此轉寄到目標者手中,請問中間經過人數? • 現場有兩人是同月同日生的機率為?
解讀民意調查 • A候選人支持度31.2% • B候選人支持度28.5% • C候選人支持度24.9% • 成功訪問1,068位受訪者,在95%的信心水準下,抽樣誤差為正負3%。
分配(Distribution) • 包括了對位置 (location)、散佈 (spread) 及形狀 (shape) 的描述。 • 在描述 (呈現) 變數的分配形狀時,應了解: • (1) 分配的形狀和分配的位置、散佈一樣重要 • (2) 在了解分配的形狀時,以視覺化的方式來呈現比以數字來 呈現更令人一目了然 • (3) 變數的分配形式決定了用哪一種統計技術來描述比較適當。
位置的衡量(measures of location) • 平均數(Mean):平均數指的是算術平均數,也就是在分配中各觀察值的和除以觀察數。 • 中位數(Median):中位數是分配的中央點。在分配中有一半的觀察點低於,有一半的觀察點高於中位數。如果在分配中觀察點的數目是偶數,則中位數是兩個中間數的平均數。 • 眾數(Mode):眾數是出現次數最多的那個數字。
散佈的衡量(measures of spread) • 變異數(Variance):變異數是衡量以平均數為基準的分配情況。如果所有的分數都相等,則變異數為零。分數分散的情形愈大,則變異數愈大。 • 標準差(Standard deviation):標準差是變異數的平方根,它免除了變異數的平方,因而增加了解釋力。 • 全距(Range):全距是分配中最大與最小的分數之差,全距只涉及到最大與最小的分數,因此在衡量散佈方面是相當粗糙的。
散佈的衡量(measures of spread) • 四分位距(interquartile range, IQR):是分配中第一、第三分位之差。它也稱為中點分配 (midspread)。第1分位Q1是第25% 的那個數字;中位數或Q2是第50% 的那個數字;第3分位Q3是第75% 的那個數字。 IQR=Q3-Q1 • 四分位差(quartile deviation):四分位差或稱半四分位距 (semi-interquartile range) 是Q3與Q1間距離的一半。
形狀的衡量(measures of shape) • 偏度(skewness):是描述一個分配偏離對稱性的情形,在對稱性的分配中,平均數、中位數、眾數都是在同樣的位置。偏態分為左偏態 (或負偏態) 與右偏態 (或正偏態) 二種。 • 峰度(kurtosis):是描述一個分配的平坦或陡直情況。峰度共有三種:常態峰 (mesokurtic)、高狹峰 (leptokurtic) 及低闊峰 (platykurtic)。
機率論(Probability Theory) • 機率:衡量某一事件可能發生的程度(機會),並針對此一事件發生之可能性賦予一量化的數值。及用來衡量不確定性大小的工具。 機率論 隨機實驗 機率理論 事件機率 性質與運算法則 貝氏定理
隨機實驗(Random Experiment) • 隨機實驗(Random Experiment):觀察一可產生各種可能結果(Outcome)的過程,稱為實驗;而若各種可能結果的出現(或發生)具有不確定性,則此一過程便稱為隨機實驗。 • 必須滿足: • 1.實驗可以在相同條件下重複進行。 • 2.所有結果是明確可知的,且不只一個。 • 3.實驗後的結果為所有可能結果之一,但實驗前無法肯定會出現何種結果。
樣本點(sample point):每個可能的結果 樣本空間(sample space):各種可能結果的集合 • 事件(event):樣本空間的部分集合 • 簡單事件(simple event):只包含一個樣本點 • 複合事件(composite event):包含二個或以上的樣本點 檢驗三件產品之樣本空間樹狀圖
機率測度的方法 • 古典方法: • P(E)=n(E)/n(S) • 限制條件:樣本空間必須是有限的樣本空間。 • 基本假設:樣本空間內每一樣本點出現的機會皆相同。 • 客觀方法(相對次數法): • P(E)=lim(n/N) , N→∞ • 重複進行此一實驗許多次,並觀察該事件出現次數的比例。 • 主觀方法: • P(E)=(個人對事件E發生的信心)
機率的公理 • 1. • 2. 為互斥 • 3. P(S)=1;P(Φ)=0
事件機率 • 聯合機率(joint probability) • 兩個或兩個以上事件同時發生的機率。 • 邊際機率(marginal probability) • 在兩個或兩個以上類別的樣本空間中,若僅考慮一類別個別發生的機率稱之。 • 條件機率(conditional probability) • 已知B事件發生下,另一事件A發生的機率,稱為在B發生條件下,A的條件機率。
事件的性質 • 獨立事件(Independent Event) • 係指一事件的發生不影響其他事件的發生,若A、B兩事件互為獨立,則: • 相依事件(Dependent Event) • 係指一事件的發生影響其他事件發生的機率。
s s s A B A B A B • 互斥事件(Mutually Exclusive Event) • 事件沒有共同的樣本點稱之,即當兩事件之交集為空集合時。
事件的運算法則 • 餘集合的機率 • 加法定理 • 乘法定理 • 分割定理 S A B
貝氏定理(Bayes Theorem) 事前機率 事後機率 取得新資訊 應用貝氏定理 (條件機率的形式) 事前機率 事後機率 條件機率
事前機率 事後機率 取得新資訊 • 某公司計畫推出新產品,並認為經濟景氣好壞會影響新產品的銷售,公司行銷經理主觀判斷景氣好、普通、不好的機率各為0.5、0.2、0.3。今公司委託專業市調公司進行市場景氣調查,但該市調公司之調查並非百分之百正確,根據過去經驗,其正確率為0.9,不正確的誤認為其他兩種是其他兩種狀況的機率各為0.05。若該市調公司調查結果為景氣好,而市場景氣真正為好的機率為多少? 主觀判斷景氣好、普通、不好的機率 修正機率 市調公司調查結果