1 / 35

統計分析

統計分析. 統計分析包含: 統計推論 -- 由樣本觀察值得到母體的特性,分為估計與檢定。 統計建模 -- 針對試驗的資料,發展出一統計模式,以解釋變數間的關係或作預測。. 統計推論. 實際母體. 樣 本. 估計之母體. 統計推論必產生差異,稱為抽樣誤差;抽樣誤差的大小與樣本數有關。. 檢定與估計. 統計推論分為檢定與估計 估計是估計母體特性的代表值,如,估計平均數、比例 檢定是對一假說作真偽判斷. 統計估計. 在一信心水準下,根據資料估計某一參數值可能的範圍 通常估計平均數,發生率。 例: 以95%的信心水準,估計大學生起薪在2.5±0.3萬

ruth-perez
Download Presentation

統計分析

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 統計分析 統計分析包含: • 統計推論 --由樣本觀察值得到母體的特性,分為估計與檢定。 • 統計建模 -- 針對試驗的資料,發展出一統計模式,以解釋變數間的關係或作預測。 統計分析

  2. 統計推論 實際母體 樣 本 估計之母體 統計推論必產生差異,稱為抽樣誤差;抽樣誤差的大小與樣本數有關。 統計分析

  3. 檢定與估計 • 統計推論分為檢定與估計 • 估計是估計母體特性的代表值,如,估計平均數、比例 • 檢定是對一假說作真偽判斷 統計分析

  4. 統計估計 • 在一信心水準下,根據資料估計某一參數值可能的範圍 • 通常估計平均數,發生率。 • 例: • 以95%的信心水準,估計大學生起薪在2.5±0.3萬 • 以95%的信心水準,估計支持率30%,誤差0.3% 統計分析

  5. 民調:319大突破逾半民眾存疑 2005.03.09 中國時報(註六) • 六成九的國人知道陳義雄被指涉嫌,但這些人當中五成一的人存疑,只有二成六相信警方說法。 • 本次調查於八日晚間進行,以台灣地區住宅電話簿為抽樣清冊,共成功訪問七百三十五位成人。在九成五的信心水準下,抽樣誤差為正負三點七個百分點。 統計分析

  6. 誤差的大小與樣本數有關 • 樣本數為735時,計算得在九成五的信心水準下,抽樣誤差為±3.7%。 • 樣本數為4,713時,計算得在九成五的信心水準下,抽樣誤差為±2%。 (註七) • 人數增加時,誤差下降。 統計分析

  7. 邏輯推論 丟骰子10次,有8次出現6點,是機運或是假骰子?要如何辯護? • 大前提:如果是一均勻骰子,得到超過8次6點的機率是0.000019 • 小前提:如今10次,有8次出現6點 • 判斷:顯然此骰子不是一均勻骰子 統計分析

  8. 統計檢定 例:甲在10次考試中,有8次成績都比乙好,是機運或是甲的程度比乙好? • 假說:H0:甲=乙 vs. H1:甲≠乙 • 根據資料計算:若甲=乙,有超過8次成績都比乙好的機率只有0.1% 。 • 上列的機率在檢定上稱為 p-值 或 顯著值 • 判斷甲顯然不等於乙。此判斷錯誤的機會小於 1%。 統計分析

  9. 一般檢定的步驟 • 建立假說 (虛無假說及對立假說) • 根據資料算出顯著機率 (p-值) • 若顯著機率值太小,如 p-值<0.05 ,則判斷虛無假說不可能,結論為對立的假說是顯著的 統計分析

  10. 檢定的顯著p-值 不顯著的情況 顯著的情況 統計分析

  11. 例:維生素C是否可預防感冒 • 400人隨機分為二組 • 一組服用維生素C,另一組服用安慰劑(對照組) • 經過一個冬季,統計二組患感冒比例 • 實驗組有15%,對照組有25% 統計分析

  12. 檢定 • Hypothesis : 二組患感冒比例相同 • 在比例相同下,計算的 p-值小於0.0001 • 如果比例相同,得到此資料的機會有0.0001 • 否定二組患感冒比例相同 • 服用維生素C的一組比例較低 • 結論是服用維生素C對預防感冒顯然有效 統計分析

  13. 例:檢定五種廣告效應的差異 為了研究廣告對產品質感的影響,30 個受試者隨機地被分配到 5 個試驗群,每一個試驗群接受一單獨的關於原子筆廣告。受試者看完廣告後,均拿到相同形式的原子筆,評估當他們購買像這樣原子筆所期望的價格。 資料圖 統計分析

  14. 廣告效應是否有差異? • 虛無假說定為五種廣告效應相等 • 由資料計算得顯著的 p-值是 <0.0001 (參考SAS統計軟體得到的報表) • 結論是五種廣告效應有明顯的不同, 在統計上說“有顯著差異”(significant difference) 統計分析

  15. 其它檢定之例 • 消基會檢測食品防腐劑是否超出標準:hypothesis 為不超出標準,在等於標準下計算的 p-值,若 p-值<0.05,則認定食品防腐劑顯然超出標準。 • 研究學歷高低是否影響工作滿意度:hypothesis 定為學歷與工作滿意度無關,在無關的情況下計算 p-值,若 p-值<0.05,則結論是學歷顯然對工作滿意度有影響。 統計分析

  16. 檢定應用 • 檢定兩因素是否相關? • 如:銷售量與廣告,肺癌與抽煙 • 比較數組情況是否相同? • 1. 發生率是否相同?2. 平均數是否相同? • 檢定數個因素對觀察值是否有影響? • 檢定資料是否滿足某種分佈? 統計分析

  17. 如何完成統計檢定 • 確定檢定目標 • 寫下檢定假說 • 選一合適統計軟體分析資料 • 由報表得到p-值(顯著值),判斷檢定結果 • p-值<0.05, 對立假說顯著 • p-值>0.05, 對立假說不顯著 統計分析

  18. 統計模式 以統計方法分析問題:將問題的因果關係轉換為統計模式,然後依據資料,找出合適的模式,以為研究的結果。 統計模式有: • 線性模式 (Linear Model) • 邏輯迴歸模式 (Logistic regression model) • 時間序列模式 (Time series model) • 其它 統計分析

  19. 線性模式 • Y = β0 + β1X1 + β2X2+ … + βpXp+ε • 解釋 Y 的值各別受Xi值所影響,影響力是累加的。 • 係數代表的是各因素對 Y 的相對影響程度 • 係數的意義: 經其它Xi 調整後,X1增加1單位,Y將增加β1個單位 • β1>0時,Y與 X1有正關係,β1<0時,有負關係。 • 項目ε包含未在考慮的變因 統計分析

  20. 線性模式中係數之意義 • 月薪 = 24260 + 670(年資) + 4025(教育程度) 其中教育程度是以1表大學以上學歷,0表高中以下學歷 • 對同教育程度的人,年資增加1,平均月薪增加670元 • 對同年資的人,大學以上學歷者比高中以下者,平均月薪增加4025元 統計分析

  21. 多項時藉用指標變數的模式 • 若教育程度分為四項,另設定三個指標變數 統計分析

  22. 指標變數係數之意義 • 月薪 = 24260 + 670(年資) + 4025(E1) + 3000(E2) + 2000(E3) • 對同年資的人,大學以上比小學以下學歷者,平均月薪增加4025元 • 對同年資的人,高中比小學以下學歷者,平均月薪增加3000元 • 對同年資的人,國中比小學以下學歷者,平均月薪增加2000元 統計分析

  23. 可由線性模式找出影響因素 • 模式:Y = β0 + β1X1 + β2X2+ … + βpXp+ε • 檢定線性模式的係數,若 Xi 值的係數是顯著的,則 Xi 對 Y 的影響是顯著的。 • 可使用逐步迴歸法將所有可能影響 Y 的因素 Xi逐一地加入模式中,重複篩選,找出最可能影響的因素。 統計分析

  24. 特殊模式 • 兩個自變數含交互作用項的模式; 如: E(Y) =β0+β1X1+β2 X2 +β3X 1 X2 • 多項式迴歸式; 如: E(Y) =β0+β1X1+ β2 X12 • 轉換變數迴歸式; 如: Y =β0 X β1 轉換成線性模式 ln(Y) = ln(β0)+ β1 ln(X) 統計分析

  25. 變數轉換 在許多時候,將資料經過特殊的函數轉換,可以找到更適合資料的模式 • 線性轉換:y = a + bx 例:成績標準化,華氏溫度與攝氏溫度 • 次方的轉換:y=axb 例:成績開根號以10 • 對數的轉換: y=log(x) 統計分析

  26. 變數轉換的影響 線性轉換 通常不會改變原資料的分佈型態 次方或對數的轉換會改變分佈的形態。 原資料分佈 對數轉換後分佈 統計分析

  27. 邏輯迴歸模式Logistic regression model 邏輯迴歸模式為一非線性模式,可預測某現象發生之機率,當研究的對象限於二種或少數的幾個項目時,無法使用線性模式,而使用邏輯迴歸模式 範例: • 研究有心血管疾病的因素,研究的對象分為有或沒有 • 預測下雨機率,研究的對象是會下雨分為有或沒有 • 研究已婚婦女選擇就業的因素,研究的對象分為就業或不就業 • 金融機構研究影響個人信用狀況的因素 統計分析

  28. 簡易邏輯迴歸模式 • 以某一變因(X) 預估事件發生的機率 • 資料的反應變數(Y)只有二種可能的結果, 通常以 y=1 表示發生 及 y=0 表示未發生。 • 定義:勝算 odds = 勝負機率之比 • 基本原理:假設 ln(勝算) 對 X 有線性關係 • 註:ln是自然對數 統計分析

  29. 例:由程式經驗預估完成工作的機率 經驗愈多者,完成工作的機率愈大,但無法以一線性關係表示,改以 S-曲線預測較合理,參考下圖。 統計分析

  30. 原始資料與估計機率圖 統計分析

  31. 邏輯迴歸估計式 由邏輯迴歸之最大概似估計得到 z = -3.0597 + 0.1615 (經驗月數) 此為 S-曲線 統計分析

  32. 由經歷估計成功率 (1) 預估成功率: 有一年工作經驗者,估計有 24.6 % 機率完成,勝算 0.326 有二年工作經驗者,估計有 69.4 % 機率完成,勝算 2.262 (2) 可由係數估計勝算比, 勝算比 = exp(0.1615) = 1.175. 實值意義:工作經驗每增加一個月,完成工作之勝算是原來的 1.175倍。 統計分析

  33. 時間序列 • 長時間對某一現象觀察的資料記錄是為時間序列 • 政府機關、公司機構保留的記錄,長期累積下來是為一有研究價值的資料 • 未來經濟預測、營運的決策,或投資的選擇通常靠分析時間序列資料 統計分析

  34. 時間序列模式 • 時間序列的資料非獨立資料,相鄰兩筆資料間互相影響,此稱之為自相關 • 通常時間序列資料的建模必須考慮自相關 • 以下的模式考慮前一時間的影響 Yt = a + b Yt-1 + εt,t 指時間 Yt = a + b Xt-1 + εt 統計分析

  35. 近代時間序列模式 • ARMA(p,q)模式 – 1976 Box-Jenkin 「巴克斯-簡金斯」的研究步驟,是分析財經時間數列的標準操作方法。 • ARCH模式---安格爾 (Robert F. Engle)註七.1 自我迴歸非均齊波動模型,將 ARMA 模式巧妙地轉變成對時序波動程度的分析工具。 • ARCH模式分析未來的波動性與風險,不估計報酬率 統計分析

More Related