1 / 31

Elizabeth Newton 博士

Elizabeth Newton 博士. 幻燈片由 Elizabeth Newton ( 麻省理工學院 )準備,其中部分由 Roy Welsch ( 麻省理工學院 )與 Gordon Kaufman ( 麻省理工學院 ). 1. 15.075 , 應用統計學. 講課: M , W 10-11 : 30 複習課: R 4-5 教材: 《 統計學與數據分析 》 Tamhaneand Dunlop 著 編程: S-Plus 考試:期中 (課 內 ) 和期末 先修課程:微積分,機率論,線性代數,. 2. 15.075 ,應用統計學,課程大綱. ‧ 收集數據

bisa
Download Presentation

Elizabeth Newton 博士

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. ElizabethNewton 博士 幻燈片由Elizabeth Newton(麻省理工學院)準備,其中部分由Roy Welsch(麻省理工學院)與Gordon Kaufman(麻省理工學院) 1

  2. 15.075,應用統計學 講課:M,W 10-11:30 複習課:R 4-5 教材:《統計學與數據分析》Tamhaneand Dunlop著 編程:S-Plus 考試:期中(課內)和期末 先修課程:微積分,機率論,線性代數, 2

  3. 15.075,應用統計學,課程大綱 ‧收集數據 ‧概括和探索數據 ‧機率論複習 ‧統計量的抽樣分佈 ‧推斷 點估計與區間估計,假設檢驗 ‧線性回歸 ‧變量分析 ‧非參數方法 ‧專題(數據挖掘?) 3

  4. 統計學 是為了得出結論和決策而進行的數據採集及數據分析之科學。 Tamhane,AjitC.,Dorothy D,Dunlop,《統計學與數據分析進階》。Prentice Hall,2000,第1頁, 「統計學決不能取代判斷」, Henry Clay。 4

  5. 「米」如何定義? 四分之一子午線(從極點到赤道)的一千萬分之一。 但是--它不精確. 為什麼? 5

  6. 《對所有事物的測量》,Ken Alder, 描述兩個法蘭西天文學家,Delambre and Mechain,企圖確定法蘭西大革命時期地球的周長。 用三角測量法確定巴塞隆那與敦刻爾克之間的距離,需要知道每一個端點的緯度 (透過測量天體高度)。 7個月到7年。 Mechain獲得相矛盾的訊息 ,隱瞞了數據的部分訊息。 6

  7. 頁214(《所有事物的測量》): 「什麼被記為誤差?誰能斷言你將要犯錯誤? 如何近似為充分近似?Mechain和他的同事 都沒有能夠以相當程度的信心回答上述問題。 他們對統計簡直是一無所知。」 - 引自 Alder,Ken。《測量所有事物》之〈7年奧德賽及隱藏誤差改變世界〉,Free Press,2003。 7

  8. 數據:一組測量值 特性: 名義的,如顏色:紅,綠,藍 二元的,如(M,F),(H,T),(0,1) 序數的,如對待戰爭態度:支持,中立,不支持 數字的 離散的,如兒童數量 連續的,如距離,時間,溫度 也包括: 間隔,如華氏溫度 比率(絕對零),如距離,兒童數量 8

  9. S-Plus數據集:cu.摘要 9

  10. 概念 總體: 所有感興趣的單元的集合(有限或無限). 例如:麻省理工學院的所有學生 樣本: 實際觀察總體的一個子集. 例如:在這教室裡的學生. 變量: 每一單元的性質或屬性,例如 年齡,高度 觀察值: 獨立單元的所有變量的值 數據集常寫成矩陣形式,行對應觀測值,列對應變量。 10

  11. 概念(接上) 參數: 針對每一變量定義的總體的數字特性,如反對戰爭人數的比例。 統計量: 用於估計總體參數的樣本數字函數。 精確度: 參數估計量的散佈 準確度: 與偏差對應的估計量與真值的近似程度 偏倚度: 估計量與真值的系統偏離程度 11

  12. 準確度和精確度 正確且精準 正確但精準 精準但不正確 不正確且不精準 12 由麻省理工學院開放式課程提供

  13. 研究設計與執行步驟 • 背景研究和文獻綜述。 • 定義研究目的及具體假設。 • 確定要測量的變量及如何測量。 • 制定收集數據的計畫內 • 抽樣設計 • 樣本大小 • 包括的範圍 • 人員訓練 • 匯集數據 • 分析數據 • 結果報告 13

  14. 倫理觀 從人類角度: 從動物角度: (見 H u lley & C u m m i n gs之《臨床研究設計》) 14

  15. 統計研究 描述性的: 一組,例如調查,選舉 比較性的: 2 組以上,例如對不同教學方法效果的比較。 實驗性的: 調查人員主動介入以控制研究條件 尋找預測值(解釋變量)與回應(輸出值)之間的關係 明確因果關係,例如藥物試驗 觀察性的: 調查人員透過旁觀記錄數據 難以區分預測值干擾變量(潛變量)件間的影響。 建立聯繫,例如Framingham之《心臟研究》 15

  16. 觀察性研究: 橫截面研究 尋找某一時點的樣本 例如人口普查,樣本調查 預測研究(昂貴!) 對樣本(一群)進行時間序列跟蹤研究 。 例如Framingham之心臟研究,護士健康研究 回顧研究(案例控制) 按時間追溯 16

  17. 觀察研究中的誤差來源 抽樣誤差 樣本不同於總體 測量偏差 界定問題不清晰 自我選擇偏差 拒絕參與 回應偏差 不正確或不真實的回應 17

  18. 抽樣類型 機率抽樣(總體中的任一單元都具有非零機率) 簡單隨機抽樣 (SRS) 分層隨機抽樣 多階段分群隨機抽樣 系統抽樣 非機率抽樣 (估計可能有偏差,但 經常是唯一可行抽樣方法) 便利抽樣,例如超市調查 判斷抽樣由調查員確定 18

  19. 簡單隨機樣本 (SRS) 總體 從大小為N的總體中無放回抽取樣本規模 為n的樣本,N以使每一個樣本均有同樣的被抽取機會。 n總體中的任一樣本被抽取到的機率為:n/N (抽樣分數)。 產生隨機數來提取抽樣架構 19

  20. 分層隨機抽樣 將具有不同性質的總體分成有相同性質的子總體(層). 再從每一層中進行簡單隨機抽樣。 優點: 在整體估計的基礎上可以獲得各層的估計。 估計精度高於簡單隨機抽樣 缺點:需要有抽樣架構 20

  21. 多階段分群抽樣 適用於總體規模大且無抽樣架構,例如美國 例如,在教育調查中,先抽取州樣本,然後抽取各州的鎮,然後 再抽取各鎮的學校. 準備從選擇的學校抽取學生樣本的架構及使用簡單隨機抽樣。 21

  22. 系統抽樣 適用於當已知單元列表或單元到達順序(汽車透過收費站)。 隨機選擇第一個單元,然後每隔k抽取一個單元。 有限總體,每一單元有同樣的選擇機率(n/N) (然而並不是所有樣本是等可能的). 必須避免k與數據中的循環週期相近 22

  23. 問卷設計 • 架構問題:回應應互相排斥且具有完備性。 • 例如你每天喝幾杯水? • 0到2杯 • 3到5杯 • 6杯或以上 • 非架構問題: • 例如你每天喝幾杯水? • 允許更多個性化的回答,但較會帶來校對的數據錄入誤差。 23

  24. 態度問題 1、本課程的家庭作業量適宜 非常反對 反對 既不贊同也不反對 贊同 非常贊同 通常5-9個量級。 (我們應不應當給每個量級編值?) (由高到低或由低到高?) 24

  25. 調查問題的措詞 雙向問題 導向問題 單邊問題 含糊問題 預備調查!預備調查!預備調查! (更多訊息,見 Johnson & Wichern之《商務統計》) 25

  26. 敏感問題 例如你曾服用過海洛英嗎? 隨機回應可以誘發更準確的回應。 訪談者並不知道被訪談對象正在回答的問題。 例如擲骰子,如果小於3,就說狀態1是真或假。 否則就說狀態2是真或假。 狀態 1:我服用過海洛英。 狀態 2:我沒有服用過海洛英。 令 p=服用過海洛英人的比例 q=回答問題1的比例(不可能為0.5) P(真)=P(真|1)P(1)+ P(真|2)P(2)= p q +(1-p)(1-q) 解P。 26

  27. 問題順序 • 人口統計問題在末尾 • 敏感性問題靠後 • 同一主題問題同時出現 • 由一般到具體 • 避免問題沒有條理 27

  28. 實驗研究 目的:評估一組預測變量(因子)影響回應變量的程度。 處理因子為主要關注對象。值(水準)受控制。 干擾因子也影響回應。 處理:處理因子的一組特定組合。 實驗單位(EU’s):受應用何種處理的影響。 處理組:所有 EU’s 接受同樣處理。 執行:某一實驗單位在特定處理下的觀測。 複製:另一項獨立執行 28

  29. 實驗研究中的誤差源 系統誤差:由混淆因子導致的實驗單元之間的差異。 隨機誤差:實驗單元回應的內在變化。 測量誤差:由不精確測量裝置導致的誤差。 29

  30. 實驗研究誤差控制策略 區組:將樣本中相似的單元劃成組 (干擾因子具有同樣值)。 例如在農業實驗中,可以透過田塊設計來控制營養和濕度的影響。 配對:考慮干擾因子來與實驗單元配對,然後配對好的每一成員可以隨機分派不同的處理 (每一配對組為一區塊)。 回歸分析:如果干擾因子值已知,則可在最終模型中將它作為影響因子。 隨機化:將實驗單元隨機分發到各處理。 基本思想:將容易控制的干擾因子進行區組化,其它干擾因子隨機化。 30

  31. 基礎實驗設計 完全隨機化設計(CRD) 實驗單元隨機分派處理。 隨機區組設計(RBD) 實驗單元劃分成同質的區組。 在區組內隨機分派處理。 隨機化完全區組設計(RCBD): 區組包含所有的處理。 隨機化不完全區組設計(RIBD) 區組不包含所有的處理。 31

More Related