660 likes | 755 Views
統計設計與分析. 詳細大綱. 1. 調查設計 調查設計的基礎 優點與容易犯的錯誤 系統偏誤 訪問偏誤 拒答偏誤 隨機偏誤. 統計問題. 如何設計並引導一個實驗 ? 哈佛學生中抽煙的比例為何 ? 如何檢驗這些結果 ? 哈佛比起全國的學生 , 抽煙比例是高或低 ?. 詳細大綱. 2. 假設檢定 基本方法 有多大的機率 , 我觀察的是錯的 ? 若機率很低 , 則得到兩個數目不同的結論 . 檢定的類型 檢定已知的事實 ( 例 , 已經知道全國性抽煙的比例 ).
E N D
詳細大綱 • 1. 調查設計 • 調查設計的基礎 • 優點與容易犯的錯誤 • 系統偏誤 • 訪問偏誤 • 拒答偏誤 • 隨機偏誤
統計問題 • 如何設計並引導一個實驗? • 哈佛學生中抽煙的比例為何? • 如何檢驗這些結果? • 哈佛比起全國的學生, 抽煙比例是高或低?
詳細大綱 • 2. 假設檢定 • 基本方法 • 有多大的機率, 我觀察的是錯的? • 若機率很低, 則得到兩個數目不同的結論. • 檢定的類型 • 檢定已知的事實 (例, 已經知道全國性抽煙的比例). • 檢定未知, 預估計的事實(例, 我不知道全國抽煙的比例, 但我想推估它). • 樣本數與假設檢定
設計實驗—感興趣的問題 • 哈佛學生中有多少比例抽煙?
可能的解答方式 • 查看哈佛附近商店菸品銷量 • 所有的菸品都只能在那兒買嗎? • 只有學生會去那裡買嗎? • 店家會告訴我們實情嗎? • 觀察學生 • 去上學的途中? • 在餐廳? • 派對上? • 太困難且魯莽
可能的解答方式 • 問學生 • 問所有的學生? • 耗時, 花錢, 且很困難 • 問一部分學生? • 這是我採行的方法 –調查我學生的成員, 以及他們的室友與朋友
可能的解答方式 • 方法:以我的學生與他們的朋友來推估整體 我的學生抽煙的比例 哈佛學生抽煙的比例
調查方法—優良 • 1. 有適當的樣本 • 2. 相當不花成本
調查方法:問題(I) • 1. 抽樣偏誤 –經濟學抽煙的比例或高或低於哈佛學生抽煙的比例 • 多半是經濟系學生 • 多半是比較愛表現學生 • 2. 不正確的揭露 –他們可能不講實話 • 或者抽煙者選擇不填答問卷 • 如何測試 –問全體的哈佛學生
調查方法:問題(II) • 3. 無回應 –可能有人並不參與其中 • 與他們的回答有關 • 4. 隨機性問題 –財政學的樣本, 本來就與政大學生抽煙的比例不同
調查結果 • 41 份回答 • 這個班大約有57人, 我相信大多數的人有朋友, • 所以, 顯示相當大的比例並沒有回答. • 無法判斷回答的正確性
答案 • 我的學生中, 自我報告的抽煙比例為17% • 我的學生中, 感覺其他人整體抽煙的比例為25%
為何自我報告與其他人的觀察結果不同? • 學生覺得其他人應該是過得更多采多姿 • 哈佛學生認為他們的同學在過去一個月中, 有抽過菸的比例應高於2/3, 但事實上僅有15.6%. 哈佛認為他們的同儕中, 過去一個月裡有抽大麻的比例為52.4%, 但事實上是12.2%.
為何不同? • 也有可能是揭露的偏誤 • 或者樣本數太小
如何做得更好? • 從哈佛學生中隨機選取樣本 • 調查更多學生 (或許) • 使填答的人更確信他們的回答是匿名的 • 付錢給願意填答的人 • 答案給與權數
假設檢定 • 問題: Harvard學生抽煙比例較全美大學生高或低?
假設檢定 • 使用調查資料:1993 學生調查. • Conducted by Henry Wechsler at the School of Public Health. • 關心飲酒問題,但同時問抽煙. • 有 17,000 樣本.
調查結果比較 • 有可能我的學生抽煙比例超過Harvard 平均. • 有可能調查學生抽煙比例低過全美學生平均. • 假使我訪問所有Harvard學生,所有大學生,我會知道答案,但不太可能。
假設檢定的基礎 • 哈佛學生的抽煙率和與全美學生是否相當? • 這是假設檢定的核心。 • 這個推論僅是考慮抽樣上的誤差,不包括其他誤差(亂回答或未回答)。
機率的重要性 • 拿全美學生的樣本 • 每一百人為一組 • 計算每組的抽煙率 • 將抽煙率畫圖
機率的重要性 • 看起來哈佛學生較低,但我不確定。 • 多有可能?*** • 我對的機率有多高?
定義可能與不可能 • 什麼時候我們會說這些數字是「不同」? • 一般答案:這些平均數 「不同」 如果它出現的可能性低於 5% 的時間.
答案 • 在我們的例子中,兩個平均數很沒有這麼「不同」. • 這兩個平均數不同,但沒這麼不同(出現機率高過5%)。
答案 • 我們可以考慮另一個標準(如10%). • 如果我們較不嚴格,那有可能我們覺得相同時,實際上是不同。. • 5%表示僅有5%機率我們會錯。
一些術語 • 虛無假設(null hypothesis): • H0 (null hypothesis): Harvard學生和全美學生抽煙率相當. • 對立假設(alternative hypothesis): • HA (alternative hypothesis): Harvard學生和全美學生抽煙率不相當..
假設檢定 • 假設檢定包括 • 虛無假設 • Alternative Hypothesis • A statistical test • An answer • Implementing this is a bit more complex. That’s what I want to talk about next.
中央極限定理 • 這個類似是有根據的。這是統計學的一個重要定理: • 平均數的分配通常是趨近於常態分配, or 鐘狀. • 中間是母體的平均數.
然後呢? • 中央極限定理可以幫助我們計算: 如抽煙比率小於 <.14 (approximately) 為 2.5 % 或高於 <.14 >.30 (approximately) 為 2.5 %.
臨界值 • X 和 –X 者兩個職稱為臨界值. 如果一個直超過臨界值,發生的機率低於5%. • 所以發生時,我們稱為拒絕虛無假設.
標準差 • 我們需要找 X. • 常態分配有些性質可幫助我們: • 常態分配是對稱的 • 要多遠才算遠? • 牽涉到標準差. • 一般叫做 ( "sigma" ). • 有公式可循.
標準差 • 在前述例子中,X 和 – X的距離差不多是兩個標準差.
標準差 • Excel 會幫你計算標準差. • Tools Data Analysis Descriptive Statistics. • Choose Summary Statistics • 可以使用Excel 做簡單的假設檢定.
檢定顯著 • 根據標準差,自己簡單計算一下。 • 假使距離在兩個標準差以上,則稱為統計顯著.
檢定顯著 • 在這個例子中,the value is (.17 - .22 ) / .059 = -.85, 統計上不顯著. • 無法拒絕虛無假設。
檢定顯著 • 除了X和-X外,還有另一個方法:P-value • This probability is termed the p-value.
樣本數與假設檢定 • Our sample of 100 students gave a distribution that was very spread out. • The critical values X and –X were 14 percent and 30 percent. There is a lot of room there where we can’t reject the null hypothesis. • How might we lower that range? • Answer: sample more people.
常態分配 • Suppose I drew groups of more than 100, say 500. What would happen to the expected distribution of answers? • It would get tighter around the mean.