統計基本觀念

統計基本觀念 壹、資料資料來源：實驗之量測結果，抽樣調查結果，公告資料。一、資料類型量測得到的資料可分為 : i .質性資料，ii. 數量資料，因資料的屬性不同，選擇的分析方法不同。 i 類目資料(Categorical Data) -- 文字，代號或分類資料 (SAS: 字串， SPSS: 名義 nominal) ii 數量資料 ( Quantitative Data) -- 有序的，或量測的，又分為離散型 Discrete type : 次數、排名、測量時間點連續型 Continuous type : 如：血壓、測量值、時間、指數

若以測量尺度分類：資料分類為 nominal ， ordinal， interval， ratio 注意：Categorical data可能是 nominal 尺度，或是 ordinal 尺度，若是 ordinal 尺度，則可以 1, 2, 3 …代替之。連續型資料歸屬於 interval 尺度。不同類型資料使用的統計值不同，解釋上也不同。二、實作資料原始測值 – 血壓、體重、等比例值-- 血清中鉻濃度轉換資料–指數，如：BMI(經驗式) 多變量--老化： (代謝功能，免疫功能，抗氣化效力)

三、資料的統計值( 質性資料不考慮下列統計值 ) 中心位置 -- 平均數(mean)，中位數(median) 參考位置– quantile, percentile, 四分位數(quartile) ，五分位數(quintile) 變化程度-- 標準差(SD) ，變異係數 (CV) ( CV= 標準差 / 平均數 ) 其他-- 偏態係數(skewness)，峰態係數(kurtosis)

資料中心位置的指標 變化程度的指標資料對稱性的指標資料常態性的指標

四、資料分佈圖 質性資料以長條圖或圓餅圖來表現它的統計分佈一般數量資料的統計分佈類型有 1.對稱型：常態型長尾型短尾型 2.偏斜型：右偏型或左偏型 1、直方圖 (histogram) 表現資料位置，變化度，分佈型態，離群個案

2、盒鬚圖 (box plot) 以最小值，25%，50% ，75%，最大值表現資料位置，分散度，分佈型態，離群個案。常用於數組資料的比較。

3、一般論文上的統計描述

貳、常態分佈在統計上的角色 • 一、特性： • 資料標準化後為標準常態分佈。 • 偏態係數 = 0，峰態係數 = 0。 • 資料的分佈，可由均值及標準差來推估 • 若一組資料接近常態分配，可推估約 • 二、重要性： • 自然界中許多資料呈現常態分佈。 • 大樣本之平均數接近常態分佈(中央極限定理) • 基本統計方法通常假設資料來自於常態母體，故需檢測資料的常態性，以確保分析的結果是可信的。

三、與常態相關之分佈 理論上，資料是常態分佈，則樣本變異數屬於 χ2分配。由此推導出 t-分佈與 F-分佈，它們是統計推論上常用之分佈。用於平均數檢定或兩組資料比較 (自由度與樣本數有關，會影影響均值的分布) 用於兩組變異數比較或多組均值比較的變異數分析

四、如何判斷資料是否屬於常態資料？ • 偏態係數和峰態係數皆接近 0，則資料可能取自常態母體。 • 常態機率圖: 若圖形接近直線, 則資料可能取自常態母體。 • Wilk-Shapiro test 或 Komogorov-Smirov test: • H0 : 資料取自常態母體， • p-值大小表示母體資料為常態之可信度。

五、 • 多數測量值呈現常態分佈，大樣本情況下可忽略常態假設的要求 • 若有離群個案，會使資料偏離常態 • 利用數學式可將資料轉換成接近常態分佈 • 如：對數轉換後分佈原資料分佈注意：尋找一合適的轉換式，需要依據研究者之經驗

參、基本統計推論 一、抽樣誤差實際母體樣本估計之母體統計推論必產生差異，稱為抽樣誤差; 抽樣誤差的大小與樣本數有關。例: 抽樣25位受感染者測得其白血球平均值 = 4767，標準差SD= 3200，估計誤差 SEM=640

二、估計 • 點估計 • 分類資料：以樣本比例估計母體比例 (如抽煙比例) • 數量資料：以樣本平均數估計母體平均數、 • 以樣本標準差估計標準差 • 估計之精確度：說明：Mean ± SD 呈現資料的變化程度 Mean ± SEM 呈現以均值估計的準確度

區間估計 • 以一區間估計參數可能落入的範圍。例: 1. Weight gain = 20.06 ± 2.25 (mean ± SEM) n=5 以 95% 的信心水準估計 2.25) 2. 在 95% 的信心水準下，抽樣錯誤差為正負3.1個百分點；資料支持的比例 = 24%，則估計支持率在 20.9% 到 27.1% 之間。註：t 0.025(4) = 2.785，可用excel tinv 求得。

三、檢定 檢定: 對某一研究主題作成假說(hypothesis)，根據資料來判斷是否接受此假說。 p-值資料顯示 H0 為真的可能性 p-值 < α，結論為 H1，即研究主題顯著 (significant)。 p-值大時，結論為資料不足以証實研究的主題；即研究主題不顯著 (non-significant)。檢定法選擇適當的方法，利用統計軟體得到 p-值，做出結論。

觀念： 骰子60次，得到50次的6點，這是機運或是假骰子？甲在10次考試中，有8次成績都比乙好，是機運或是甲的程度比乙好？ • 先設甲=乙成立 • 根據資料算出 p-值 = 0.001 • 若甲=乙，只有0.1%的機率得到此結果。 • 判斷甲顯然不等於乙。p-值小於 0.05 • 以α=0.05水準檢定，甲和乙的程度差異是顯著的

檢定的顯著p-值 不顯著的情況顯著的情況

四、兩變數之相關性 兩變數相關強度由相關係數，ρXY，量測，-1 ≦ ρ≦ 1。樣本相關係數：上式稱為 Pearson 相關係數，用來估計相關強度；若 r 不等於 0，並不表示ρ不等於 0。檢定法可讓我們判斷二變數是否相關。

檢定： H0： ρ =0 (無關) vs. H1： ρ ≠0 (相關) 用 t-test， Q：相關係數多大時，才能結論二變數是顯著相關？其 r 的絕對值必須大於下列表值，則二變數是顯著相關的；由此知當樣本小時，資料不容易達到顯著相關。

統計基本觀念

統計基本觀念

Presentation Transcript