270 likes | 404 Views
如何建立檔案. 中國醫藥大學 公衛系 梁文敏 副教授 TEL: 04-22053366-6107 E-mail: wmliang@mail.cmu.edu.tw. 如何建立檔案. 從資料庫的觀點*** 資料分析 第一階段 建檔 從表格的觀點 資料分析最後階段呈現結果. 建檔方式 --- 範例. 三個人測量兩密閉室 ( 甲 , 乙 ) 的溫度. x. x. 或. 如何建立檔案. 1. 確立 變項 2. 對變項 命名 及變項命名原則 3. 以 “ 欄 ( C olumn) ” 為單位,建立 每一個變項
E N D
如何建立檔案 中國醫藥大學 公衛系 梁文敏 副教授 TEL: 04-22053366-6107 E-mail: wmliang@mail.cmu.edu.tw
如何建立檔案 • 從資料庫的觀點*** 資料分析第一階段建檔 • 從表格的觀點 資料分析最後階段呈現結果
建檔方式--- 範例 • 三個人測量兩密閉室(甲,乙)的溫度 x x 或
如何建立檔案 1. 確立變項 2. 對變項命名及變項命名原則 3. 以“欄(Column)”為單位,建立每一個變項 4. 以“列(Row)”為單位,建立每一筆資料(Record) 5. 保持原始資料的單純性及可擴充性
1.確立變項 • 每一個變項(Variable)代表一種訊息(Information) • 例如密閉室溫度範例中的訊息包括: 室別(甲,乙) 、溫度(攝氏) 、 個案代號(可表示該溫度是誰測量的) ,故共有三個變項 • 變項命名: (補充:變項命名原則) 室別、溫度、 個案代號
2.對變項命名 • 中文命名 (正確: 室別、溫度、 個案代號) (錯誤: 室別-1、2溫度、@個案代號) • 英文命名 (正確: roomname、temp、 subj_id) (錯誤: 2room、temperature、 subject-id)
2.對變項命名--變項命名原則 • 中文命名 • 第一個字母不為特殊字元或數字,如:#2人口_男(錯誤) • 名稱中不要放入特殊符號,如:人口-male2(錯誤) • 名稱不要超過4個中文字,如:人口數男生_2(錯誤) ** 正確名稱:人口_男2 或 人口_m2 或 人口男_2 • 英文命名 • 第一個字母不為特殊字元或數字,如:2pop_m(錯誤) • 名稱中不要放入特殊符號,如:pop&m-2(錯誤) • 名稱不要超過8個英文字,如:popmale_2(錯誤) ** 正確名稱:pop_m2 或 pop_m_2 或 popmale2
3. 以“欄(Column)”為單位,建立每一個變項---- 在第一欄建立變項名稱 一個EXCEL檔可開多個工作表 將原始資料檔單獨放在一個工作表中
4. 以“列(Row)”為單位,建立每一筆資料(Record, Observation)----- 共6筆資料 按滑鼠右鍵 重新命名 將工作表重新命名為: 原始資料
5. 保持原始資料的單純性及可擴充性---單純性: 若要處理.把資料依需要貼在其他工作表上 插入 工作表 重新命名
5. 保持原始資料的單純性及可擴充性----可擴充性: 4個變項、9筆資料 原始資料增加為 4個變項、9筆資料
變數, 變項(Variable)(相對於常數,Constant)及變數名稱(Variable Name) • 資料依不同的人,而有不同的數值或特性,故稱為變數,例如抽取5個學生,有男有女,有高有矮,資料會隨著樣本不同而變化,故稱為變數; • 每種變數的代號稱為變數名稱(Variable Name)或變數,例如:性別、身高為變數名稱或變數。
隨機變數(Random Variable) • 搜集資料時,若決定抽取n個樣本,則資料會隨著抽取樣本不同而不同,例如抽取坐在前排的5個女生的身高,會與抽取坐在後排的5個女生的身高不同。 • 在做決定抽取何者為樣本時,若沒有預設立場,完全隨機會(by chance)決定,該資料稱為隨機變數。
變數類型(Variable Type) • 類別變數(Nominal variable): 將資料分門別類,各類資料之間沒有程度或次序性的b. 關係,且為彼此互斥的,屬定性的測量。 • 例如: 性別(男、女),血型(A, B, O, AB, other),抽煙與否(抽煙、不抽煙)。若該變數只分為兩類稱為二分法類別變數(Dichotomous Variable)。
變數類型(Variable Type) • 序位變數(Ordinal Variable): 和類別尺度一樣,將資料分類且為彼此互斥的,但彼此之間有程度上的差異。 • 例如癌症病人病況分期(I、II、III、IV期),抽煙程度狀況(未抽煙、曾抽煙但已戒煙、少於1包/每日、1包以上/每日),病人對醫生問診態度的滿意度(非常滿意、滿意、普通、不滿意、非常不滿意)。 • 各類之間不一定有倍數或距離的關係,是屬於半定量的測量,例如:癌症IV期病人的病況並非癌症II期病人的病況的兩倍。
變數類型(Variable Type) • 等距變數(Interval Variable) : 每個單位都是一樣大小,且測量值可以完全表現出程度的大小,屬定量的測量。 • 例如年齡,身高,體重,氣溫,每分鐘心跳的次數,每天抽煙的支數。等距尺度不一定具有絕對的零點。其中有些零點是人為決定的。 • 例如氣溫,華氏與攝氏溫度的零點,是人為決定的,並沒有絕對的零點的存在。攝氏30.7度到28.7度的距離與攝氏16.7度到14.7度的距離相等,但我們不能描述攝氏30度(華氏86度)是攝氏15度(華氏59度)的兩倍,因為若以華氏則不到兩倍(86/59=1.46)。所以氣溫的尺度是一種等距尺度,但不是一種等比尺度。
變數類型(Variable Type) • 等比變數(Ratio Variable): 若等距尺度中具有絕對的零點,稱為等比尺度。可以用來計算倍數或比率。 • 例如:年齡,身高,體重,每分鐘心跳的次數,每天抽煙的支數。我們可以描述新生兒體重9磅(4082公克,1 磅=453.592公克)是6磅(2722公克)的1.5倍,若換算為公克測量則亦為1.5倍(4082/2722=1.5)。所以體重的尺度是一種等距尺度,也是一種等比尺度。
變數分佈 (Distribution) 分佈概論: 何謂分佈(Distribution)? 在統計思維中,分佈係指針對某一我們感興趣的變數(Variable)。將其搜集到的值(Observation)以有系統的方式加以整理並呈現出來。 可以長條圖(Bar Charts): categorical data 或直方圖(Histograms): continuous data 表示
例1:不連續變數(類別或序位)的分佈:2560位AIDS病人中,Kaposis sacoma 疾病狀態的分佈情形, 以Bar Charts表示。 相對次數=次數/總次數 排序
例2:連續變數(等距或等比)的分佈:新生兒體重的分佈,將資料分組,以直方圖(Histogram)表示。 相對次數=次數/總次數
樣本平均數 • 【樣本平均數 (Sample Mean, Arithmetic Mean) 】 • 兩密閉室(甲,乙)的溫度的集中趨勢
樣本變異數與樣本標準差 • 【樣本變異數(Sample Variance) (s2), 樣本標準差(Sample Standard Deviation) (s)】 • 兩密閉室(甲,乙)的溫度的分散趨勢
許多變項的分佈服從常態分佈 常態分佈 圖形隨平均數及標準差不同而不同 平均數=10 標準差=1.5 平均數=20 標準差=4
範例:AV為臨床指標 • 若無腫瘤患者AV值的分佈為常態分佈X~N(10,1.52) 理論上可得到有68%的機率落在(8.5,11.5)中間 可得到有95%的機率落在(7,13)中間 可得到有99%的機率落在(5.5,14.5)中間 68%
68% 若有 無腫瘤患者AV值的分佈為常態分佈X~N(20,42) • 任何常態資料若經標準化, 理論上可得到有68%的機率落在(16,24)中間 可得到有95%的機率落在(12,28)中間 可得到有99%的機率落在(8,32)中間 *** 由平均值及標準差可知兩族群人AV值的分佈,進而….