1 / 27

如何建立檔案

如何建立檔案. 中國醫藥大學 公衛系 梁文敏 副教授 TEL: 04-22053366-6107 E-mail: wmliang@mail.cmu.edu.tw. 如何建立檔案. 從資料庫的觀點*** 資料分析 第一階段 建檔 從表格的觀點 資料分析最後階段呈現結果. 建檔方式 --- 範例. 三個人測量兩密閉室 ( 甲 , 乙 ) 的溫度. x. x. 或. 如何建立檔案. 1. 確立 變項 2. 對變項 命名 及變項命名原則 3. 以 “ 欄 ( C olumn) ” 為單位,建立 每一個變項

tannar
Download Presentation

如何建立檔案

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 如何建立檔案 中國醫藥大學 公衛系 梁文敏 副教授 TEL: 04-22053366-6107 E-mail: wmliang@mail.cmu.edu.tw

  2. 如何建立檔案 • 從資料庫的觀點*** 資料分析第一階段建檔 • 從表格的觀點 資料分析最後階段呈現結果

  3. 建檔方式--- 範例 • 三個人測量兩密閉室(甲,乙)的溫度 x x 或

  4. 如何建立檔案 1. 確立變項 2. 對變項命名及變項命名原則 3. 以“欄(Column)”為單位,建立每一個變項 4. 以“列(Row)”為單位,建立每一筆資料(Record) 5. 保持原始資料的單純性及可擴充性

  5. 1.確立變項 • 每一個變項(Variable)代表一種訊息(Information) • 例如密閉室溫度範例中的訊息包括: 室別(甲,乙) 、溫度(攝氏) 、 個案代號(可表示該溫度是誰測量的) ,故共有三個變項 • 變項命名: (補充:變項命名原則) 室別、溫度、 個案代號

  6. 2.對變項命名 • 中文命名 (正確: 室別、溫度、 個案代號) (錯誤: 室別-1、2溫度、@個案代號) • 英文命名 (正確: roomname、temp、 subj_id) (錯誤: 2room、temperature、 subject-id)

  7. 2.對變項命名--變項命名原則 • 中文命名 • 第一個字母不為特殊字元或數字,如:#2人口_男(錯誤) • 名稱中不要放入特殊符號,如:人口-male2(錯誤) • 名稱不要超過4個中文字,如:人口數男生_2(錯誤) ** 正確名稱:人口_男2 或 人口_m2 或 人口男_2 • 英文命名 • 第一個字母不為特殊字元或數字,如:2pop_m(錯誤) • 名稱中不要放入特殊符號,如:pop&m-2(錯誤) • 名稱不要超過8個英文字,如:popmale_2(錯誤) ** 正確名稱:pop_m2 或 pop_m_2 或 popmale2

  8. 3. 以“欄(Column)”為單位,建立每一個變項---- 在第一欄建立變項名稱 一個EXCEL檔可開多個工作表 將原始資料檔單獨放在一個工作表中

  9. 4. 以“列(Row)”為單位,建立每一筆資料(Record, Observation)----- 共6筆資料 按滑鼠右鍵 重新命名 將工作表重新命名為: 原始資料

  10. 5. 保持原始資料的單純性及可擴充性---單純性: 若要處理.把資料依需要貼在其他工作表上 插入 工作表 重新命名

  11. 5. 保持原始資料的單純性及可擴充性----可擴充性: 4個變項、9筆資料 原始資料增加為 4個變項、9筆資料

  12. 變數類型及分布

  13. 變數, 變項(Variable)(相對於常數,Constant)及變數名稱(Variable Name) • 資料依不同的人,而有不同的數值或特性,故稱為變數,例如抽取5個學生,有男有女,有高有矮,資料會隨著樣本不同而變化,故稱為變數; • 每種變數的代號稱為變數名稱(Variable Name)或變數,例如:性別、身高為變數名稱或變數。

  14. 隨機變數(Random Variable) • 搜集資料時,若決定抽取n個樣本,則資料會隨著抽取樣本不同而不同,例如抽取坐在前排的5個女生的身高,會與抽取坐在後排的5個女生的身高不同。 • 在做決定抽取何者為樣本時,若沒有預設立場,完全隨機會(by chance)決定,該資料稱為隨機變數。

  15. 變數類型(Variable Type) • 類別變數(Nominal variable): 將資料分門別類,各類資料之間沒有程度或次序性的b. 關係,且為彼此互斥的,屬定性的測量。 • 例如: 性別(男、女),血型(A, B, O, AB, other),抽煙與否(抽煙、不抽煙)。若該變數只分為兩類稱為二分法類別變數(Dichotomous Variable)。

  16. 變數類型(Variable Type) • 序位變數(Ordinal Variable): 和類別尺度一樣,將資料分類且為彼此互斥的,但彼此之間有程度上的差異。 • 例如癌症病人病況分期(I、II、III、IV期),抽煙程度狀況(未抽煙、曾抽煙但已戒煙、少於1包/每日、1包以上/每日),病人對醫生問診態度的滿意度(非常滿意、滿意、普通、不滿意、非常不滿意)。 • 各類之間不一定有倍數或距離的關係,是屬於半定量的測量,例如:癌症IV期病人的病況並非癌症II期病人的病況的兩倍。

  17. 變數類型(Variable Type) • 等距變數(Interval Variable) : 每個單位都是一樣大小,且測量值可以完全表現出程度的大小,屬定量的測量。 • 例如年齡,身高,體重,氣溫,每分鐘心跳的次數,每天抽煙的支數。等距尺度不一定具有絕對的零點。其中有些零點是人為決定的。 • 例如氣溫,華氏與攝氏溫度的零點,是人為決定的,並沒有絕對的零點的存在。攝氏30.7度到28.7度的距離與攝氏16.7度到14.7度的距離相等,但我們不能描述攝氏30度(華氏86度)是攝氏15度(華氏59度)的兩倍,因為若以華氏則不到兩倍(86/59=1.46)。所以氣溫的尺度是一種等距尺度,但不是一種等比尺度。

  18. 變數類型(Variable Type) • 等比變數(Ratio Variable): 若等距尺度中具有絕對的零點,稱為等比尺度。可以用來計算倍數或比率。 • 例如:年齡,身高,體重,每分鐘心跳的次數,每天抽煙的支數。我們可以描述新生兒體重9磅(4082公克,1 磅=453.592公克)是6磅(2722公克)的1.5倍,若換算為公克測量則亦為1.5倍(4082/2722=1.5)。所以體重的尺度是一種等距尺度,也是一種等比尺度。

  19. 變數分佈 (Distribution) 分佈概論: 何謂分佈(Distribution)? 在統計思維中,分佈係指針對某一我們感興趣的變數(Variable)。將其搜集到的值(Observation)以有系統的方式加以整理並呈現出來。 可以長條圖(Bar Charts): categorical data 或直方圖(Histograms): continuous data 表示

  20. 例1:不連續變數(類別或序位)的分佈:2560位AIDS病人中,Kaposis sacoma 疾病狀態的分佈情形, 以Bar Charts表示。 相對次數=次數/總次數 排序

  21. 例2:連續變數(等距或等比)的分佈:新生兒體重的分佈,將資料分組,以直方圖(Histogram)表示。 相對次數=次數/總次數

  22. 樣本平均數 • 【樣本平均數 (Sample Mean, Arithmetic Mean) 】 • 兩密閉室(甲,乙)的溫度的集中趨勢

  23. 樣本變異數與樣本標準差 • 【樣本變異數(Sample Variance) (s2), 樣本標準差(Sample Standard Deviation) (s)】 • 兩密閉室(甲,乙)的溫度的分散趨勢

  24. 許多變項的分佈服從常態分佈 常態分佈 圖形隨平均數及標準差不同而不同 平均數=10 標準差=1.5 平均數=20 標準差=4

  25. 範例:AV為臨床指標 • 若無腫瘤患者AV值的分佈為常態分佈X~N(10,1.52) 理論上可得到有68%的機率落在(8.5,11.5)中間 可得到有95%的機率落在(7,13)中間 可得到有99%的機率落在(5.5,14.5)中間 68%

  26. 68% 若有 無腫瘤患者AV值的分佈為常態分佈X~N(20,42) • 任何常態資料若經標準化, 理論上可得到有68%的機率落在(16,24)中間 可得到有95%的機率落在(12,28)中間 可得到有99%的機率落在(8,32)中間 *** 由平均值及標準差可知兩族群人AV值的分佈,進而….

  27. Thanks for your attention~

More Related