380 likes | 568 Views
統計軟體工作坊 輕鬆學會統計軟體 R. 2013/05/16. R 簡介. 可進行資料處理、統計分析、科學計算與圖形繪製 適用各種作業系統: Windows, Unix, Linix , MacOS 開放原始碼的自由軟體( open source ) 免費: 可由 the Comprehensive R Archive Network (CRAN) 下載 藉由套件( package )可不斷增加其功能 可與其他程式( C, Matlab , WinBugs ,… )連結使用 超過 27 個國家, 66 個連結點. R 的歷史.
E N D
統計軟體工作坊輕鬆學會統計軟體R 2013/05/16
R簡介 • 可進行資料處理、統計分析、科學計算與圖形繪製 • 適用各種作業系統:Windows, Unix, Linix, MacOS • 開放原始碼的自由軟體(open source) • 免費:可由the Comprehensive R Archive Network (CRAN)下載 • 藉由套件(package)可不斷增加其功能 • 可與其他程式(C, Matlab, WinBugs,…)連結使用 • 超過27個國家,66個連結點
R的歷史 Kurt Hornik (2008) “The Past, Present, and Future of the R Project” John Chambers (2006) “A History of S and R”
下載R軟體 • Go to this web page http://www.r-project.org/
下載R軟體 • 點選CRAN,接著選擇下載點
下載R軟體 • 根據作業系統選擇下載的版本 • 選擇“base”
下載R軟體 • 下載並安裝 • 安裝之後在桌面會出現捷徑
R視窗說明 停止運算 載入工作頁面 複製及貼上 Toolbar R Console 主要視窗
定義新物件 • 定義一個新的變數叫temp,並且指定其值為24 • 紅字是輸入,藍字是輸出 • 大小寫代表不同物件 • 箭頭(<-)可用“=”代替 • 物件名稱必須為字母開頭,其餘位置可以是數字或點 • c, q, t, C, D, F, I, T; diff, df, pt, pi, …不可以是物件名稱
Ras a calculator • 可以直接輸入數值計算 • 若物件屬性與維度相同,可以進行四則運算 • 常用的數學函數,如log, exp, sin,..可直接計算 • 若不能計算,會回傳NaN (not a number)
輸入向量 • c(…) 可以是數值 可以是字串 還可以把每一個元素取名字
Practice • Weight: 50, 62, 47, 48, 72, 81, 45, 58, 65, 55 • Height: 1.58, 1.77, 1.43, 1.52, 1.84, 1.72, 1.45, 1.62, 1.70, 1.55 • 請計算每個人的BMI及平均BMI
查詢、移除已定義物件 • ls() • rm(“A”) • rm(list=ls())
利用R的記事本寫指令 • 開啟記事本 • 儲存記事本
更改工作目錄 • 改變檔案及資料的存放位置
下載R套件 • 練習:請下載R Commander套件 “Rcmdr”
載入R套件 • 可在R Console視窗中輸入library(“Rcmdr”) • 或者由選單中點選
學生生活型態調查 • 班級(class): (1)統資系 (2)財數系 (3)其他 • 性別(sex): (1) 女生 (2)男生 • 身高 (high) • 體重 (weight) • 血型 (blood): (1)A (2)B (3)O (4) AB • 住宿地 (location): (1)宿舍 (2)學校附近 (3)東海別墅附近 (4)家裡 (5) 其他 • 住宿費用 (rent):(1) 3000以下 (2) 3000~4000 (3)4000~5000 (4)5000~6000 (5)6000~ (6)其他 • 上學方式(way): (1)走路 (2)騎機車 (3)搭校車 (4)搭公車 (5)其他
資料輸入 • 輸入新資料 按一下var1,會出現變數編輯器,輸入變數名稱後,再按Enter即可。 輸入資料後關閉視窗即可
資料輸入 • 匯入資料
練習 • 請讀入EXCEL檔案“class-demo”,並將其命名為data2 • 請更改data2中,變數class、sex為character
資料型態 • 類別資料 • 可以用數字代表類別,但數字本身沒有意義 • 男生=1,女生=0 • 序位資料 • 類別的大小次序有意義,但順序的運算無意義 • 原位癌=0,癌症第一期=1,癌症第二期=2,第三期=3,第四期=4 • 等級化資料 • 根據不同類別的觀察值排序,給予類別不同的名次 • 象、牛、熊、獅 • 離散型資料 • 數值為真正測量值而非代號 • 每學期進圖書館次數 • 連續型資料 • 數值為真正觀測值,測量值不限定為整數 • 每星期唸書的時間
資料的整理 • 初步的組織、歸納觀察到的資料 • 統計表:製表是整理資料最簡單且最常用的方法 • 次數分配表(frequency table)、相對次數分配表(relative frequency table)、累積相對次數分配表(cumulative relative frequency table) • 統計圖 • 長條圖(bar chart)、直方圖(histogram)、次數多邊圖(frequency polygon)、散佈圖(scatter plot)、盒形圖(box plot)、線圖(line graph)
統計表 • 次數分配表:記錄每個組別中觀察到的個體數 • 相對次數分配表:記錄每一組別人數/總觀察人數 1. 處理離散型或連續型資料為次數分配表時,需將資料區分為一系列沒有重疊且明確的組別。 2. 分組之前要先定組限與組距,每組組距不一定要相同。 NOTE:一個個體只會分屬於一個類別
統計表 • 累積相對次數分配表:低於或等於該組上限的人數/總人數
長條圖(Bar charts) • 常用來表示類別或序位資料 高度代表組別分佈的次數或相對次數
直方圖(Histogram) • 用來描述離散或連續型的資料分佈 • 可以觀察資料的分佈狀況與集中趨勢 高度代表組別分佈的次數或相對次數,寬度代表組距 資料是否對稱?左偏?右偏?
散佈圖(scatter plot) • 描述兩個不同的連續資料的關係 肺活量與FEV的關係?
盒型圖(box plot) • 利用樣本產生之統計量(最小值minimum、第一四分位數first quartile、中位數median、第三四分位數third quartile、最大值maximum)來描繪資料的分佈。 • 第一四分位數(25%分位數):數值高於或等於全部觀察值的25%,低於或等於全部觀察值的75% • 中位數(50%分位數):位於資料50%的數值 • 第三四分位數(75%分位數):數值高於或等於全部觀察值的25%,低於或等於全部觀察值的75%
四分位數(Quartiles) • 25th百分位數 (之前的資料個數大約有25%的資料總個數&之後個數75%): • 例:100/4=25 (第25名+第26名)/2;第25名 • 例:50/4=12.5 (第12名+第13名)/2; • 例:67/4=16.75 (第16名+第17名)/2; • 50th百分位數 (前後各約二分之一的個數): • 例:100/2=50 (第50名+第51名)/2;第50名 • 例:50/2=25 (第25名+第26名)/2;第25名 • 例:67/2=33.5 (第33名+第34名)/2; • 例:40/2=20 (第20名+第21名)/2;第20名
四分位數(Quartiles) • 75th百分位數 (前約四分之三、後約四分之一的個數): • 例:100/4*3=75 (第75名+第76名)/2;第75名 • 例:50/4*3=37.5 (第37名+第38名)/2; • 例:67/4*3=50.25 (第50名+第51名)/2; • 例:40/4*3=30 (第30名+第31名)/2;第30名 • 四分位距(Inter-quartile range, IQR):第三四分位數減第一四分位數
Smallest data point not below inner fence Largest data point not exceeding inner fence Suspected outlier Outlier o * X X Q1 Median Q3 Inner Fence Outer Fence Inner Fence Outer Fence Q1-1.5(IQR) Q3+1.5(IQR) Interquartile Range Q1-3(IQR) Q3+3(IQR) Box Plot Elements of a Box Plot
統計圖 這裡可以選要畫的圖形
練習 • 請計算data2中居住地區之次數分配表 • 請data2中畫出身高與體重之散布圖
資料摘要(data summary) • 利用數字描述資料作量的描述 • 測量資料的集中趨勢 (measure of central tendency) • 平均值(mean)、中位數(median)、眾數(mode) • 測量資料的變異情況 (measure of dispersion) • 全距(range)、四分位距(IQR)、變異數(variance)和標準差(standard deviation)
練習 • 請計算data2中體重之平均數、標準差、中位數、第一四分位數及第三四分位數