180 likes | 391 Views
Statistical Software. An introduction to Statistics Using R. Instructed by Jinzhu Jia. Chap 4. 描述性统计分析. 参考书目: R 语言与统计分析 (汤银才) 分布的图形概括 单组数据的描述性统计分析 多组 数据的描述性统计分析 分组 数据的描述性统计分析 分类 数据 的描述性统计分析. 常用分布的概率函数图. 离散随机变量. 常用分布的概率函数图. 连续型随机变量. 直方图与密度函数的估计. 直方图: hist () 密度函数的估计 : density()
E N D
Statistical Software An introduction to Statistics Using R Instructed by Jinzhu Jia
Chap 4. 描述性统计分析 • 参考书目:R 语言与统计分析 (汤银才) • 分布的图形概括 • 单组数据的描述性统计分析 • 多组数据的描述性统计分析 • 分组数据的描述性统计分析 • 分类数据的描述性统计分析
常用分布的概率函数图 • 离散随机变量
常用分布的概率函数图 • 连续型随机变量
直方图与密度函数的估计 • 直方图:hist() • 密度函数的估计: density() • 例子: binomial normal • 科普:密度函数的估计(核估计)
核密度的估计(Heuristics) • 参考文献:非参教材,或者http://www.ssc.wisc.edu/~bhansen/718/NonParametrics1.pdf
单组数据的描述性统计分析 • 直方图 • 茎叶图 • 盒型图 • qq图
qq图的基本原理 • X 与 Y 同分布,分布都是 F,则它们的分位点理论上应该完全一样 • 用样本分位点做横坐标,理论分位点做纵坐标,即得到qqplot • 通常选取1/4分位点与3/4分位点连线,观察qqplot是否在一条直线上
单组数据的描述性统计 • 均值、方差、五数(最小值、最大值、中位数、1/4 分位数,3/4分位数) • summary() • mean() • quantile(x,prob=c(p1,p2…)) • 偏度fBasics::skewness() [注: A::B()表示在A package 中的 B函数,使用时先使用libarary调用package] • 峰度fBasics::kurtosis()
偏度 • 峰度
多组数据的描述性统计分析 • 散点图 • 数据变换
多组数据的描述性统计分析 • plot() • matplot() • boxplot()
多组数据有关的统计量 • Summary() ## gives you 5 numbers • aggregate(x,by,fun….) • 说明: x是数据框, by指定分组变量, fun是用于计算的函数. 如果计算均值, fun为mean. • 相关系数 cor(x,y, method = c("pearson", "kendall", "spearman")) • Google kendall rank correlation • Google spearman rank correlation
分组数据的图形概括 • 分组数据指的是将一个变量按照其他变量的取值情况分成不同的小组 • 图形概括的目的是对每一个小组有一个直观的认识。 • 常用的操作有: • 1.coplot(x~y|a,data) • 2. 直方图 hist(); latttice::histogram() • 3. boxplot() • 3. 条形图 stripchart() • 4.密度曲线图 lattice::densityplot()
分类数据的描述性统计分析 • 如果数据中的所有变量都是定性变量,这样的数据称为分类数据。 • 常用列联表表示分类数据。 • 列联表的制作 • matrix() • table() • margin.table() • prop.table()
列联表的图形描述 • 条形图/柱状图 barplot() • 点图 dotplot()
Homework 4.5考虑程序包DAAG中的数据集tinting, 1) 获得变量tint和sex的列联表; 2) 在同一图上作出变量sex与tint的联合柱状图; 3) 作出age和it的散点图, 并进一步完成下面的操作: i. 用函数lowness()作出拟合线; ii. 在图的两边加上更细小的刻度; iii. 在图的两边加上箱型图. 4) 作出age和it关于因子变量tint的条件散点图; 5) 作出age和it关于因子变量tint和sex的条件散点图; 6) 做出it与csoa的等高线图; 7) 使用matplot( )描述变量age, it和csoa. 4.6由命令 > data(InsectSprays) InsectSprays 得到数据集InsectSprays, 根据数据作出有意义的图, 并对数据作出描述性统 计. • 4.0从54张扑克随机抽取20张,问取到炸弹的几率是多少? 4.7假定某校100名女生的血清总蛋白含量(g/L)服从均值为75, 标准差为3, 并假定数据由下面的命令产生 > options(digits=4) > rnorm(100,75,9) 根据产生的数据 1) 计算样本均值、方差、标准差、极差、四分位极差、变异系数、偏度、峰度 和五数概括; 2) 画出直方图、核密度估计曲线、经验分布图和QQ图; 3) 画出茎叶图、框须图.