630 likes | 929 Views
第四章 估计、检验与方差分析. 第四章 估计、检验与方差分析. 第一节 总体均值的估计和检验 第二节 方差分析 第三节 协方差分析. 第一节 总体均值的估计和检验. 计量资料的统计指标 正态性检验 总体均值的估计和检验 两组方差的齐性检验 简单的描述性统计 proc means 过程 详细的描述性统计 proc univariate 过程 两组数据比较 ttest 过程. 计量资料的统计指标. 集中位置的指标 算术平均值 : 加权算术平均 几何均值 : 适用于表达呈对数正态分布资料的平均水平。 加权几何平均.
E N D
第四章 估计、检验与方差分析 • 第一节 总体均值的估计和检验 • 第二节 方差分析 • 第三节 协方差分析
第一节 总体均值的估计和检验 • 计量资料的统计指标 • 正态性检验 • 总体均值的估计和检验 • 两组方差的齐性检验 • 简单的描述性统计proc means过程 • 详细的描述性统计proc univariate过程 • 两组数据比较ttest过程
计量资料的统计指标 • 集中位置的指标 • 算术平均值: • 加权算术平均 • 几何均值: 适用于表达呈对数正态分布资料的平均水平。 • 加权几何平均
计量资料的统计指标 • 集中位置的指标 • 调和均值 :适用于表达呈极严重的正偏态分布资料的平均水平。 • 中位数Med :将原始观察值按由小到大顺序排列后,位次处于中间的那个观察值(或中间两个观察值的平均值)为中位数。 • 众数: 频数最大的观察值 • 百分位数: 第25百分位数P25表示有25%个观察值小于 P25; 第75百分位数P75表示有75%个观察值小于 P75; Med=P50, Min=P0, Max=P100
离散程度的指标 • 离均差平方和 • 样本标准差 • 样本方差: s2 • 样本协方差 • 样本相关系数 r=sxy/sxsy===== • 变异系数 • 标准误差: 统计量的标准差(并不是样本标准差s!)
离散程度的指标 • 全距(极差) range=max-min • 四分位数间距: • 偏度系数: skew>0 偏右, skew<0 偏左 • 峰度系数: kurt>0 顶部尖, kurt<0 顶部平坦 正态分布:skew=0, kurt=0
统计量的分布 • 正态分布 • 2分布 • t分布 • F分布
假设检验的概念 • 原假设 H0 : =0, 对立假设H1: >0 • 显著性检验 • 原假设保护原则:如果数据不显著支持H1,就应接受H0。 • 显著性水平 • 统计量F及其概率分布 • 拒绝域D(显著支持H1 ): P(FD| H0真)= 第一类错误
假设检验P值判别法 P值 F值 临界值F1- 值 临界值法: F> F1-, 拒绝原假设H0 P值法: P<, 拒绝原假设H0 P值法更方便 • P值=P(F>样本F值|H0真)
总体均值的估计和t检验 • 总体均值的估计 • 正态总体方差已知, 总体均值的置信区间 • U统计量 • 正态总体方差未知, 总体均值的置信区间 • T统计量
非正态总体(大样本) • 置信区间 • U统计量
配对t检验 • 配对试验设计(paired design) • 比较配对试验中指标( x1i和 x2i)的差异。可以先求出成对数据之差di= x1i- x2i。配对t检验统计量
成组t检验 • 完全随机化设计 • 检验两组样本所代表的总体是否具有相同的均值 • 总体方差已知, U统计量 • 总体方差未知但相等, t统计量
成组t检验 • 总体方差未知, 不相等, 近似t检验 • Cochran和Cox近似
两组方差的齐性F检验 课本136页有错
正态性检验图 • P-P图:观察累计频率vs.理论累计概率 • Q-Q图:观察分位数vs.理论分位数 • 正态分布的P-P图,Q-Q图都接近直线。
正态性W检验(n<50) • Wilk-Shapiro x(k) ~xi的顺序 统计量 ai~W-S系数 正态分布:W=1 课本133页有错
正态性D’Agostino检验(50<n<2000) • Wilk-Shapiro检验的变形 D’Agostino不是大样本D检验,课本133页有错 正态分布:D=0 D’Agostino’s test– A test of normality based on order statistics from sample data. It is a modification of the Shapiro–Wilk W test, and it is readily calculated without the coefficients of the order statistics. It is based on the ratio of a linear unbiased estimator of the standard deviation (using order statistics) to the usual mean square estimator. The test was originally proposed for moderate sample sizes (中等样本)and can detect departures from normality both for skewness and kurtosis. ——wikipedia
正态性检验(拟合度检验) • Fn(x):经验分布函数, F0(x): 理论分布函数 • Kolmogorov-Smirnov(大样本D检验,n>2000) • Cramer-von Mises • Anderson-Darling 正态分布:D=0 正态分布:W2=0 正态分布:A2=0
proc means中的<选项列表> • vardef=df/weight/wgt/n/wdf——在方差计算中规定除数d.。 • noprint——不输出任何描述统计量,仅为了创建新的数据集。 • maxdec=数字——输出结果中小数部分的最大位数(0至8),缺省值为2。 • fw=数字——规定打印时每个统计量的域宽,缺省值为2。 • descending——规定输出数据集按_type_值下降的次序(缺省时为上升)。 • order=freq/data/internal/formatted/——规定输出时class变量按所指定方式排序。 • alpha=数字——设置计算置信区间的置信水平 , 值在0与1之间。 • 统计量——可使用的关键字(P138表4-1)
实例分析 • 例4.1 统计量output到新的数据集 • 例4.2 简单算术平均和加权平均weight • 例4.3 分类class和分组by的算术平均 • 例4.4 means过程选项 (修改: alpha=0.01) • 例4.5 与均值有关的单组统计分析(注意:先计算与对照值的差)
详细描述统计proc univariate过程 • 单变量统计分析 • 图示法——包括茎叶图、盒型图和正态概率图。 • 描述统计量——包括矩、分位数、极端值和频数分布表 • 茎叶图(Stem-and-leaf display) • 盒型图(Boxplot): 最小数Min、下四分位数Q1、中位数Med、上四分位数Q3与最大数Max。
proc univariate 语句的<选项列表> • vardef=df/weight/wgt/n/wdf——在方差计算中规定除数d.。 • freq——要求生成包括变量值、频数、百分数和累计频数的频率表。 • normal——要求计算关于输入数据服从正态分布的假设的检验统计量。 • plot——要求生成一个茎叶图、一个盒型图和一个正态概率图。 • round=舍入单位列表——规定var语句中变量的四舍五入的单位。 • pctldef=1/2/3/4/5——规定计算百分位的五种方法, 缺省值为5。
output语句中的选项 • <pctlpts=百分位数 pctlpre=变量前缀名 pctlname=变量后缀名>——提供用户自己想计算的百分位数和规定在输出数据集中合成的变量名。 • 统计量关键字=变量名列表——规定在输出数据集中要包含的统计量并规定这些统计量在新数据集中的变量名。
实例分析 • 例4.6 单变量数据的详细描述统计univariate • 例4.7 配对数据的均值比较 (先计算配对差,再用means或univariate检验差是否为零) proc means mean t prt; var diff; run; • 注意:T检验Pr>|T|是双侧检验P值 • 对于双侧检验, Pr<时拒绝原假设; • 对于单侧检验,Pr/2< 时拒绝就可原假设. • 正态检验Pr>w本身就是单侧检验,所以直接给出单侧检验P值,Pr< 时拒绝原假设。
实例分析 例4.5 方法二用ttest做均值=0的t检验 proc ttest ; var y; run; 例4.7方法二 用ttest做配对数据的均值比较(paired语句) proc ttest; paired x2*x1; run; 例4.8 用ttest做成组(独立, 不配对)数据的均值比较 注:怎样区分“配对数据”与“成组数据”?
用solutions\ASSIST菜单作t检验 • 例4.8 成组均值比较 方法二 • Solutions\ASSIST\Data analysis\Anova\T-tests • Compare two group • Table: work.group; (数据集已生成) • dependent: x; • class: g • submit
第二节 方差分析ANOVA • 例: 各地KFC脂肪含量是否有显著差异? • 主要用于检验计量资料中的两个或两个以上均值间差别显著性的方法。 • 因素(分类变量:原料,设备,管理等) • 水平(各因素的不同分类水平) • 效应(因素或因素组合造成的影响) • 误差(模型之外因素的影响) • 总效应(样本观察值) • 方差分解:总的离均差平方和分解成若干部分,每一部分都与某一种效应相对应
单因素方差分析 • 设因素A有k个水平 ,在每一个水平下考察的指标可以看成一个总体,①每一总体均服从正态分布;②每一总体的方差相同; • 原假设: • 备选假设:
单因素方差分析的统计模型 • 设从第i个水平获得容量为ni的样本观察值为 ,i=1,…,k, 各样本间还是相互独立的。 • 令水平Ai的效应ai=i- , 方差分析模型 • 原假设: 注:H0往往都以等式形式出现
单因素方差分析的统计模型 • 设从第i个总体获得容量为ni的样本观察值为 ,i=1,…,k,各样本间还是相互独立的。 • 总偏差平方和 • 组内偏差平方和 • 组间偏差平方和 • 平方和分解 SST=SSe+SSA (证明P156)
假设检验 • F统计量 • P值=P(F>样本F值|H0真) • P<时,拒绝H0(组间有显著差异)
参数估计 • 2估计=MSe=SSe/(n-k) • 估计= Root MSE=sqrt(MSe) • i的置信区间 • R-Square=1-SSe/SST, • Root MSE=sqrt(MSe) • CV= /mean
多重比较(两两比较) • T检验和Bonforroni检验 • LSD检验 • SNK检验和Duncan检验
双因素析因设计的方差分析 • 考虑多因素交互影响 • 假设A因素有r个水平,B因素有c个水平,每一种A×B水平下的重复数为m,那么总的观察数据有n=r×c×m个
多因素拉丁方设计的方差分析 • 多因素试验需要大量试验, 拉丁方设计可减少试验次数 • 拉丁方:用K个拉丁字母排成K行K列的方阵,使每行每列中每个字母仅出现1次。 • 若试验中涉及到3个因素,当它们之间不存在交互作用或交互作用可以忽略不计,且各因素均取相同水平时,适合于选择拉丁方设计。 • 将3个因素分别放置到拉丁方的行、列及字母上面。
3因素4水平完全拉丁方 因素1(行):水平2 因素2(列):水平4 因素3(字母):水平3 即 拉丁方:每行每列中每个字母仅出现1次 3因素设计一般至少需要43 次试验, 拉丁方设计只需要42次. 用最少的实验次数实现了任意两两搭配交叉.
proc anova和proc glm过程 • anova过程处理均衡数据或单因素非均衡数据 • glm主要处理多因素非均衡数据 • 所谓均衡数据是指分组变量(表示因素)的每种组合中的观察数是相等的,如果不相等则称为非均衡数据。
model 语句 • 主效应模型 • Model y=a b c; • 含有交叉因素的模型 • Model y=a b c a*b a*c b*c a*b*c;
means语句和test语句 • means语句后列出的效应所对应的因变量均值; • means语句的选项多重比较的方法和细节; • 检验方法: • bon——Bonferroni的t检验 • duncan——Duncan的多重极差检验 • snk——Student-Newman-Keuls的多重极差检验 • lsd——Fisher’s least-significant-difference两两t检验 • 细节: • hovtest-方差齐性的Levene检验 • cldiff——两两均值之差置信区间(confidence level)。 • clm——均值置信区间。