840 likes | 969 Views
第五章 方 差 分 析. 5.1 方差分析中的有关概念 5.2 单因素方差分析 5.3 双因素方差分析 5.4 均值估计与多重比较. 5.1 方差分析中的有关概念 5.1.1 单因素方差分析问题与模型 5.1.2 双因素方差分析问题与模型 5.1.3 方差分析中的基本假定. 5.1.1 单因素方差分析问题与模型 1. 数学模型 进行单因素方差分析时,需要得到如图 5-1 所示的数据结构。
E N D
第五章 方 差 分 析 • 5.1 方差分析中的有关概念 • 5.2 单因素方差分析 • 5.3 双因素方差分析 • 5.4 均值估计与多重比较
5.1 方差分析中的有关概念 • 5.1.1 单因素方差分析问题与模型 • 5.1.2 双因素方差分析问题与模型 • 5.1.3 方差分析中的基本假定
5.1.1 单因素方差分析问题与模型 • 1. 数学模型 • 进行单因素方差分析时,需要得到如图5-1所示的数据结构。 • 设xij表示第i个总体的第j个观测值(j = 1,2,…,ni,i = 1,2,…,m),希望由此对不同水平下总体的均值进行比较。
对此,观察到的xij常用以下的模型表示: • xij = i + ij,1≤j≤ni,1≤i≤m • 其中i表示第i个总体的均值,ij为随机误差,在方差分析中为了得到有效的检验法还常假定ij满足: • ● ij为相互独立的; • ● ij都服从正态分布,且ij的均值都为0,方差都相同。
2. 方差分析的过程 • 为了方便起见,可将i记为: • i = + i • 其中 称为总均值,i = i – ,i = 1,2,…,m称为因素A的第i个水平的附加效应,这样比较不同水平下均值是否相同。问题的检验假设: • H0:1 = 2 = … = m,H1:1,2,…,m不全相等; • 就可以表示为: • H0:1 = 2 = … = m = 0,H1:1,2,…,m不全为零。
在H0成立下检验用统计量: • 其中 、 称为组间、组内(变差)平方和;这里 称为组内平均; • 称为总平均,n = n1 + n2 + … + nm;另外 • 称为全部(变差)平方和;可以证明 • SST = SSMA + SSE。
当原假设成立时,各总体均值相等,各样本均值间的差异应该较小,模型平方和也应较小,F统计量取很大值应该是稀有的情形。当原假设成立时,各总体均值相等,各样本均值间的差异应该较小,模型平方和也应较小,F统计量取很大值应该是稀有的情形。 • 所以对给定显著性水平α(0, 1),若p = P{FF0} < α,则拒绝原假设H0(F0为F统计量的观测值),可以认为所考虑的因素对响应变量有显著影响;否则不能拒绝H0,认为所考虑的因素对响应变量无显著影响。
3. 方差分析表 • 通常将上述计算结果表示为表5-1所示的方差分析表。 • 表5-1 单因素方差分析表 • 其中,MSA = SSMA/(m – 1),MSE = SSE/(n – m)。利用方差分析表中的信息,就可以对因素各水平间的差异是否显著做出判断。
5.1.2 双因素方差分析问题与模型 • 1. 无交互作用的双因素方差分析 • 对于多因素问题,通常考虑有重复观测的情形,其数据结构如图5-2所示。 • 图5-2 双因素方差分析中数据结构
若第一个因素A有l个水平,第二个因素B有m个水平。在因素A的第i个水平和因素B的第j个水平下进行了多次观测,记为{xijk,1≤k≤n}。若第一个因素A有l个水平,第二个因素B有m个水平。在因素A的第i个水平和因素B的第j个水平下进行了多次观测,记为{xijk,1≤k≤n}。 • 对xijk考虑以下模型: • xijk= + i+ j + ijk, 1≤i≤l,1≤j≤m,1≤k≤n • 其中表示平均的效应,i和j分别表示因素A的第i个水平和因素B的第j个水平的附加效应,ijk为随机误差,同样这里的随机误差也假定它是独立的并且服从等方差的正态分布。
要说明因素A有无显著影响,就是要检验如下假设:要说明因素A有无显著影响,就是要检验如下假设: • H0A:1 = 2 = … = l, H1A:1,2,…,l不全相等; • 要说明因素B有无显著影响,就是要检验如下假设: • H0B:1 = 2 = … = m, H1B:1,2,…,m不全相等; • 而模型无显著效果是指以上两个假设的原假设同时成立。
在H0A、H0B成立时,检验用统计量: • 对于给定的显著性水平α • 当值p = P{FA > FA0} < α时拒绝H0A; • 当值p = P{FB > FB0} < α时拒绝H0B。 • 其中,FA0为FA统计量的观测值,FB0为FB统计量的观测值。
2. 有交互作用的多因素方差分析 • 对于有交互作用的观测{xijk},采用以下的模型: • xijk= + i+ j + ij + ijk, 1≤i≤l,1≤j≤m,1≤k≤n • 其中表示平均的效应,i和j分别表示因素A的第i个水平和因素B的第j个水平的附加效应,ij表示因素A的第i个水平和因素B的第j个水平交互作用的附加效应。ijk为随机误差,这里也假定它是独立的并且服从等方差的正态分布。 • 注意,其中n必须大于1,即为了检验交互作用,必须有重复观测。
要说明交互作用有无显著影响,就是要检验如下假设:要说明交互作用有无显著影响,就是要检验如下假设: • H0(A*B):ij = 0(1≤i≤l,1≤j≤m), • Hl(A*B):ij不全为零(1≤i≤l,1≤j≤m) • 所以在多因素方差分析中,须在无交互作用所作检验的基础上,加上交互作用的检验。
构造H0A,H0B,H0(A*B)的检验统计量分别为 • 对于给定的显著性水平α • 当值p = P{FA≥FA0}<α时拒绝H0A,否则不能拒绝H0A; • 当值p = P{FB≥FB0}<α时拒绝H0B,否则不能拒绝H0B; • 当值p = P{F(A*B)≥F(A*B)0}<α时拒绝H0(A*B),否则不能拒绝H0(A*B)。
3. 方差分析表 • 无交互作用的双因素方差分析表见表5-2。 • 表5-2 无交互作用的双因素方差分析表 • 其中MSA = SSMA/(l – 1),MSB = SSMB/(m – 1),MSE = SSE/(lmn – l – m + l)。利用方差分析表中的信息,就可以对每个因素各水平间的差异是否显著做出判断。
有交互作用的双因素方差分析表见表5-3。 • 表5-3 有交互作用的双因素方差分析表 • 其中MSA = SSMA/(l – 1),MSB = SSMB/(m – 1),MS(A*B) = SSM(A*B)/ (l – 1) (m – 1),MSE = SSE/lm(n – l)。利用表中的信息,就可以对各个因素间交互作用是否显著和每个因素各水平间的差异是否显著做出判断。
5.1.3 方差分析中的基本假定 • 方差分析中常用的基本假定是: • ● 正态性:每个总体均服从正态分布,也就是说,对于每一个水平,其观测值是来自正态分布的简单随机样本。 • ● 方差齐性:各总体的方差相同。 • ● 独立性:从每一总体中抽取的样本是相互独立的。 • 在SAS中,正态性可用第3章介绍的方法来验证,也可通过本章介绍的“残差的正态性检验”来验证,方差齐性可以在方差分析的过程进行验证,而独立性可由试验的随机化确定。
5.2 单因素方差分析 • 5.2.1 用INSIGHT作单因素方差分析 • 5.2.2 用“分析家”作单因素方差分析 • 5.2.3 用过程进行单因素方差分析
5.2.1 用INSIGHT作单因素方差分析 • 1. 实例 • 【例5-1】消费者与产品生产者、销售者或服务的提供者之间经常发生纠纷。当发生纠纷后,消费者常常会向消费者协会投诉。为了对几个行业的服务质量进行评价,消费者协会在零售业、旅游业、航空公司、家电制造业分别抽取了不同的企业作为样本。每个行业各抽取5家企业,所抽取的这些企业在服务对象、服务内容、企业规模等方面基本上是相同的。然后统计出最近一年中消费者对总共20家企业投诉的次数,结果如表5-4。
表5-4 消费者对四个行业的投诉次数 • 通常,受到投诉的次数越多,说明服务的质量越差。消费者协会想知道这几个行业之间的服务质量是否有显著差异,即在方差分析中检验原假设:四个行业被投诉次数的均值相等。
2. 分析步骤 • 1) 将表5-4中数据整理成如图左所示结构的数据集,存放在Mylib.xfzts中; • 2) 在INSIGHT模块中打开数据集Mylib.xfzts; • 3) 选择菜单“Analyze(分析)”→“Fit(拟合)”,在打开的“Fit(X Y)”对话框中按图(右)选择分析变量; • 4) 单击“OK”按钮,得到分析结果。
3. 结果分析 • 第一张表提供拟合模型的一般信息: • 第二张表为列名型变量信息,即HANGYE为列名型的,有4个水平; • 第三张表提供参数信息,并且约定,P_2、P_3、P_4、P_5分别为航空、家电、零售和旅游4个行业的标识变量(也称哑变量)。如下图所示。
第四张表给出响应变量均值关于自变量不同水平的模型方程,如图5-6所示。第四张表给出响应变量均值关于自变量不同水平的模型方程,如图5-6所示。 • 其中,标识变量取值:
第五张表(图5-7)给出模型拟合的汇总信息,其中:R-Square(R2)是判定系数(coefficient of determination),阐明了自变量所能描述的变化(模型平方和)在全部变差平方和中的比例,它的值总在0和1之间,其值越大,说明自变量的信息对说明因变量信息的贡献越大,即分类变量取不同的值对因变量的影响越显著。Aaj R-Sq(校正R2)是类似于R2的,但它随模型中的参数的个数而修正。
第六张为方差分析表,如图5-8所示,其中各项含义可参见表5-1的说明。第六张为方差分析表,如图5-8所示,其中各项含义可参见表5-1的说明。 • 从方差分析表可以看出,p值小于0.05(显著水平),所以拒绝原假设,即不同行业的消费者投诉次数有显著差异。 • 第七张表提供III型检验,它是方差分析表的细化,给出了各因素的平方和及F统计量,因为本例是单因素的,所以这一行与图5-8的“Model”一行相同。如图5-9所示。
第八张为参数估计表,其中有关于不同行业下投诉次数差异的估计和检验:第八张为参数估计表,其中有关于不同行业下投诉次数差异的估计和检验: • 1) 根据标识变量的定义,Intercept后的估计47.4是对应于旅游业投诉次数的均值,其后的t检验是检验这一均值是否为0。这里p值<0.0001<0.05=α,故显著非0。 • 2) 航空后的估计-12.4是航空业与旅游业投诉次数均值之差的估计值,其后的t检验也是检验这两个投诉次数均值之差是否为0。 • 由于p值的绝对值为0.1313 > 0.05,所以航空业与旅游业的被投诉次数没有显著差异的。其它分析类似。
4. 检验模型假定 • 为了验证残差为正态分布的假定,回到数据窗口。可以看到R_TOUSU(残差)和P_TOUSU(预测值)已加到数据集之中,下面用Distribufion(Y)来验证残差的正态性。 • 1) 选择菜单“Analyze”→“Distribution(Y)”; • 2) 在打开的“Distribution(Y)”对话框中选定分析变量:R_TOUSU;单击“OK”按钮;
3) 选择菜单“Curves”→“Test for Distribution”;在打开的“Test for Distribution”对话框中直接单击“OK”按钮。 • 在检验结果的“Test for Distribution”表中看到,p值大于0.05,不能拒绝原假设,表明可以认为残差是正态分布的(图5-12)。
5.2.2 用“分析家”作单因素方差分析 • 1. 分析步骤 • 1) 在“分析家”中,打开数据集Mylib.xfzts; • 2) 选择菜单“Statistics(统计)”→“ANOVA(方差分析)”→“One-Way ANOVA(单因素方差分析)”,打开“One-Way ANOVA”对话框;
3) 选中分类变量HANGYE,单击“Independent”按钮,将其移到“Independent(自变量)”框中;选中数值变量TOUSU,单击按钮“Dependent”,将其移到“Dependent(因变量)”框中,如图5-13所示;
4) 为了检验方差分析中关于方差齐性的假定,单击“Tests”按钮,打开“One-Way ANOVA:Tests”对话框,选中“Tests for equal variance”栏下的“levene's test”复选框(常用),如图左,单击“OK”按钮返回; • 5) 单击“Plots”按钮,打开“One-Way ANOVA:Plots”对话框,可以选择图形类型,如选中“Types of plots”栏下的“Box-&-whisker plot”复选框,如图右,单击“OK”按钮返回;再次单击“OK”按钮。
2. 结果分析 • 在显示的结果中,提供了自变量的各个水平和单因素方差分析表。 • 结果分为五个部分,第一部分(下图左)是因素水平的信息,可以看到只有一个因素HANGYE,它的4个水平分别是航空、家电、零售、旅游,共有20个观测。
第二部分就是经典的方差分析表。由于这里p值小于0.05(显著水平),所以模型是显著的,即因素对指标有显著影响。第二部分就是经典的方差分析表。由于这里p值小于0.05(显著水平),所以模型是显著的,即因素对指标有显著影响。 • 第三部分是一些与模型有关的简单统计量,第一个是复相关系数平方R2,代表总变差中能被模型解释的比例,第二个是指标的变异系数,第三个是根均方误差,第四个是均值。 • 第四部分是方差分析表的细化,给出了各因素的平方和及F统计量,因为是单因素所以这一行与上面的“Model(模型)”一行相同。
第五部分是对方差齐性的假定检验的结果,如图5-16所示。结果表明使用Levene's检验法的p值为0.6357,所以不同水平下观测结果的方差无显著差异。第五部分是对方差齐性的假定检验的结果,如图5-16所示。结果表明使用Levene's检验法的p值为0.6357,所以不同水平下观测结果的方差无显著差异。
在分析家窗口的项目管理器中双击“Boxplot of TOUSY by HANGYE”选项,得到响应变量关于自变量各水平的盒形图如图5-17所示。 • 图中从左到右依次为航空、家电、零售、旅游等水平的盒形图,可以从中对不同水平下均值的差异以及方差的差异有一个直观的了解。
5.2.3 用过程进行单因素方差分析 • 1. ANOVA过程和GLM过程的简介 • (1) ANOVA过程 • ANOVA过程的一般格式包含许多选项,其中最为常用的为如下格式: • PROC ANOVA DATA = <数据集>; • CLASS <自变量列表>; • MODEL <因变量名> = <自变量表达式>[/<选项列表>]; • MEANS <自变量表达式>[/<选项>]; • RUN;
其中CLASS语句用来指定样本分组的分类变量,CLASS语句是必需的,而且必需位于MODEL语句之前;其中CLASS语句用来指定样本分组的分类变量,CLASS语句是必需的,而且必需位于MODEL语句之前; • MODEL语句给出模型表达式,可以用来表示三种不同的效应模型: • 1) 主效应模型:y = a b c • 2) 交互效应模型:y = a b c a*b a*c b*c a*b*c • 3) 嵌套效应模型:y = a b c(a b) • 同一MODEL语句中三种效应可以混合使用。 • MEANS语句指定ANOVA过程计算自变量各水平下因变量的均值、标准差,并进行组间的多重比较。
(2) GLM过程 • PROC GLM DATA=<数据集> [ALPHA = <p>]; • CLASS <自变量列表>; • MODEL <因变量名> = <自变量表达式>[/<选项列表>]; • MEANS <自变量表达式>[/<选项>]; • RUN; • 一般地,ANOVA过程中涉及的所有语句都包含在GLM过程所涉及的语句中,其用法和功能也都是基本相同的。
2. 使用ANOVA过程作单因素方差分析 • 使用ANOVA过程对例5-1作方差分析的方法: • proc anova data = Mylib.xfzts; • class hangye; • model tousu = hangye; • run; • 分析结果与“分析家”相同。
3. 使用GLM过程作单因素方差分析 • 使用GLM过程对例5-1作方差分析的方法: • proc GLM data = Mylib.xfzts; • class hangye; • model tousu = hangye; • run; • 分析结果与“分析家”相同。
5.3 双因素方差分析 • 5.3.1 用INSIGHT作双因素方差分析 • 5.3.2 用“分析家”作双因素方差分析 • 5.3.3 用GLM过程进行双因素方差分析
5.3.1 用INSIGHT作双因素方差分析 • 1. 不存在交互作用的双因素方差分析 • 【例5-2】为了提高一种橡胶的定强,考虑三种不同的促进剂(因素A)、四种不同分量的氧化锌(因素B)对定强的影响,对配方的每种组合重复试验两次,总共试验了24次,得到表5-5的结果。 • 表5-5 橡胶配方试验数据
要用方差分析将不同促进剂和不同份量氧化锌的影响区分开来。即检验:要用方差分析将不同促进剂和不同份量氧化锌的影响区分开来。即检验: • H0A:不同促进剂对定强无影响,H1A:不同促进剂对定强有显著影响 • H0B:氧化锌的不同分量对定强无影响,H1B:氧化剂的不同分量对定强有显著影响
(1) 分析设置 • 1) 将表5-5中数据整理成如图5-18左所示结构的数据集,存放在Mylib.xjpf中;
2) 在INSIGHT模块中打开数据集Mylib.xjpf。由于在Insight中,要求方差分析中的自变量必须是列名型的,故先把变量a和b的测量水平由区间型改为列名型; • 3) 选择菜单“Analyze(分析)”→“Fit(拟合)”,在打开的“Fit(X Y)”对话框中选择数值型变量作因变量,分类型变量作自变量:选择变量stren,单击“Y”按钮,选择变量a和b,单击“X”按钮,分别将变量移到列表框中,如图5-18右所示;单击“OK”,得到分析结果。
(2) 分析结果 • 1) 第一张表提供了模型的一般信息;第二张表列举了作为分类变量的a和b的水平的信息;第三张参数信息表给出了标识变量P_i的定义; • 其中,标识变量取值:
2) 第四张表给出了方差分析模型,利用参数信息表中标识变量的定义可以推算出在各个因素不同水平下变量stren均值的信息;第五张拟合汇总表中给出变量stren的均值为37.0417,判定系数R2为0.8945等,如图5-20; • 图5-20 多因素方差分析第4、5张表
3) 在第六张方差分析表中,检验模型显著性的F统计量为30.53,相应的p值小于0.05 = ,所以拒绝a和b对分析变量stren无显著影响的假设,即模型是显著的; • 在模型显著的情况下常需要进一步分析两个因素是否都有显著影响或者只有一个因素是显著的,这时就需要用到第七张表提供的信息。在III型检验表中,进一步将模型平方和分解为属于a和b的平方和。在这里两个因素的p值都小于0.05,再一次说明了这两个因素对分析变量stren都有显著影响,如图5-21。
4) 第八张是模型的参数估计表(图5-22),参数估计表也是根据标识变量的定义,对参数或对各因素不同水平下的参数之差进行估计和检验。可以根据t统计量的p值来检验不同水平下均值是否有显著差异。 • 图5-22 多因素方差分析第8张表