970 likes | 1.42k Views
第八章. 方差分析. 本章主要介绍方差分析的基本原理,单因子资料的方差分析方法,两因子资料的方差分析方法,方差分析的基本假定和数据转换. 第一节 方差分析的基本概念. 第六章中,我们已经介绍了两个样本所属总体平均值的假设检验可用 t -test 或 u -test 来检验其差异性 但在大多数情况下,我们的试验有 3 个或 3 个以上的样本需要进行比较 如果这许多样本都只和对照组相比,我们仍然可以使用 t -test 或 u -test 进行,但如果需要样本之间两两相比较的话,就不能使用 t -test 或 u -test 进行了 其理由有以下几个:.
E N D
第八章 方差分析
本章主要介绍方差分析的基本原理,单因子资料的方差分析方法,两因子资料的方差分析方法,方差分析的基本假定和数据转换本章主要介绍方差分析的基本原理,单因子资料的方差分析方法,两因子资料的方差分析方法,方差分析的基本假定和数据转换
第六章中,我们已经介绍了两个样本所属总体平均值的假设检验可用 t-test 或 u-test 来检验其差异性 但在大多数情况下,我们的试验有 3个或 3个以上的样本需要进行比较 如果这许多样本都只和对照组相比,我们仍然可以使用 t-test 或 u-test 进行,但如果需要样本之间两两相比较的话,就不能使用 t-test 或u-test 进行了 其理由有以下几个:
1、当有 k 个样本所属总体的平均值相互两两比较,就需作 次比较,即作 假设检验 例如有 10个样本平均值相比较,即需作 次比较,其工作量相当繁琐 2、假定每一样本的容量均为 n,那么如果我们用t-test来作两两比较时,每一差数的标准误就都只能由 2(n-1)来估计,而不能用总自由度 k(n-1)来估计总的标准误,这就使得误差估计的精确度受到一定的损失,即我们不能充分使用试验中所有的信息量,这是十分可惜的
3、这种两两比较会随着样本组数的增加而加大犯Ⅰ型错误的概率,假定我们要比较5个样本平均数,两两比较就会有 差数,对这 10个差数如果我们都以 进行假设检验,单独对每一差数进行检验时,每一差数获得正确结论的概率就是 但这 10个差数在一起进行比较、且都获得正确结论的概率就只有 因此在 10个两两比较中至少出现一个错误结论的概率就不再是 ,而是
这么大的犯错率无论如何是不能容忍的 这说明,当有多个样本相比较时,如果仍然采用t-test法,就大大地增加了犯Ⅰ型错误的概率 因此此时再用 t-test 法进行检验就不恰当了 如何对 个样本进行假设检验? 这就是本章所要讨论的方差分析
什么叫方差? 方差是对数据(或称资料)变异的度量 方差的公式: 总体: 样本: 一般总体方差称方差,样本方差称均方 能使变量发生变异的原因很多,这些原因我们都将其称为变异因素或变异来源
方差分析就是发现各类变异因素相对重要性的一种方法方差分析就是发现各类变异因素相对重要性的一种方法 方差分析的思路就是:把整个试验(设有 k 个总体)的样本资料作为一个整体来考虑 把整个试验的总变异按照变异的来源分解成不同因素的变异 由于方差等于平方和除以自由度,因此总方差分解成各因素的方差,就是将形成总方差的平方和和自由度分解为各因素的平方和和自由度 然后对各个因素的方差作出数量上的估计,从而发现各个因素的方差的相对重要程度
从总方差中除去各可控因素所引起的方差后,剩余方差又可以准确地估计试验误差,作为统计假设检验的依据从总方差中除去各可控因素所引起的方差后,剩余方差又可以准确地估计试验误差,作为统计假设检验的依据 因此,方差分析可以帮助我们抓住试验的主要矛盾和技术关键,发现主要的变异来源,从而抓住主要的、实质性的东西 因此,方差分析是一种十分重要的统计工具 此外,方差分析还有其他十分重要的用途,例如用于遗传分析,估计参数等 方差分析中 F 分布的复习:
在一个总体中每次抽取两个样本,这两个样本的容量分别为 和 ,每个样本计算其均方 ,不断地抽样,就可以得到一系列的 ,这些 F值就形成了一个分布 F 分布是一簇曲线,每条曲线仅决定于 和 F 分布的平均数为 ,其分布范围为 本书附表 6 是不同自由度 、 下的右尾概率0.05、0.01 的概率值 下面我们按不同的数据结构来介绍方差分析方法
一、方差分析的基本假定 方差分析是建立在一些基本假定的基础上的 这些基本假定是: (一)处理效应和误差效应是可加的,即方差分析是建立在线性可加模型的基础上的: (二)试验误差是独立的随机变量,且呈正态分布: (三)所有处理的误差方差均为同质: 即:数据的可加性、正态性、同质性
二、数据的转换 一般情况下,我们所取得的数据能满足或基本满足这三个基本假定,但当数据不能或基本不能满足这三个基本假定时,就应当进行数据转换,使其满足这三个基本假定 数据转换有以下几种方法:
(一)平方根转换法(square root transformation) 当数据的平均值与均方成比例关系时,可将每一观测值 x作此类转换,即 当数据中有 0 或有接近于 0 的值时,取 如数据为间断性变量,或成数、且其中有>0.8、<0.2的值时 平方根转换的作用是减小极端大、或极端小的变量对均方的影响
(二)对数转换(logarithmic transformation) 数据表现为倍性、可乘性、或有比例关系(即非加性),为了消除这种倍性,可采用对数转换法 对数转换的作用是将这种倍性转换成加性 即 或
(三)反正弦转换法(arc sine transformation) 当资料为百分率,呈二项分布、且其中有些值>0.7、或 <0.3时,应作反正弦转换,即 但如果一批百分率均在0.3~0.7 之间,就不必转换 我们下面有几个例题就是经过了这一转换后才进行方差分析的 将数据资料作上述转换后进行方差分析,得出结果以后应将数据再反转换回来:
(四)采用小样本平均值作原始数据进行方差分析(mean of small sample) 由于小样本平均数比单个观测值更易于服从正态分布,因而采用小样本平均值作为观测值进行方差分析可有效地减小数据不符合基本假定对方差分析的影响 但这一方法必须在试验设计时即考虑到,即在试验时,将 2至 4个试验动物同一性状的数值组成一个平均值,当作一个原始数据来使用,因此每一水平或每一组合应当有若干个这样的小群体
三、数据方差的同质性检验 两个样本的方差相比较时,采用 F-test: 当样本组数 时,可用 -test 完成: 其中, 为合并均方
自由度为 为校正值 当 值显著时,即否定无效假设,表示各样本的均方间有显著或极显著的差异 当一批资料的方差不同质(即异质)时,这批资料就不能进行方差分析,而必须将数据分为几个同质的部分分别进行方差分析
例:IGF-Ⅰ影响绍兴鸭子 300日龄的产蛋量,得如下一级数据: 组 别 (<100ng/mL) 31 8.06 64.9636 (100~118) 33 17.62 310.4644 (>118ng/mL) 32 4.98 24.8004 93 (此处平均数略去) 怀疑该批资料的方差不齐性,因此应作方差齐性的检验
这批资料极其不同质,因此不能进行方差分析,即不能得到一个合并均方作为方差分析的误差均方这批资料极其不同质,因此不能进行方差分析,即不能得到一个合并均方作为方差分析的误差均方 又由于资料本身仅为 3个水平,找不到同质的部分,因此这批资料只能作废,试验宣告失败 下面应寻找原因,以利下次重做同类试验
第三节 单向分类资料的方差分析及其基本原理
所谓单向分类资料是指试验时仅考虑一个因素 A,除这一个被考虑的因素 A 之外,其余因素都控制在同一个水平上 这一个因素 A 被分出若干个等级(又称为组),每一个等级就称为因素 A 的水平
例如我们考察磺胺类药的疗效,其余药物如抗生素类药物我们就不考虑(或将其余药物控制在一个水平上),仅选择几种需要考察的磺胺类药进行比较例如我们考察磺胺类药的疗效,其余药物如抗生素类药物我们就不考虑(或将其余药物控制在一个水平上),仅选择几种需要考察的磺胺类药进行比较 这里,磺胺类药就是因素 A,所选择的几种磺胺类药就是水平:A1、A2、A3、…
又如,如果我们仅考察青霉素的疗效,那么其余药物我们都不考虑,仅将青霉素分为几种不同的剂量,那么青霉素就是因素 A,不同的青霉素剂量就是水平,如 A1:0IU、A2:100万IU、A3:200万IU、A4:300万IU、…
再如,考察不同品种猪抗哮喘病的能力,其余条件如气温、饲料、药物、管理等都一样,但猪的品种不同,猪的品种就是所考察的因素A,被我们所考察的每一个猪品种就是水平,如A1:大白猪、A2:北京黑猪、A3:太湖猪、A4:杜洛克猪、…再如,考察不同品种猪抗哮喘病的能力,其余条件如气温、饲料、药物、管理等都一样,但猪的品种不同,猪的品种就是所考察的因素A,被我们所考察的每一个猪品种就是水平,如A1:大白猪、A2:北京黑猪、A3:太湖猪、A4:杜洛克猪、… 这样的试验就是单向分组,所得到的结果就是单向分类资料(数据)
因素可以是数量型的,也可以是质量型的,如第一例中所考察的磺胺类药物和第三例中猪的品种就是质量型的,其划分的水平也是质量型的因素可以是数量型的,也可以是质量型的,如第一例中所考察的磺胺类药物和第三例中猪的品种就是质量型的,其划分的水平也是质量型的 第二例中青霉素的剂量就是数量型的,其划分的水平也是数量型的 单向分类资料又可以分为组内样本容量相等与组内样本容量不等两种情况
一、组内样本容量相等的单向分类资料 当每一组(每一个水平)内的试验动物相等,同时试验结束后每一组内的数据资料相等,这就是组内样本容量相等的情况
(一)数据结构和数学模型 方差分析是建立在一定的线性数学模型基础上的,所谓线性模型就是指每一个观测值都可以分割成若干个线性部分,这是方差分析中平方和、自由度剖分的理论依据 设从一个 中随机抽取一个样本,容量为 ,这一样本中每一观测值 都可以写成: 其中, 为一随机误差,且 如对这一总体施加效应为 的处理,则总体平均值为 ,方差仍为 ,因此, 这时, 仍无偏估计 , 仍无偏估计
如果将 的总体分成 个亚总体,每一亚总体给予一个效应为 的处理。则每一亚总体的平均值就是: 从每一亚总体中抽取样本容量均为 的样本,则我们有 个样本,这 个样本的数据结构为: 组别 观测值 和 总和 总平均 1 … … 2 … … …… … … …… … …
上表中任一观测值 均具有线性模型: 且 , ,而 (二)平方和及自由度的剖分 对于整批资料来讲,可以得到一个总的方差: 其中, 称为总平方和 称为总自由度
在第一个样本中,我们可得到: 在第二个样本中,我们可得到: 在第 个样本中,我们可得到: 在第 个样本中,我们可得到: 这 个平方和、自由度相加,就是误差项平方和、自由度:
样本间(或称处理间、组间)的变异就是这 个平均值 的变异,其平方和、自由度就是: 由于 估计的是 ,而 估计的是 为了正确地进行 F检验,必须使这两个均方都估计同一个 因此样本间的平方和应为:
现在我们来考察组成三个均方的三个平方和、三个自由度之间的关系现在我们来考察组成三个均方的三个平方和、三个自由度之间的关系 先考察第一个样本中每一观察值与总平均值的离差平方和: 同理:第 2个样本、…、第 个样本、…、第 个样本也有类似的等式:
将这 个样本的平方和加起来,就得到: 即:总平方和 = 组内平方和 + 组间平方和 或:总平方和 = 误差平方和 + 处理平方和 同理:
在实际计算时(中间过程请同学们作为作业自行推导):在实际计算时(中间过程请同学们作为作业自行推导): 其中:
(三)F 检验 由于 这两个均方同时独立地估计着总体方差 因此可用 来进行两个均方大小的检验 如果对各亚总体各施加的效应 不够大, 间的距离就拉不开,组间均方就不会显著大于组内均方,F 值就达不到显著水平 因此, 可用来检验无效假设 得到三个平方和、三个自由度后,可用表格的形式列出相应的均方(这就是方差分析表):
方差分析表 变异来源 处理间 误 差 总变异 总均方的作用不大,因此不需要在方差分析表中写出
校正值 需要注意的是: 但
例:组成 5 种不同的药物配伍治疗禽霍乱,每种药物配伍治疗 6 群鸡,试验结束后,统计每群鸡的死亡率,得如下数据(百分率),试分析哪种药物配伍的治疗效果好? 药物 观测值 Ⅰ 5.2 2.9 4.0 4.0 4.3 4.3 Ⅱ 3.2 2.5 3.6 3.2 1.9 4.3 Ⅲ 5.7 6.1 6.6 6.1 7.6 4.8 Ⅳ 7.1 4.3 5.2 3.6 5.7 5.2 Ⅴ 2.5 2.2 3.2 2.5 1.9 1.7
由于数据为百分率,且绝大部分为小于 0.3,因此应将其经过反正弦转换(为方便计算,所有数据经转换后再扩大 100 倍) 药物 观测值 Ⅰ 23 17 20 20 21 21 Ⅱ 18 16 19 18 14 21 Ⅲ 24 25 26 25 28 22 Ⅳ 27 21 23 19 24 23 Ⅴ 16 15 18 16 14 13
经计算,得一级数据如下: 药物 Ⅰ 122 2500 20.33 1.97 Ⅱ 106 1902 17.67 2.42 Ⅲ 150 3770 25.00 2.00 Ⅳ 137 3165 22.83 2.71 Ⅴ 92 1426 15.33 1.75
设 不全相等 画方差分析表,将三个平方和、三个自由度填入表中: 方差分析表 变异来源 不同药物间 4 360.54 90.135 18.65 2.76 4.18 误 差 25 120.83 4.83 总的(T) 29 481.37 在方差分析表中,“不同药物间”也可以写成“组间”、“处理间”等;“误差”也可以写成“药物内”等 总的 MS一般不必写出,因为总 MS 没有用 如果所得 F 值不显著,就不需要打什么标记
(四)多重比较 当所得 F 值显著、或极显著,表示从整体来讲药物间存在着极显著的差异,但是不是所有的药物都有极显著的差异?有没有差异不显著的两种药物?如何才能知道是哪两种药物间存在显著或极显著的差异? 因此我们必须进行多重比较
多重比较的方法很多,但总原则是: 首先构造比较用的显著尺度 第二步是将两个平均值的差数与相应的尺度相比较凡差值大于尺度的就是显著或极显著 多重比较的方法主要有:PLSD法、Q法、NK法、SSR法等
PLSD法就是在方差分析保护下的最小显著差数法,实际上就是 t-test法,但它是在方差分析显著以后进行的两两比较,它所使用的是方差分析中得到的组内均方,因此其尺度值公式是: 其中, 为组内自由度下 水平的临界值 为组内均方, 为每组样本容量 求得 后,将样本平均值两两求得差值,每一差值都与 相比较
Q法,又称固定极差法 其中, 为 表中组内自由度下与样本组数 相对应的 值,求得 值后,将样本平均数两两差数与之比较即可