890 likes | 1.19k Views
第八章. 方差分析. 本章主要介绍方差分析的基本原理,单因子资料的方差分析方法,两因子资料的方差分析方法,方差分析的基本假定和数据转换. 第一节 方差分析的基本概念. 第六章中,我们已经介绍了两个样本所属总体平均值的假设检验可用 t -test 或 u -test 来检验其差异性 但在大多数情况下,我们的试验有 3 个或 3 个以上的样本(组)需要进行比较 如果这许多样本都只和对照组相比,我们仍然可以使用 t -test 或 u -test 进行,但如果需要样本之间两两相比较的话,就不能使用 t -test 或 u -test 进行比较
E N D
第八章 方差分析
本章主要介绍方差分析的基本原理,单因子资料的方差分析方法,两因子资料的方差分析方法,方差分析的基本假定和数据转换本章主要介绍方差分析的基本原理,单因子资料的方差分析方法,两因子资料的方差分析方法,方差分析的基本假定和数据转换
第六章中,我们已经介绍了两个样本所属总体平均值的假设检验可用 t-test 或 u-test 来检验其差异性 但在大多数情况下,我们的试验有 3 个或 3 个以上的样本(组)需要进行比较 如果这许多样本都只和对照组相比,我们仍然可以使用 t-test 或 u-test 进行,但如果需要样本之间两两相比较的话,就不能使用 t-test 或 u-test 进行比较 其理由有以下几个:
1、当有k个样本所属总体的平均值相互两两比较,就需作 次比较,即作 假设检验 例如有10个样本平均值相比较,即需作 次比较,其工作量相当繁琐 2、假定每一样本的容量均为 n,那么如果我们用 t-test 来作两两比较时,每一差数的标准误就都只能由 2(n-1) 来估计,而不能用总自由度 k(n-1) 来估计总的标准误,这就使得误差估计的精确度受到一定的损失,即我们不能充分使用试验中所有的信息量,这是十分可惜的
3、这种两两比较会随着样本组数的增加而加大犯Ⅰ型错误的概率3、这种两两比较会随着样本组数的增加而加大犯Ⅰ型错误的概率 假定我们要比较 5 个样本平均数,两两比较就会有 个差数,对这 10个差数如果我们都以 进行假设检验,单独对每一差数进行检验时,每一差数获得正确结论的概率就是 但这10个差数在一起进行比较、且都获得正确结论的概率就只有
因此在 10个两两比较中至少出现一个错误结论的概率就不再是 ,而是: 这么大的犯错率无论如何是不能容忍的 这说明,当有多个样本相比较时,如果仍然采用 t-test法,就大大地增加了犯Ⅰ型错误的概率 因此此时再用 t-test 法进行检验就不恰当了 如何对 k>2 个样本进行假设检验? 这就是本章所要讨论的方差分析
什么叫方差? 方差是对数据(或称资料)变异的度量 方差的公式: 总体: 样本: 一般总体方差称方差,样本方差称均方 能使变量发生变异的原因很多,这些原因我们都将其称为变异因素或变异来源 方差分析就是发现各类变异因素相对重要性的一种方法
方差分析的思路就是:把整个试验(设有k个总体)的样本资料作为一个整体来考虑方差分析的思路就是:把整个试验(设有k个总体)的样本资料作为一个整体来考虑 把整个试验的总变异按照变异的来源分解成不同因素的变异 由于方差等于平方和除以自由度,因此总方差分解成各因素的方差,就是将形成总方差的平方和及自由度分解为各因素的平方和和自由度 然后对各个因素的方差作出数量上的估计,从而发现各个因素的方差(变异)的相对重要程度
从总方差中除去各可控因素所引起的方差后,剩余方差又可以准确地估计试验误差,作为统计假设检验的依据从总方差中除去各可控因素所引起的方差后,剩余方差又可以准确地估计试验误差,作为统计假设检验的依据 因此,方差分析可以帮助我们抓住试验的主要矛盾和技术关键,发现主要的变异来源,从而抓住主要的、实质性的东西 因此,方差分析是一种十分重要的统计工具 此外,方差分析还有其他十分重要的用途,例如用于遗传分析,估计参数等 方差分析中 F-分布的复习:
在一个总体中每次抽取两个样本,这两个样本的容量分别为 和 ,每个样本计算其均方 ,不断地抽样,就可以得到一系列的 ,这些 F值就形成了一个分布 F-分布是一簇曲线,每条曲线仅决定于 和 F-分布的平均数为 ,其分布范围为 本书附表 5 是不同自由度 、 下的右尾概率0.05、0.01的概率值 下面我们按不同的数据结构来介绍方差分析方法
一、方差分析的基本假定 方差分析是建立在一些基本假定的基础上的 这些基本假定是: (一)处理效应和误差效应是可加的,即方差分析是建立在线性可加模型的基础上的: (二)试验误差是独立的随机变量,且呈正态分布: (三)所有处理的误差方差均为同质: 即:数据的可加性、正态性、同质性
二、数据的转换 一般情况下,我们所取得的数据能满足或基本满足这三个基本假定,但当数据不能或基本不能满足这三个基本假定时,就应当进行数据转换,使其满足这三个基本假定 数据转换有以下几种方法: (一)平方根转换法(square root transformation) 当数据的平均值与均方成比例关系时,可将每一观测值 x 作此类转换,即 当数据中有 0 或有接近于 0 的值时,取
如数据为间断性变量,或成数、且其中有>0.8、<0.2的值时如数据为间断性变量,或成数、且其中有>0.8、<0.2的值时 平方根转换的作用是减小极端大、或极端小的变量对均方的影响 (二)对数转换(logarithmic transformation) 数据表现为倍性、可乘性、或有比例关系(即非加性),为了消除这种倍性,可采用对数转换法 对数转换的作用是将这种倍性转换成加性 即 或
(三)反正弦转换法(arc sine transformation) 当资料为百分率,呈二项分布、且其中有些值>0.7、或<0.3时,应作反正弦转换,即 但如果一批百分率均在0.3~0.7之间,就不必转换 下面有几个例题就是经过了这一转换后才进行方差分析的
将数据资料作上述转换后进行方差分析,得出结果以后应将数据再反转换回来:将数据资料作上述转换后进行方差分析,得出结果以后应将数据再反转换回来:
(四)采用小样本平均值作原始数据进行方差分析(mean of small sample) 由于小样本平均数比单个观测值更易于服从正态分布,因而采用小样本平均值作为观测值进行方差分析可有效地减小数据不符合基本假定对方差分析的影响 但这一方法必须在试验设计时即考虑到,即在试验时,将2至4个试验动物同一性状的数值组成一个平均值,当作一个原始数据来使用,因此每一水平或每一组合应当有若干个这样的小群体
三、数据方差的同质性检验 两个样本的方差相比较时,采用F-test: 当样本组数 时,可用 -test完成: 其中, 为合并均方 自由度为 为校正值
当 值显著时,即否定无效假设,表示各样本的均方间有显著或极显著的差异 当一批资料的方差不同质(即异质)时,这批资料就不能进行方差分析,而必须将数据分为几个同质的部分分别进行方差分析
例:某些生殖激素影响蛋鸡的产蛋量,得如下一级数据:例:某些生殖激素影响蛋鸡的产蛋量,得如下一级数据: 组 别 (<100ng/mL) 31 8.06 64.9636 (100~118) 33 17.62 310.4644 (>118ng/mL) 32 4.98 24.8004 93 (此处平均数略去) 怀疑该批资料的方差不齐性,因此应作方差齐性的检验:
这批资料不同质,因此不能进行方差分析,即不能得到一个合并均方作为方差分析的误差均方这批资料不同质,因此不能进行方差分析,即不能得到一个合并均方作为方差分析的误差均方 又由于资料本身仅为3个水平,找不到同质的部分,因此这批资料只能作废,试验宣告失败 应寻找原因,以利下次重做同类试验
第三节 单向分类资料的方差分析及其基本原理
所谓单向分类资料是指试验时仅考虑一个因素 A,除这一个被考虑的因素 A 之外,其余因素都控制在同一个水平上 这一个因素 A 被分出若干个等级(或梯度,又称为组),每一个等级就称为因素 A 内的一个水平 例如我们考察不同蛋白质种类的饲养效果,其余营养物质如能量、矿物质等试验者将其控制在同一个水平上,试验时仅选择几种需要考察的蛋白质进行比较,如豆粕蛋白、鱼粉、酵母蛋白、等 这里,蛋白质种类就是因素 A,所选择的几种蛋白质就是水平:A1、A2、A3、…
又如,如果我们仅考察钙的营养效果,其余矿物质我们都不考虑,仅将钙分为几种不同的剂量,那么钙就是因素 A,不同的钙剂量就是水平,如A1:0g、A2:0.1g、A3:0.2g、A4:0.3g、… 再如,考察不同品种猪的适应能力,其余条件如气温、饲料、药物、管理等都一样,但猪的品种不同,猪的品种就是所考察的因素A,被我们所考察的每一个猪的品种就是水平,如A1:长白猪、A2:大约克猪、A3:杜洛克、A4:太湖猪、… 这样的试验就是单向分组,所得到的结果就是单向分类资料(数据)
因素可以是数量型的,也可以是质量型的,如第一例中所考察的蛋白质种类和第三例中猪的品种就是质量型的,其划分的水平也是质量型的因素可以是数量型的,也可以是质量型的,如第一例中所考察的蛋白质种类和第三例中猪的品种就是质量型的,其划分的水平也是质量型的 第二例中钙的剂量就是数量型的,其划分的水平也是数量型的 单向分类资料又可以分为组内样本容量相等与组内样本容量不等两种情况
一、组内样本容量相等的单向分类资料 当每一组(每一个水平)内的试验动物相等,同时试验结束后每一组内的数据资料也相等,这就是组内样本容量相等的情况 (一)数据结构和数学模型 方差分析是建立在一定的线性数学模型基础上的,所谓线性模型就是指每一个观测值都可以分割成若干个线性部分,这是方差分析中平方和、自由度剖分的理论依据
设从一个 中随机抽取一个样本,容量为 ,这一样本中每一观测值 都可以写成: 其中, 为一随机误差,且 如对这一总体施加效应为 的处理,则总体平均值为 ,方差仍为 ,因此, 这时, 无偏估计 , 无偏估计
如果将 的总体分成 个亚总体,每一亚总体给与一个效应为 的处理。则每一亚总体的平均值就是: 从每一亚总体中抽取样本容量均为 的样本,则我们有 个样本,这 个样本的数据结构为: 样本 观测值 和 总和 总平均 1 … … 2 … … …… … … …… … …
上表中任一观测值 均具有线性模型: 且 , ,而 (二)平方和及自由度的剖分 对于整批资料来讲,可以得到一个总的方差: 其中, 称为总平方和 称为总自由度
在第1个样本中,我们可得到: 在第2个样本中,我们可得到: 在第 个样本中,我们可得到: 在第 个样本中,我们可得到: 这 个平方和、自由度相加,就是误差项平方和、自由度:
样本间(或称处理间、组间)的变异就是这 个平均值 的变异,其平方和、自由度就是: 由于 估计的是 ,而 估计的是 为了正确地进行F检验,必须使这两个均方都估计同一个 因此样本间的平方和应为:
现在我们来考察组成三个均方的三个平方和、三个自由度之间的关系现在我们来考察组成三个均方的三个平方和、三个自由度之间的关系 先考察第一个样本中每一观测值与总平均值的离差平方和:
同理:第2个样本、…、第 个样本、…、第 个样本都有类似的等式: 将这 个样本的平方和加起来,就得到: 即:总平方和 = 组内平方和 + 组间平方和 或:总平方和 = 误差平方和 + 处理平方和 同理:
在实际计算时我们使用如下公式(中间过程请同学们自行推导):在实际计算时我们使用如下公式(中间过程请同学们自行推导): 其中:
(三)F 检验 由于 这两个均方同时独立地估计着总体方差 因此可用 来进行两个均方大小的检验 如果对各亚总体各施加的效应 不够大, 间的距离就拉不开,组间均方就不会显著大于组内均方,F 值就达不到显著水平 因此, 可用来检验无效假设
得到三个平方和、三个自由度后,可用表格的形式列出相应的均方(这就是方差分析表):得到三个平方和、三个自由度后,可用表格的形式列出相应的均方(这就是方差分析表): 方差分析表 变异来源 处理间 误 差 总变异
这张方差分析表中,总变异的作用不大,因此不需要写出这张方差分析表中,总变异的作用不大,因此不需要写出 校正值 需要注意的是: 但
例:分析 5 个品种猪的某一与生长有关的基因的表达量,每个品种随机抽取 6 头猪进行测试,试验结束后,得如下数据,试分析这 5 个品种猪这一基因表达量的差异 品种 表达量 Ⅰ 13 9 14 11 9 10 Ⅱ 1415 18 19 18 21 Ⅲ 1720 21 20 19 23 Ⅳ 1518 14 14 12 17 Ⅴ 12913 11 16 14
经计算,得一级数据如下: 品种 Ⅰ 66 748 11.0 4.4 Ⅱ 105 1871 17.5 6.7 Ⅲ 120 2420 20.0 4.0 Ⅳ 90 1374 15.0 4.8 Ⅴ 75 967 12.5 5.9
设 不全相等 画方差分析表,将三个平方和、三个自由度填入表中: 方差分析表 变异来源 不同品种间 4 319.8 79.95 15.49 2.76 4.18 误 差 25 129.0 5.16 总的(T) 29 448.8 在方差分析表中,“不同品种间”也可以写成“组间”、“处理间”等;“误差”也可以写成“品种内”等 总的 MS 一般不必写出,因为总 MS 不起作用 如果所得 F 值不显著,就不需要打什么标记
(四)多重比较 当所得F值显著、或极显著,表示从整体来讲品种间存在着极显著的差异,但是不是所有的品种都有差异?有没有差异不显著的两个品种?如何才能知道是哪两种品种间存在显著或极显著的差异? 因此我们必须进行多重比较 多重比较的方法很多,但总原则是: 首先构造比较用的显著尺度 第二步是将两个平均值的差值与相应的尺度相比较凡差值大于尺度的就是显著或极显著
多重比较的方法主要有:PLSD法、Q法、NK法、SSR法等多重比较的方法主要有:PLSD法、Q法、NK法、SSR法等 PLSD法就是在方差分析保护下的最小显著差数法,实际上就是 t-test 法,但它是在方差分析显著的基础上进行的两两比较,它所使用的是方差分析中得到的组内均方,因此其尺度值公式是: 其中, 为组内自由度下 水平的临界值 为误差均方, 为每组样本容量
求得 后,将样本平均值两两求得差值,每一差值都与 相比较
Q法,又称固定极差法 其比较用的尺度为: 其中, 为 表中组内自由度下与样本组数 相对应的 值,求得 值后,将样本平均数两两差数与之比较即可
NK法,又称 q法,这一方法是公认比较客观的方法 其中, 又常写为 为组内均方, 为每组样本容量 为组内自由度下不同极差值 下的 值 Q 法与 NK 法的共同点是都使用 q 表,计算公式相同,其不同点是 Q法只求一个最大的 值,因此比较时仅有一个标准 而 NK 法则根据平均数的距离分别设置不同的临界值,因此不同距离的平均数之差的比较标准不同
下面我们以上面这一例题来说明具体的比较方法下面我们以上面这一例题来说明具体的比较方法 第一步,我们求SE值: 以误差项自由度查 q 表(注意该表的结构),该例题共有5个品种,因此R(rang)应从2一直查到 5 的 和 值 将SE值和这些 值相乘,得相应的 值,即: 并建表
第二步,进行平均数的比较 各样本平均数的比较,有好多种方法,这里主要介绍上三角形表示法和字母表示法 1、上三角形表示法: 将平均数按从大到小的次序排列,逐个减去最小的平均值,然后减去次小的平均值…等等 建立一个左上三角形的差值表