540 likes | 657 Views
第七章. 检验 ( 卡方检验 ). 本章主要介绍 - 检验的基本概念、卡方的分割、适合性检验、独立性检验. 在兽医临床和科研工作中,我们经常会碰到许多质量性状方面的资料,这些资料可以转化成率后使用 t -test 方法进行检验,但这仅限于一个样本率与总体率的比较、两个样本率间的比较 除此之外,我们还可以用 检验来完成检验工作 特别当有多个样本进行比较时,必须用 检验来完成. 第一节 的概念. 在第四章中,我们讨论过 分布 有两个定义: 定义一: 定义二: 前一个定义是针对数量性状资料的 而后者主要是针对质量性状资料的.
E N D
第七章 检验 (卡方检验)
本章主要介绍 -检验的基本概念、卡方的分割、适合性检验、独立性检验
在兽医临床和科研工作中,我们经常会碰到许多质量性状方面的资料,这些资料可以转化成率后使用 t-test 方法进行检验,但这仅限于一个样本率与总体率的比较、两个样本率间的比较 除此之外,我们还可以用 检验来完成检验工作 特别当有多个样本进行比较时,必须用 检验来完成
在第四章中,我们讨论过 分布 有两个定义: 定义一: 定义二: 前一个定义是针对数量性状资料的 而后者主要是针对质量性状资料的
在遗传学中,我们研究某一性状是否受一对等位基因的控制,该性状在后代的分离比例是否符合某种规律在遗传学中,我们研究某一性状是否受一对等位基因的控制,该性状在后代的分离比例是否符合某种规律 例1孟德尔的豌豆花试验(红花 705朵、白花224朵):这一分离是否符合他自己提出的 3:1 的分离比例的假设? 如果这一 3:1 的理论比例是正确的,那么这一试验所出现的红花和白花的理论比例应当是: 红花:696.75 白花:232.25 显然,实际出现的红花、白花的朵数与理论值之间有差异(如何用 t-test 来完成这一检验?)
连续进行多次试验,每一次的结果都不会相同,每一次的结果都不会刚好符合理论值连续进行多次试验,每一次的结果都不会相同,每一次的结果都不会刚好符合理论值 可以这样设想:观察值与理论值之间的差距越小,表示试验结果与理论值越相符 反之,观察值与理论值之间的距离越大,表示试验结果与理论值越不符 当这一差值大到一定程度时,我们就可以认为豌豆花的颜色是不受一对等位基因控制的,可能是另外一种遗传模式 但如何来界定这种相符或不相符?
当我们将这两个差值相加,我们会发现其和为 0 可以说,任何类似的问题其结果都是 0: (705 - 696.75)+(224 - 232.25)=0 差值的平方和相加,其结果不会为0了,且由于平方,使得原来较大的差变得更大了,因而增大了分析问题的灵敏性 但由于每次试验的样本量不会相等,因而缺乏可比性,以理论值为标准进行比较,问题就解决了
上例中:红花: 白花: 两者之和:
例2正常情况下,婴儿的性别比为:♂51:♀49 即每出生 100 个女婴,就有 103~105 个男婴 统计某地区连续3年的婴儿性别比,得:男婴4691人:女婴 4159人,试问该地区的新生儿性别比正常吗? 我们用列表的方式检查之: 婴儿性别 实际值(O) 理论值(E) O-E 男婴 4691 4513.5 177.5 6.98 女婴 4159 4336.5 -177.5 7.27 合计 8850 8850.0 0 14.25
显然,这一 值较大 ,有可能这一地区的婴儿出生性别比不太正常(请用 t-test 进行检验,看这一性别比是否符合常规性别比)
例3长翅灰身(LLGG)的果蝇与残翅黑檀体(llgg)果蝇交配,其后代F1全为长翅灰身,F1自群繁育,结果出现了 4 种表现型:长灰(1477)、长黑(493)、残灰(446)、残黑(143),现假定控制翅膀长度和身体颜色的两对基因是相互独立的,且都是显隐性关系,则四种类型的果蝇其比例应当是9:3:3:1 现需验证这次试验的结果是否符合这一分离比例 1477+493+446+143=2559
长翅灰身(LLGG)× 残翅黑檀体(llgg) 长翅灰身(L_G_) 长灰 长黑 残灰 残黑 (1477) (493) (446) (143)
检验的一般步骤: 首先作无效假设 其次计算 值 最后根据 值出现的概率判断无效假设是否成立 自由度不同, 分布是不同的 分布的自由度仅与性状的类别有关,而与次数无关,例1中有两类花,因此其自由度为 2-1=1 例3中有 4类果蝇,因此其自由度为 4-1=3,等等
当自由度为 1时, 检验应作连续性校正,校正的 检验公式记作 由于χ2分布是连续性分布,被检验的资料是离散型的分类资料,而从离散型资料得到的统计量只是近似地服从χ2分布,因此,为了保证有足够的近似程度,一般要求: ①理论频数不少于 5 ②自由度必须大于 1,当自由度为 1时,进行校正 质量性状的资料作 检验,有两种方法,下面分别进行讨论
适合性检验适用于某一实际资料是否符合一理论值,因此适合性检验常用于遗传学研究、质量鉴定、规范化作业、一批数据是否符合某种理论分布,等适合性检验适用于某一实际资料是否符合一理论值,因此适合性检验常用于遗传学研究、质量鉴定、规范化作业、一批数据是否符合某种理论分布,等 我们以例3 来说明适合性检验的一般步骤
设立无效假设, 果蝇的分类观测值与理论值相符 两者不符 计算 值,前面已经得到 df = 4 -1 = 3 查 值表,得 接受无效假设,即果蝇的这四种类型分离符合自由组合定律9:3:3:1
例 2 的 值需重新计算,因为性别比只有两类,因此其自由度为 1,应作连续性校正 连续性校正公式是: 先作无效假设 本例男女婴性别比符合常规比例 不符常规比例 计算 值
查 值表,得 否定无效假设,接受备择假设 即该地区婴儿出生的性别比极显著偏离正常性别比,应查找原因 (例1 是否需要作连续性校正?)
第六章中关于鱼药厂卖治疗鱼烂鳃病新药的例题是否也可以用 检验?如果可以的话,是否需作连续性校正?(请同学们自行完成之)
的分割 有时候,经 检验, 被推翻,而接受了 ,即表示整个资料不符合某一理论比例,但这总的 值不能反映是全部资料均不符合理论比例,还是其中部分资料不符合比例,因此我们应进行 值的分割,以便知道是那一部分资料不符合理论比例 下面我们看一个例题
两对性状F2分离的四种表现型观测资料分别为154、43、53、6两对性状F2分离的四种表现型观测资料分别为154、43、53、6 试问该批资料是否符合9:3:3:1? 该例的自由度为 4 – 1 = 3(不需要进行校正) 先计算理论次数:154 + 43 + 53 + 6 = 256 A-B-:144 A-bb:48 aaB-:48 aabb:16 设立无效假设(略)
否定无效假设,接受备择假设,即这批资料与设定的理论分离比例 9:3:3:1不符 是整批资料都不符?还是部分不符? 我们需作进一步的分析,因此应对 作分割 这种分割是建立在 具有可加性的特点上的,而这种可加性只有在次数资料各部分相互独立、且不作连续性校正的基础上才能成立
该例的四个分值分别为: 0.694 + 0.521 + 0.521 + 6.25 = 7.986 显然,前面三个分值较小,因此先取前三部分的比例作 检验: 154 + 43 + 53 = 250 A-B-:150 A-bb:50 aaB-:50
无效假设(怎么设?) 接受无效假设,即这三部分资料的实际观测值符合9:3:3 的理论比例 再检查余下的aabb与这三部分之和是否符合 1:15 前三部分之和(理论值):240 aabb:16
这说明 aabb 不符合理论比例 检验中的适合性检验一般要求样本量应大一些,样本较小会影响到检验的正确性,特别是当理论比例中有较小值时(上一例中的 aabb),更应当注意样本容量,这一例即有样本偏小的倾向
独立性检验是检查两个变量、两个事件是否相互独立的这么一种检验独立性检验是检查两个变量、两个事件是否相互独立的这么一种检验 例如:猪舍没有消毒与猪病的发生是否有关? 雏鹅群发生小鹅瘟与雏鹅群没有注射小鹅瘟血清是否有关? 鱼塘清塘与否与鱼病的发生是否有关?等等 若两者相互独立,即表示消毒、小鹅瘟血清注射、清塘无效;如果消毒后、小鹅瘟血清注射了、清塘了,发病率降低了,表示这两者是有关的
因此,独立性检验的无效假设是两变量相互独立,其备择假设是两变量相关(即两者有依存关系)因此,独立性检验的无效假设是两变量相互独立,其备择假设是两变量相关(即两者有依存关系) 在设立无效假设的前提下,计算 值,当 时,接受无效假设,即两变量相互独立;当 否定无效假设,接受备择假设,即两变量之间存在相关 独立性检验没有理论比率,因此必须用列表的方式从现有的观测值次数来推算理论比值,这种用表的方式来推算理论次数的方法是建立在两因子无关(两因子相互独立), 即两因子齐性的基础上的
下面我们分别各种情况来介绍独立性检验 一、 表 结合实际例子来说明这种表的使用 将鸡苗放进鸡舍前先将鸡舍消毒,能否减轻苗鸡的发病情况,在此之前先作一试验,得数据如下: 发病 不发病 合计 消毒 300(a) 920(b) 1220 不消毒 580(c) 630(d) 1210 合计 880 1550 2430
这张表共 2行、2列,因此称为 表 从这张表中我们可以看出,消毒的鸡舍中,有发病的鸡,也有不发病的鸡;没消毒的鸡舍中,鸡也有发病和不发病两种 假设鸡舍是否消毒不影响鸡的发病情况(这是无效假设的前提和内容),那么,消毒鸡舍和不消毒鸡舍中鸡的发病率应当是一样的,所产生的误差是抽样误差,即 得:
同样的道理,我们可得: 我们将上述数据制成一张表: 发病 不发病 合计 消毒 300(441.81) 920(778.19) 1220 不消毒 580(438.19) 630(771.81) 1210 合计 880 1550 2430
表中,括弧内的就是理论值 需要注意的是,这种结构的 检验其自由度是横行数减 1 乘以纵列数减 1: 因此这里应该使用校正公式 计算 值 (同学们先自行计算)
设立无效假设 设 鸡的发病与鸡舍消毒与否无关(或:鸡舍消毒与否不影响鸡是否发病) 鸡的发病与鸡舍消毒与否有关(或:鸡舍消毒与否直接影响鸡的发病) 得: 否定无效假设
即鸡舍消毒与否极显著地影响着鸡的发病(或鸡的发病情况直接受鸡舍消毒与否的影响)即鸡舍消毒与否极显著地影响着鸡的发病(或鸡的发病情况直接受鸡舍消毒与否的影响)
二、R×C表(R:行 C:列) R×C表是2×2表的扩展,反之, 2×2表也可以看成是R×C表的一个特例 当行>2、列>2时, 2×2表就成为了R×C表 这样的表称为列联表(contingency table) R×C表的自由度为(R-1)×(C-1) 实例:检查鸡的饲养密度与鸡的啄癖的发生是否有关,设计了如下试验:按密度大小分为三种饲养类型:疏、中、密,统计不同密度下鸡的啄癖的发生情况,得如下数据,试分析
疏 中 密 合计 啄癖数 1(a) 4(b) 17(c) 22 正常数 39(d) 66(e) 83(f) 188 合计 40 70 100 210 计算表中各理论值(字母处):
设 鸡的啄癖与饲养密度无关 鸡的啄癖与鸡的饲养密度有关 将上面计算得到的理论值填入表中,并计算 值: (试想一下,该例的自由度是多少?是否需要使用校正公式?) 疏 中 密 合计 啄癖数 1(4.19) 4(7.33) 17(10.48) 22 正常数 39(35.81) 66(62.67) 83(89.52) 188 合计 40 70 100 210
否定无效假设,接受备择假设,即鸡的啄癖的养成与鸡的饲养密度显著相关否定无效假设,接受备择假设,即鸡的啄癖的养成与鸡的饲养密度显著相关
上例中,我们可以看出,鸡的啄癖的形成与鸡的饲养密度高度相关,即饲养密度越大,养成啄癖坏习惯的鸡越多,鸡的成品率就越低,鸡场的效益就越差上例中,我们可以看出,鸡的啄癖的形成与鸡的饲养密度高度相关,即饲养密度越大,养成啄癖坏习惯的鸡越多,鸡的成品率就越低,鸡场的效益就越差 但反过来鸡的饲养密度越低,鸡舍的利用率也越低,这同样会影响鸡场的经济效益,因此并不是饲养密度越低就越好 因此我们还需要看看到底是哪种饲养密度影响了鸡的啄癖 因此我们还应对 值进行分割
先看疏和中的两类饲养密度 由于仅比较两类饲养密度,因此是2×2表,其自由度为1,因此应使用校正公式,我们先建表: 疏 中 合计 啄癖数 1(1.82) 4(3.18) 5 正常数 39(38.18) 66(66.82) 105 合计 40 70 110 设立无效假设(怎么设?)
接受无效假设,即疏和中这两种密度在鸡的啄癖坏习惯的形成上差异不显著接受无效假设,即疏和中这两种密度在鸡的啄癖坏习惯的形成上差异不显著 接着我们应对密度大的那一种进行检验 建表: 疏、中 密 合计 啄癖数 5(11.52) 17(10.48) 22 正常数 105(98.48) 83(89.52) 188 合计 110 100 210 设立无效假设(怎么设?)
否定无效假设,接受备择假设,即饲养密度大的那一组其啄癖数极显著的多,即饲养密度超过一定限度就会极显著影响鸡的啄癖习惯的形成否定无效假设,接受备择假设,即饲养密度大的那一组其啄癖数极显著的多,即饲养密度超过一定限度就会极显著影响鸡的啄癖习惯的形成
R>3、C>3的R×C表的检验方式与2×C表是一样的,这里我们不再举例(请参看书P104例6 - 8) 独立性检验的公式可以使用简易公式,即不需要计算理论值,但这种公式难记忆,我们不再作介绍(请参看书P101 )
我们有时候需要知道,某一个试验其结果是否符合某一理论分布,或希望知道符合什么样的理论分布,这关系到试验的结果是否正常或是否合理我们有时候需要知道,某一个试验其结果是否符合某一理论分布,或希望知道符合什么样的理论分布,这关系到试验的结果是否正常或是否合理 下面我们用一个实例来说明这种检验 显微镜下检查某奶样中结核菌的分布情况,根据视野内小方格中结核菌数进行统计,并将不同结核菌数将格子归类,记录每类的格子数 结果见下表:
格子内结核 菌数(x)a 0 1 2 3 4 5 6 7 8 9 T 格子数 b 5 19 26 26 21 13 5 1 1 1 118 我们先计算每格子内结核菌数的加权平均值: 计算每一种结核菌数目的概率值P(x)和理论格子数: