1 / 48

第七章

第七章. 检验 ( 卡方检验 ). 本章主要介绍卡方检验的基本概念、独立性检验方法、适合性检验方法. 在科研工作和牧业生产中,我们经常会碰到许多质量性状方面的资料,这些资料可以转化成率后使用 t -test 方法进行检验,但这仅限于一个样本率与总体率的比较、两个样本率间的比较 除此之外,我们还可以用 检验来完成检验工作 特别当有多个样本进行比较时,必须用 检验来完成. 第一节 的概念. 在第四章中,我们讨论过 分布 有两个定义: 定义一: 定义二: 前一个定义是针对数量性状资料的 而后者主要是针对质量性状资料的.

nova
Download Presentation

第七章

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 第七章 检验 (卡方检验)

  2. 本章主要介绍卡方检验的基本概念、独立性检验方法、适合性检验方法本章主要介绍卡方检验的基本概念、独立性检验方法、适合性检验方法

  3. 在科研工作和牧业生产中,我们经常会碰到许多质量性状方面的资料,这些资料可以转化成率后使用 t-test 方法进行检验,但这仅限于一个样本率与总体率的比较、两个样本率间的比较 除此之外,我们还可以用 检验来完成检验工作 特别当有多个样本进行比较时,必须用 检验来完成

  4. 第一节 的概念

  5. 在第四章中,我们讨论过 分布 有两个定义: 定义一: 定义二: 前一个定义是针对数量性状资料的 而后者主要是针对质量性状资料的

  6. 在遗传学中,我们研究某一性状是否受一对等位基因的控制,该性状在后代的分离比例是否符合某种规律在遗传学中,我们研究某一性状是否受一对等位基因的控制,该性状在后代的分离比例是否符合某种规律 例1孟德尔的豌豆花试验(红花 705 朵、白花 224朵):这一分离是否符合他自己提出的 3:1 的分离比例的假设? 如果这一 3:1 的理论比例是正确的,那么这一试验所出现的红花和白花的理论比例应当是: 红花:696.75白花:232.25 观测值与理论值之间的差分别为: 红花:8.25 白花:-8.25

  7. 显然,实际出现的红花、白花的朵数与理论值之间有一定的差异(如何用 t-test 来完成这一检验?) 连续进行多次试验,每一次的结果都不会相同,每一次的结果都不会刚好符合理论值 可以这样设想:观察值与理论值之间的差距越小,表示试验结果与理论值越相符;反之,观察值与理论值之间的距离越大,表示试验结果与理论值越不符

  8. 当这一差值大到一定程度时,我们就可以认为豌豆花的颜色是不受一对等位基因控制的,可能是另外一种遗传模式当这一差值大到一定程度时,我们就可以认为豌豆花的颜色是不受一对等位基因控制的,可能是另外一种遗传模式 但如何来界定这种相符或不相符? 当我们将这两个差值相加,我们会发现其和为 0,可以说,任何类似的问题其结果都是 0: (705-696.75)+(224-232.25) = 8.25 +(-8.25)= 0

  9. 但若将差值平方后相加,其结果不会为 0 ,且由于平方,使得原来较大的差变得更大了,因而增大了分析问题的灵敏性 但由于每次试验的样本量不会相等,因而缺乏可比性,以理论值为标准进行比较,问题就解决了 上例中:红花: 白花: 两者之和:

  10. 2正常情况下,中国婴儿的性别比为:♂51:♀49 即每出生 100 个女婴,就有 103~105 个男婴 统计某地区连续 3 年的婴儿性别比,得:男婴 4691 人:女婴 4159 人,试问该地区的新生儿性别比正常吗? 我们用列表的方式检验之:

  11. 婴儿性别 实际值(O)理论值(E) O-E 男婴 4691 4513.5 177.5 6.98 女婴 4159 4336.5 -177.5 7.27 合计 8850 8850.0 0 14.25 显然,这一 值较大 ,有可能这一地区的婴儿出生性别比不太正常(请用 t-test 进行检验,看这一性别比是否符合常规性别比)

  12. 3长翅灰身(LLGG)的果蝇与残翅黑檀体(llgg)果蝇交配,其后代 F1全为长翅灰身(L-G-),F1自群繁育,结果出现了4种表现型: 长翅灰身(LLGG) ×残翅黑檀体(llgg) 长翅灰身(L-G-) 长灰(L-G-) 长黑(L-gg) 残灰(llG-) 残黑(llgg) 1477 493 446 143

  13. 现假定控制翅膀长度和身体颜色的两对基因是相互独立的,且都是显隐性关系,则四种类型的果蝇其比例应当是 9:3:3:1 现需验证这次试验的结果是否符合这一分离比例 首先求:1477 + 493 + 446 + 143 = 2559

  14. 以上三个例子都要求我们判断观测值与理论值之间是否相符,而我们都可以得到一个

  15. 检验的一般步骤: 首先作无效假设 其次计算 值 最后根据 值出现的概率判断无效假设是否成立 自由度不同, 分布是不同的 分布的自由度仅与性状的类别有关,而与次数无关 例 1 中有两类花,因此其自由度为 2 – 1 = 1 例 3 中有 4类果蝇,因此其自由度为 4-1 = 3,等等

  16. 当自由度为 1时, 检验应作连续性校正,校正的 检验公式记作 由于χ2分布是连续性分布,被检验的资料是离散型的分类资料,而从离散型资料得到的统计量只是近似地服从χ2分布,因此,为了保证有足够的近似程度,一般要求: ①理论频数不少于 5 ②自由度必须大于 1,当自由度为 1时,进行校正 质量性状的资料作 检验,有两种方法,下面分别进行讨论

  17. 第二节 适合性检验

  18. 适合性检验适用于某一实际资料是否符合一理论值,因此适合性检验常用于遗传学研究、质量鉴定、规范化作业、一批数据是否符合某种理论分布,等适合性检验适用于某一实际资料是否符合一理论值,因此适合性检验常用于遗传学研究、质量鉴定、规范化作业、一批数据是否符合某种理论分布,等 我们以例 3 来说明适合性检验的一般步骤

  19. 设立无效假设, 果蝇的分类观测值与理论值相符 两者不符 计算 值,前面已经得到 df = 4-1 = 3 查 值表,得 接受无效假设,即果蝇的这四种类型分离符合自由组合定律 9:3:3:1

  20. 例2的 值需重新计算,因为性别比只有两类,因此其自由度为 1,应作连续性校正 连续性校正公式是: 先作无效假设: 本例男女婴性别比符合常规比例 不符常规比例 计算 值 查 值表,得

  21. 否定无效假设,接受备择假设,即该地区婴儿出生的性别比极显著偏离正常性别比,应查找原因否定无效假设,接受备择假设,即该地区婴儿出生的性别比极显著偏离正常性别比,应查找原因 (例 1是否需要作连续性校正?) 上一章中关于鹅场鹅蛋受精率的例题是否可以用 检验?如果可以的话,是否需作连续性校正?(请同学们自行完成之)

  22. 又例:红色鲤鱼×瓦灰色鲤鱼 瓦灰色鲤鱼 红色鲤鱼 瓦灰色鲤鱼 (1738尾) (5504尾) 试分析其遗传规律 显然,从两代鲤鱼的体色变化,可以看出,红色为隐性,瓦灰色为显性,但是否是完全显隐性关系需做遗传学分析 假定这是一对完全显隐性基因在起作用,红色和瓦灰色应当是1:3的关系

  23. 设H0:鲤鱼体色分离比例为 1:3 VS HA:分离比例不符合 1:3 由于这里只有两种体色变化,因此 df = 2-1 = 1 需作校正性的χ2 检验: 首先求: 1738 + 5504 = 7242 7242÷4 = 1810.5 1810.5×3 = 5431.5 接受H0,即鲤鱼体色分离符合 1:3 的理论比例,说明鲤鱼的这一性状是完全的显隐性遗传关系

  24. 的分割 有时候,经 检验, 被推翻,而接受了 ,即表示整个资料不符合某一理论比例,但这总的 值不能反映是全部资料均不符合理论比例,还是其中部分资料不符合比例,因此我们应进行 值的分割 下面我们看一个例题

  25. 例:两对性状F2分离的四种表现型观测资料分别为154、43、53、6,试问该批资料是否符合 9:3:3:1? 该例的自由度为 4-1 = 3(不需要进行校正) 先计算理论次数:154 + 43 + 53 + 6 = 256 A-B-:144 A-bb:48 aaB-:48 aabb:16 设立无效假设(略)

  26. 否定无效假设,接受备择假设,即这批资料与设定的理论分离比例9:3:3:1不符是整批资料都不符?还是部分不符?否定无效假设,接受备择假设,即这批资料与设定的理论分离比例9:3:3:1不符是整批资料都不符?还是部分不符? 我们需作进一步的分析,因此应对 作分割 这种分割是建立在 具有可加性的特点上的 而这种可加性只有在次数资料各部分相互独立、且不作连续性校正的基础上才能成立 该例 的四个分值分别为: 0.694+0.521+0.521+6.25=7.986

  27. 显然,前面三个分值较小,因此先取前三部分的比例作 检验: 154+43+53=250 A-B-:150 A-bb:50 aaB-:50 无效假设(怎么设?) 接受无效假设,即这三部分资料的实际观测值符合9:3:3 的理论比例 再检查余下的aabb与这三部分之和是否符合1:15

  28. 前三部分之和(理论值):240 aabb:16 这说明aabb不符合理论比例 检验中的适合性检验一般要求样本量应大一些,样本较小会影响到检验的正确性,特别是当理论比例中有较小值时(上一例中的aabb),更应当注意样本容量,这一例即有样本偏小的倾向

  29. 第三节 独立性检验

  30. 独立性检验是检查两个变量、两个事件是否相互独立的这么一种检验独立性检验是检查两个变量、两个事件是否相互独立的这么一种检验 例如:猪舍消毒与否与猪病的发生是否有关? 若两者相互独立,即表示消毒无效:消毒后猪的发病率与没有消毒是一样的 如果消毒后猪的发病率显著降低了,表示猪的发病率与消毒与否这两者间是有关系的 因此,独立性检验的无效假设是两变量相互独立,其备择假设是两变量相关(即两者之间有依存关系)

  31. 在设立无效假设的前提下,计算 值,当 时,接受无效假设,即两变量相互独立 当 否定无效假设,接受备择假设,即两变量之间存在相关 独立性检验没有理论比率,因此必须用列表的方式从现有的观测值次数来推算理论比值 这种用表的方式来推算理论次数的方法是建立在两因子无关(两因子相互独立), 即两因子齐性的基础上的

  32. 下面我们分别各种情况来介绍独立性检验 一、2×2表 我们结合实际例子来说明这种表的使用 将苗鸡放进鸡舍前先将鸡舍消毒,检验消毒能否减轻苗鸡的发病情况 先作一试验,得数据如下: 发病 不发病 合计 消毒 300(a) 920(b) 1220 不消毒 580(c) 630(d) 1210 合计 880 1550 2430

  33. 这张表共2行、2列,因此称为2×2表 从这张表中我们可以看出,消毒的鸡舍中,有发病的苗鸡,也有不发病的苗鸡;没消毒的鸡舍中,苗鸡也有发病和不发病两种 假设鸡舍是否消毒不影响苗鸡的发病情况(这是无效假设的前提和内容),那么,消毒鸡舍和不消毒鸡舍中苗鸡的发病率应当是一样的,所产生的误差是抽样误差,即

  34. 得: 同样的道理,我们可得:

  35. 我们将上述理论值填入表格中: 发病 不发病 合计 消毒 300(441.81) 920(778.19) 1220 不消毒 580(438.19) 630(771.81) 1210 合计 880 1550 2430 表中,括弧内的就是理论值 需要注意的是,这种结构的 检验其自由度是横行数减 1 乘以纵列数减 1: 因此这里应该使用校正公式 计算 值 同学们先自行计算

  36. 设立无效假设 设 苗鸡的发病与鸡舍消毒与否无关(或:鸡舍消毒与否不影响苗鸡是否发病) 苗鸡的发病与鸡舍消毒与否有关(或:鸡舍消毒与否直接影响苗鸡的发病) 得: 否定无效假设,即鸡舍消毒与否极显著地影响着鸡的发病(或鸡的发病情况直接受鸡舍消毒与否的影响)

  37. 二、R×C表(R:行rowC:列column) R×C表是2×2表的扩展,反之, 2×2表也可以看成是R×C表的一个特例 当行>2、列>2时, 2×2表就成为了R×C表 这样的表称为列联表(contingency table) R×C表的自由度为(R-1)×(C-1) 实例:检查饲料能量的高低与鸡的合格是否有关,设计了如下试验:按不同方式分为三种饲料能量类型:A、B、C,统计不同能量类型下鸡的等级情况,得如下数据,试分析

  38. 等 能量类型 合 级 A B C计 甲 22( 9.32) 18(18.99) 16(17.68) 56 乙 18(16.56) 16(16.28) 14(15.16) 48 丙 11(13.11) 13(12.89) 14(12.0 ) 38 丁 8(10.01) 11( 9.84) 10( 9.16) 29 和 59 58 54 171 计算上表中各理论值(即括弧内的数值,如何计算?)

  39. 设 鸡的等级与饲养方式无关 鸡的等级与鸡苗的饲养方式有关 将计算得到的理论值填入上表中,并计算 值: 接受无效假设,即商品鸡的规格与饲料能量无显著关系

  40. 独立性检验的公式可以使用简易公式,即不需要计算理论值,但这种公式较难记忆,有兴趣的同学可参看教科书(生物统计学 P.202 ) 当样本容量很小(n<40、理论次数 E<5),进行2×2 表的检验时,我们可以使用精确概率计算法进行检验,由于小样本的情况不多,即使有小样本的情况,其分析结果的统计学意义也不大,因此这里我们不再作详细讲述 有兴趣的同学可以参看教科书 (生物统计学PP203~204)

  41. 第四节 理论分布的检验

  42. 我们有时候需要知道,某一个试验其结果是否符合某一理论分布,或希望知道符合什么样的理论分布,这关系到试验的结果是否正常或是否合理我们有时候需要知道,某一个试验其结果是否符合某一理论分布,或希望知道符合什么样的理论分布,这关系到试验的结果是否正常或是否合理 下面我们用一个实例来说明这种检验 显微镜下检查某奶样中结核菌的分布情况,根据视野内每个小方格中结核菌出现的数量进行统计,并将不同的结核菌数将格子归类,记录每类的格子数 结果见下表:

  43. 格子内结核 菌数(x) a 0 1 2 3 4 5 6 7 8 9 T 格子数 b 5 19 26 26 21 13 5 1 1 1 118 我们先计算每格子内结核菌数的加权平均值: 计算每一种结核菌数目的概率值 P(x)和理论格子数:

  44. 每一格内细菌数依次为 1、2、3、…的概率值和理论格子数分别为: …… 将每一类型的概率值和理论格子数填入表下,并计算 值:

  45. a 0 1 2 3 4 5 6 7 8 9 T b 5 19 26 26 21 13 5 1 1 1 118 c0.0510.151 0.225 0.224 0.167 0.100 0.050 0.029 0.008 0.003 1.00 d 5.98 17.83 26.59 26.44 19.71 11.76 5.85 2.49 0.93 0.31 118 e 0.159 0.077 0.013 0.007 0.084 0.131 0.123 0.142 上表中,a为前一表中的“格子内结核菌数(x)” ,b为格子数, c为概率值P(x),d为理论格子数,e为各个 值,最后一个值0.142是合并值 得 = 0.736 即该样本内结核菌的分布十分符合泊松分布

  46. 利用 分布,还可以对样本的方差进行同质性检验: 一个样本的方差与总体方差的同质性检验公式为: 两个样本的方差同质性检验公式为:

  47. 三个或以上样本的方差同质性检验公式为: 其中 为合并均方 为校正值 为自由度 (*)

  48. end

More Related