第七章卡平方 ( ) 测验

第七章卡平方( )测验 第一节卡平方( )的定义和分布第二节在方差同质性测验中的应用第三节适合性测验第四节独立性测验第五节的可加性和联合分析

第一节卡平方( )的定义和分布 所谓，是指相互独立的多个正态离差平方值的总和，即： (7·1) 其中，yi 服从正态分布，为标准正态离差。

yi不一定来自同一个正态总体，即及 可以是不同正态分布的参数。若通常所研究的对象属同一个总体，则，，从而 (7·2)

抽样分布的密度函数为 累积分布函数为分布的自由度为独立的正态离差的个数，此处 v =n ，其分布图形为一组具不同自由度 v 值的曲线(图7.1)。值最小为0，最大为+∞，因而在坐标轴的右面。自由度小时呈偏态，随着自由度增加，偏度降低，至+∞时，呈对称分布。该分布的平均数为 v ，方差为2v。

图7.1不同自由度的分布曲线

若所研究的总体不知，而以样本 代替，则 (7·3) 此时独立的正态离差个数为n－1个，故 v =n－1。

与u、t、F统计数的比较： • 按定义，当只有1个正态离差时 , • ，当s的自由度无限增大时，此时的 v =1。 • ，当的自由度无限增大时， v 为s12的自由度。

K.Pearson(1900)根据 的上述定义从属性性状的分布推导出用于次数资料(亦称计数资料)分析的公式： (7·4) 上式中O为观察次数，E为理论次数，i=1，…，k为计数资料的分组数，自由度为 v ，依分组数及其相互独立的程度决定，这种形式的分布图形与图7.1相同。值是多项 ui2 或 (O－E)2/E 之和，具有可加性。

第二节在方差同质性测验中的应用 一、一个样本方差与给定总体方差比较的假设测验可用来测验单个样本方差s2其所代表的总体方差和给定的总体方差值C是否有显著差异，简称为一个样本与给定总体方差的比较。在作两尾测验时有，对。其显著大于和小于C的值是> 和< ,此时，H0在显著水平上被否定。

[例7.1] 硫酸铵施于水田表层试验，得4个小区的稻谷产量为517、492、514、522(kg)，计得样本方差为175.6(kg)2。现要测验H0: 对HA: ，采用显著水平 =0.05。据可算得：查附表6，在 v =n－1=3时， /2和(1－ /2)水平的临界值为：，。现，大于，在0.22～9.35范围外，符合H0的概率小于0.05，H0被否定。结论:这一样本并非从的总体中所抽取的。

若测验该样本总体方差是否小于某给定总体方差C，则作一尾测验，即H0： ≤C对HA：＞C , 如果算得的＞，则否定H0，否则接受H0；这里应用分布的右边一尾。如果测验其是否大于C，则H0： ≥C对HA：＜C，若算得的＜，则否定H0；这是应用分布的左边一尾。

[例7.2] 试审查例7.1试验结果的总体方差是否真大于某一定值，如50(kg)2？这里试验的表面结果方差175.6(kg)2大于50(kg)2，要问其总体方差是否真正大，抑或并不大，甚至小于50(kg)2 测验假设H0： ≥50对HA：＜50。取5%为显著水平。查附表6，这一测验的临界值为，而计算的，因10.54＞0.35，所以H0应被接受，即总体方差并不小于50(kg)2。

根据，可应用分布由样本s2 给出一个总体置信区间, 在此区间内包括有总体的概率为( )，即 (7·5) 从而有： (7·6A) 已知，故(7·6A)又可记为： (7·6B)

[例7.3] 求例7.1资料总体的95%置信限。 因为，，，且已知 s2 =175.6，故对总体方差的95%置信限的下限L1和上限L2为：于是95%的置信限为：注: 这一置信限并不对称，即从L1到s2的距离不等于s2到L2的距离。

利用置信限也可做显著性测验，例7.1中给定总体的 ，在56.3～2394.5范围外，故亦推断两者非同一总体。标准差的置信限可进而算出为：即本例因较小，故方差置信限的区间甚大。一般n≤30时，单个样本方差用分布来测验和推断置信区间；n＞30时，分布近似对称，近似服从N(0，1)分布，因此，用u测验并进行区间估计。

二、几个样本方差的同质性测验 假定有3个或3个以上样本，每一样本均可估得一方差, 则由可测验各样本方差是否来自相同方差总体的假设，这称为方差的同质性测验( test for homogeneity among variances )，可写为H0： (k为样本数) 对HA：不全相等。这一测验方法由Bartlett氏(1937)提出，故又称为Bartlett测验( Bartlett test )，是一种近似的测验。

假如有k个独立的方差估计值： … , 各具个自由度，那么合并的方差为： (7·7)

由此，Bartlett 值为： (7·8) (7·9) 上式的，ni为样本容量，而C为矫正数： (7·10) 如采用常用对数，则(7·9)可写为 (7·11)

上述(7·8)如不用C进行矫正，亦近似地作 分布，具有；若所得值不显著，则不必再作矫正，应接受H0；若值与接近，应作矫正。如果算得的值＞，便否定H0，表明这些样本所属总体方差不是同质的。

[例7.4] 假定有3个样本方差s12=4.2, s22=6.0, s32=3.1，各具有自由度，，，试测验其是否同质。假设H0：对HA：3个方差不全相等(这里的HA不能用不等号表示，因为如H0被否定，只能推论3者不相等而并不能确定属于、、等情况的哪一种)。然后，在表7.1进行同质性测验的计算：

表7.13个方差同质性测验的计算

由表7.1可得：

查附表6，当时， >0.744的概率在0.50～0.75之间，符合H0的概率不小，因此说明本例的3个方差估计值是同质性的。实际应用上本例可不需再作C矫正，因为 =27.94960－27.14452=0.80508明显很小，直观已可判断不会显著。

第三节适合性测验 一、适合性测验的方法二、各种遗传分离比例的适合性测验三、次数分布的适合性测验

一、适合性测验的方法 例:玉米花粉粒中形成淀粉粒或糊精是一对相对性状。淀粉粒遇碘呈蓝色反应，因而可以用碘试法直接观察花粉粒的分离现象。某项实验观察淀粉质与非淀粉质玉米杂交的F1代花粉粒，经碘处理后有3437粒呈蓝色反应，3482粒呈非蓝色反应。根据遗传学理论可假设玉米花粉粒碘反应为1∶1，由此可以计得3437+3482=6916粒花粉中，蓝色反应与非蓝色反应的理论次数应各为3459.5粒。设以O代表观察次数，E代表理论次数，可将上列结果列成表7.2。

表7.2 玉米花粉粒碘反应观察次数与理论次数

此处要推论是否符合1∶1分离，只要看观察次数与理论次数是否一致，故可用 测验，可分为四个步骤：（1）设立无效假设，即假设观察次数与理论次数的差异由抽样误差所引起，即H0：花粉粒碘反应比例为1∶1与HA：花粉粒碘反应比例不成1∶1。（2）确定显著水平 =0.05。（3）在无效假设为正确的假定下，计算超过观察值的概率，这可由计得值后，按自由度查附表6得到。试验观察的值愈大，观察次数与理论次数之间相差程度也愈大，两者相符的概率就愈小。

（4）依所得概率值的大小，接受或否定无效假设 在实际应用时，往往并不需要计算具体的概率值。若实得 ≥ 时，则H0发生的概率小于等于，属小概率事件，H0便被否定；若实得＜时，则H0被接受。例如表7.2资料，查附表6，当时 =3.84 ，实得 =0.2926小于，所以接受H0。即认为观察次数和理论次数相符，接受该玉米F1代花粉粒碘反应比率为1∶1的假设。

然而按的定义 分布是连续性的，而次数资料则是间断性的。由间断性资料算得的值有偏大的趋势(尤其在时)，需作连续性矫正。其方法是：在度量观察次数相对于理论次数的偏差时，将各偏差的绝对值都减1/2，即|O－E|－1/2。矫正后的用表示，即 (7·12)

如表7.2资料的值为： =0.2798仍然小于 =3.84，结论与前相同。这是因样本较大，故与值的相差不大。一般的样本，尤其是小样本，在计算值时必须作连续性矫正，否则所得值偏大，容易达到显著水平。对 ≥2的样本，都可以不作连续性矫正。

当＞30时，分布已近于对称，而 的分布是正态的，具平均数和标准差1。因而，当＞30时可采用正态离差u测验代替测验，即如u≥1.64，即表示实得值有显著性。

二、各种遗传分离比例的适合性测验 [例7.5] 大豆花色一对等位基因的遗传研究，在F2获得表7.3所列分离株数。问这一资料的实际观察比例是否符合于3∶1的理论比值。表7.3 大豆花色一对等位基因遗传的适合性测验

H0：大豆花色F2分离符合3∶1比率；HA：不符合3∶1比率。H0：大豆花色F2分离符合3∶1比率；HA：不符合3∶1比率。显著水平 =0.05。由于该资料只有k=2组，，故在计算值时需作连续性矫正。由可得：查附表6，。现故应接受H0，说明大豆花色这对性状是符合3∶1比率，即符合一对等位基因的表型分离比例。

分离比例一类的适合性测验计算 时，也可以不经过计算理论次数，而直接得出 (7·13) 其中，A和a分别为显性组和隐性组的实际观察次数；n=A+a，即总次数。本例资料代入(7·13)有：与(7·12)算得的值相同。

对于仅划分为两组(如显性与隐性)的资料，如测验其与某种理论比率的适合性，则其 值皆可用类似(7·13)的简式求出。这些简式列于表7.4。表7.4测验两组资料与某种理论比率符合度的值公式

[例7.6] 两对等位基因遗传试验，如基因为独立分配，则F2代的四种表现型在理论上应有9∶3∶3∶1的比率。有一水稻遗传试验，以稃尖有色非糯品种与稃尖无色糯性品种杂交，其F2代得表7.5结果。试检查实际结果是否符合9∶3∶3∶1的理论比率。表7.5 F2代表型的观察次数和根据9∶3∶3∶1算出的理论次数

首先，按9∶3∶3∶1的理论比率算得各种表现型的理论次数E，首先，按9∶3∶3∶1的理论比率算得各种表现型的理论次数E，如稃尖有色非糯稻 E=743×(9/16)=417.94，稃尖有色糯稻 E=743×(3/16)=139.31，…。 H0：稃尖和糯性性状在F2的分离符合9∶3∶3∶1； HA：不符合9∶3∶3∶1。显著水平： =0.05。然后计算值

因本例共有k=4组，故 =k-1=3。查附表6， ,现实得 ,所以否定H0，接受HA，即该水稻稃尖和糯性性状在F2的实际结果不符合9∶3∶3∶1的理论比率。这一情况表明，该两对等位基因并非独立遗传，而可能为连锁遗传。

测验实际结果与9∶3∶3∶1理论比率的适合性，也可不经过计算理论次数而直接用以下简式测验实际结果与9∶3∶3∶1理论比率的适合性，也可不经过计算理论次数而直接用以下简式 (7·14) 上式中的a1、a2、a3、a4分别为9∶3∶3∶1比率中各项表现型的实际观察次数，n为总次数。如本例，可由(7·14)算得：前面的 =92.696，与此 =92.706略有差异，系前者有较大计算误差之故。

实际资料多于两组的值通式则为： (7·15) 上式的mi为各项理论比率，ai为其对应的观察次数。如本例，亦可由(7·15)算得与此一致。

三、次数分布的适合性测验 适合性测验还经常用来测验试验数据的次数分布是否和某种理论分布(如二项分布、正态分布等)相符，以推断实际的次数分布究竟属于哪一种分布类型。 [例7.7] 在大豆品种Richland田间考察单株粒重的变异是否符合正态分布。考查数据归成次数分布表列于表7.6，组距为5g，该分布的次数n、平均数、标准差s均列于表基部。

表7.6 大豆单株粒重观察分布与理论正态分布的适合性测验 (摘自Steel and Torrie，1980)(单位：g)

测验的假设为H0：观察分布符合理论分布，HA：观察分布不符合理论分布。 按理论分布计算出各组的理论次数(E)，此例中正态分布下的理论次数可先计算出各组限的正态离差及其理论频率(P)，乘以总观察次数(n)便得到各组的理论次数。例如第1组第2组 P(5.5≤y＜10.5)=P(－2.065≤u＜－1.674) =0.0471－0.0195=0.0276 相应的理论次数E，第一组为0.0195×229=4.5；第二组为0.0276×229=6.3

其他各组按同法计算后均列入表7.6。 自由度 =14－1－2=11，因扣去组数的自由度1个，估计2个参数和的自由度2个。查附表6，为11时 =10.47的概率P在0.25～0.50范围内，观察分布与理论分布无显著差异，因而接受H0，说明大豆单株粒重的分布符合正态分布。

用于进行次数分布的适合性测验时有一定的近似性，为使这类测验更确切，一般应注意以下几点： (1)总观察次数n应较大，一般不少于50。 (2)分组数最好在5组以上。 (3)每组理论次数不宜太少，至少为5，尤其首尾各组。若组理论次数少于5，最好将相邻组的次数合并为一组。但Cochran认为头尾二组最小理论次数在0.5或1时也可不合并。

例7.7中尾端三组理论次数均较少，若将后三组合并，则例7.7中尾端三组理论次数均较少，若将后三组合并，则 P(55.5≤y＜70.5)=P(1.841≤u＜3.013) =0.9887-0.9671=0.0316 该组理论次数为 0.0316×229=7.27, (O－E)2/E=(10－7.27)2/7.27=1.025 =12－3=9，查附表6，为9时 =10.425的概率P在0.25～0.50范围内，结论同前。

第四节独立性测验 应用进行独立性测验的无效假设是： H0：两个变数相互独立，对HA：两个变数彼此相关。计算过程: (1)将所得次数资料按两个变数作两向分组，排列成相依表； (2)根据两个变数相互独立的假设，算出每一组格的理论次数； (3)由算得值。

这个的自由度随两个变数各自的分组数而不同，设横行分r组，纵行分c组，则 =(r－1)(c－1)。当观察的时，便接受H0，即两个变数相互独立；当观察的时，便否定H0，接受HA，即两个变数相关。独立性测验方法的各种类型一、2×2表的独立性测验二、2×C表的独立性测验三、r×c表的独立性测验

一、2×2表的独立性测验 一、2×2表的独立性测验 2×2相依表是指横行和纵行皆分为两组的资料。在作独立性测验时，其 =(2－1)(2－1)=1，故计算值时需作连续性矫正。

[例7.8] 调查经过种子灭菌处理与未经种子灭菌处理的小麦发生散黑穗病的穗数，得相依表7.7，试分析种子灭菌与否和散黑穗病穗多少是否有关。表7.7 防治小麦散黑穗病的观察结果

第七章 卡平方 ( ) 测验