第七章非参数统计

第七章非参数统计 非参数统计（亦称非参数检验），是根据样本资料对总体的某种性质或关系进行假设检验的统计推断方法。主要特点不要求总体分布已知或对总体分布作任何限制性假定；不以估计总体参数为目的；能适用于定性变量中的定类数据或定序数据,也能适用于定距数据和定比数据这种定量变量方法直观，易于理解，运算比较简单。缺点是检验的功效不如参数检验方法。

χ2检验 主要内容成对比较检验曼—惠特尼U检验游程检验等级相关检验

χ2检验 一、什么是χ2检验 χ2检验是利用随机样本对总体分布与某种特定分布拟合程度的检验，也就是检验观察值与理论值之间的紧密程度。设有k（K＞2）个观察值，f0为它们的实际频数，fe为理论频数。构造一个统计量其中，k-1为自由度。皮尔生定理表明，当样本容量充分大时，样本分成K类，则χ2统计量服从χ2分布。自由度为k-1

二、应用 1、拟合优度检验利用样本信息对总体分布作出推断，检验总体是否服从某种理论分布（如二项分布、均匀分布或正态分布等）。检验步骤对总体分布建立假设 H0：总体服从某种理论分布 H1：总体不服从该理论分布抽样并对样本资料编成频数分布，形成k个互斥的类型组。（f0）计算检验统计量以“原假设H0为真”导出一组期望频数（fe）比较χ2值与临界值作出检验判断

自由度（df）＝k-1-m。 其中k为组数。（各组理论频数不得小于5，如不足5，可合并相邻的组，如需合并，则k为合并后的组数） m为计算理论频数时所估计参数的个数。（未指定总体的参数，需要观察值计算相应的统计量，作为未参数的估计值）。

二、应用 2、独立性检验用于判断两个变量是否存在交互影响。如果两个变量不存在交互影响，就称为独立，所以这类检验也称为独立性检验。检验步骤对总体的两个变量建立假设 H0：两变量独立 H1：两变量关联将样本资料编成r×c列联表，并列出实际频数Oij 计算检验统计量计算理论频数比较χ2值与临界值作出检验判断

要点说明 • 列联表形式（r×c） x 列（c） y 合计 1 2 3 … c O11 O21 O31 . . . Or1 O13 O23 O33 . . . Or3 1 2 3 . . . r O12 O22 O32 . . . Or2 O1c O2c O3c . . . Orc O1 O2 O3 . . . Or … … … . . . … 行（r） y的边缘频数合计 n.1 n.2 n.3 … n.c n X的边缘频数

理论频数Eij的计算 先求理论频率（作为概率的近似）。概率论中关于概率独立的基本规则：如果两事件独立，则它们的联合概率等于它们各自概率的乘积，P（A·B）=P（A）·P（B）。因此，某一行某一列的联合概率： df=(r-1)(c-1) • 自由度（df）的确定

r·c=2×2的列联表资料，χ2值简算公式 x 1 2 合计 y a b a+b 1 c+d 2 c d 合计 a+c b+d n

成对比较检验 是对两个相关样本的比较分析。有符号检验和威尔科克森带符号的等级检验两种方法。符号检验也称正负号检验，其基本思想是分析正负号出现的频率而忽略具体量的差异，以确定他们是否有显著差异的一种检验方法。

检验步骤 1.确定配对样本，分别计算差异正与负的数目，无差异则记为0，将它从样本中剔除，并相应地减少样本容量n，把正负号数目之和视为样本总个数(n)。 2.建立假设：H0： p=0.5 ； H1：p≠0.5 3.观察样本容量，如果n≤25，则作为二项分布处理如果n＞25，则作为正态近似处理。 4.设定显著性水平α，并查表确定临界值，进行比较和作出判断。

例 1：随机抽取12个单位，放映一部描述吸烟有害健康的影片，并调查得到观看电影前后各单位职工认为吸烟有害的人数的百分比。检验该电影宣传是否有效果（α=0.05）。解：H0：P=0.5 H1：P > 0.5 P（0）=0.0002， P（1）=0.0030， P（2）=0.0161， P（3）=0.0537 P（0）+P（1）+P(2)=0.0193＜0.05 P（3）+0.0193＝0.0537＋0.0193=0.073>0.05

可见，拒绝域应为0，1，2。 0 1 2 3 4 5 6 7 8 9 10 11 12 拒绝域现检验统计量（-）=3 （即3个负号），0.073＞0.05所以，原假设H0：P=0.5在5%显著性水平上不能被拒绝。也即不能认为职工在观看影片前后的认识有显著提高。

例2：随机抽取60名消费者对甲、乙两种品牌的饮料评 分，甲、乙得分之差为“+”号者35个，“-”号15 个，“0”号10个。以显著性水平α=0.05检验两种饮料是否同等受欢迎。解：H0：P=0.5， H1：P≠0.5 ∵n＞25，∴按正态分布近似处理该成数抽样分布的均值和标准差分别为 2.82＞1.96，所以，拒绝原假设。认为两种饮料并不受到同等欢迎。且乙种优于甲种。

威尔科克森带符号的等级检验 这种检验方法不仅考虑了两组数据差异的正、负号，而且还利用了其差异大小的信息。因此，是一种更为有效的检验方法。 1、应用条件和检验内容与符号检验相同。 2、方法思想：若关联样本的两组数据没有显著差异，则不仅其差异的正、负符号应大致相等，而且将其差的数值按大小顺序排列编自然序号（即秩）后，它们的正号（+）的秩和（记为T+）与负号（-）的秩和（记为T-）也应该大致相等。其中之较小者也应趋近于总秩和的平均数（）。若正秩和（T+）与负秩和（T-）相差太大，其中较小者偏离总秩和的平均（）较远，以致超过给定显著性水平α所确定的临界点，就可以认为这两组数据存在显著差异，即总体的分布不相同。

检验步骤 将样本数据配对并计算各对正负差值将差数取绝对值按从小到大顺序排列并编上等级，即确定顺序号1、2、3等。对于相等的值，则取其位序的平均数为等级建立假设：H0：T+= T-； H1： T+ ≠T-(双侧) H1：T+＞T-或T+＜T-(单侧) 计算检验统计量: 当n>25时当n≤25时，取T+、T-中之小者

设定α，并查表确定临界值Tα(或Zα/2) 比较检验值与临界值作出判断，对于n≤25，T≤Tα，拒绝H0； T＞Tα，接受H0 接受区域 Tα=5 =22.5 Tα=40 拒绝区域拒绝区域

曼—惠特尼U检验 曼—惠特尼U检验适用于从两个总体中分别独立抽取两个样本的检验，方法思想与威尔科克森秩和检验相同。检验步骤：从总体A、B中分别独立抽取样本nA和nB，将（nA+nB）个观察值从小到大编序分别计算两个样本，的秩和TA和TB 建立假设H0：两总体A和B相对次数分布相同 H1：两总体相对次数分布不同

计算检验统计量 ①nA、nB＜10时，取UA、UB中小者 UA= nAnB+ nA（nA +1）/2-TA UB= nAnB+ nB（nB +1）/2-TB ②nA、nB＞10时设定显著性水平α，查U表或Z表得到临界值比较统计量与临界值，作出判断，对于nA、nB＜20 U≤Uα，拒绝H0， U＞Uα，接受H0

游程检验 一、什么是游程检验游程检验（亦称连贯检验）是根据样本标志表现排列所形成的游程的多少进行判断的检验方法。设某样本n=12人的标志表现为男、女，有以下三种排列。 (i) 男，男，女，女，女，男，女，女，男，男，男，男 (ii) 男，男，男，男，男，男，男，女，女，女，女，女 (iii) 男，女，男，女，男，女，男，女，男，女，男，男连续出现男或女的区段称为游程。每个游程包含的个数为游程长度。以r表示序列中游程的个数： (i) r=5, (ii) r=2, (iii) r=11

（i）是随机性序列；（ii）（iii）是非随机性序列，所以，可以用游程的个数来检验样本的随机性，或总体的分布特征。（i）是随机性序列；（ii）（iii）是非随机性序列，所以，可以用游程的个数来检验样本的随机性，或总体的分布特征。二、游程检验方法 1．检验总体分布是否相同。将从两个总体中独立抽取的两个样本的观察值混合有序后，观察游程个数，进行比较。 2．检验样本的随机性将取自某一总体的样本的观察值按从小到大顺序排列，找出中位数（或平均数），分为大于中位数的小于中位数的两个部分。用上下交错形成的游程个数来检验样本是否是随机的。

3．检验规则（小样本，n1与n2都小于20） 应用表La和Lb，（α=0.05，r为临界值）（1）单侧检验：观察到的游程个数 ro≤临界值（La表）否定Ho 或ro≥临界值（Lb表）反之，接受Ho。（2）双侧检验：观察到的游程个数ro r(La)＜ro＜r(Lb) 接受Ho 下限上限反之，拒绝Ho

4．大样本（n1或n2大于20），游程个数r近似正态分布4．大样本（n1或n2大于20），游程个数r近似正态分布检验统计量其中：

等级相关检验 一、等级相关检验的基本原理将两组变量按顺序等级排列，在等级的基础上计算等级相关系数，从而反映两组变量之间联系的密切程度。等级相关系数的计算公式其中di为两变量每一对样本的等级之差，n为样本容量。等级相关系数与相关系数一样，取值-1到+1之间，区别是它是建立在等级的基础上计算的，较适用于反映序列变量的相关。

二、等级相关系数的应用 利用斯皮尔曼等级相关系数，可以对两序列变量是否相关进行检验。（一）检验的假设（1）H0：rs=0 , Xi和Yi相互独立； H1：Xi和Yi不独立。（此为双侧检验）（2）H0： rs=0 ，Xi和Yi相互独立； H1： Xi和Yi是正相关。(即Xi的大值与Yi的大值相配对) （3）H0： rs=0 ，Xi和Yi相互独立； H1：Xi和Yi是负相关。(即Xi的大值与Yi的小值相配对)

（二）检验统计量：

第七章 非参数统计