560 likes | 997 Views
第三章 变异程度的统计描述 ( Measures of Dispersion ). 要求: 掌握: 标准差的含义及计算方法;变异系数的计算方法和应用。 熟悉: 其他描述离散趋势的常用指标。. 离散趋势 (dispersion tendency) 指标 三组同年龄、同性别儿童的体重( kg ) 甲组 26 28 30 32 34 乙组 24 27 30 33 36 丙组 26 29 30 31 34. 30 30 30. 全距 (range).
E N D
第三章 变异程度的统计描述 ( Measures of Dispersion) 要求: 掌握:标准差的含义及计算方法;变异系数的计算方法和应用。 熟悉:其他描述离散趋势的常用指标。
离散趋势(dispersion tendency)指标 三组同年龄、同性别儿童的体重(kg) 甲组 26 28 30 32 34 乙组 24 27 30 33 36 丙组 26 29 30 31 34 30 30 30
全距(range) 全距表示一群变量值的最大值与最小值之差,反映个体差异的范围,用R表示。全距大,说明变异度大;反之,说明变异度小。 甲组 26 28 30 32 34 乙组 24 27 30 33 36 R=8 R=12
全距(range) 优点 1.表示变异范围,简单明了、容易使用,如用于说明传染病、食物中毒等的最短、最长潜伏期等; 2.各种分布类型的资料均可用。 缺点 1.不能全面反映资料的离散程度; 2.不稳定,易受极端值的影响,抽样 误差大。
四分位数间距 (quartile interval) 四分位数间距是上四分位数(QU=P75)和下四分位数(QL=P25)之差,用Q表示(QU-QL)。该数值越大,说明变异度越大;反之,说明变异度越小。
L: 组段的下限; iM: 组距; fx: 频数; fL: Px所在组段之前的累积频数。
四分位数间距 (quartile interval) 优点 1.与中位数配套,用于偏态分布资料及分布的一端或两端无确切数值的资料; 2.比全距稳定。 缺点 未考虑到每个观察值的变异度。
方差(variance) 自由度=n-限制条件的个数,用ν表示。 (n-1):当 选定时,n个变量值 中能自由变动的变量值的个数。
二、平均差距指标 (一)平均偏差(Mean Difference) 如对于例3.1: 甲患者: 乙患者: 特点:直观 , 易理解;但由于用了绝对值,不便于数学处理,实际中很少使用。
(二)离均差平方和(Sum of Square,SS) 为了克服平均偏差的缺点,可以不通过取绝对值,而是通过取平方来避免正负抵消,即使用离均差平方和,其计算公式为 SS 通常作为一个中间统计量使用。
(三)方差 (Variance) 方差是将离均差平方和再取平均,即 注意:对于样本资料,分母用的是n-1,称为自由度(degree of freedom,df )。 方差的特点:便于数学上的处理,但由于有平方,度量衡发生变化,不便于实际应用。
方差(variance) 优点 • 方差越大,资料的离散程度越 • 大(全面考虑了每个观察值); • 不受观察值个数的影响。 缺点 一些资料不适用于以平方表示。
(四)标准差(Standard Deviation) 将方差取平方根,还原成与原始观察值单位相同的变异量度即为标准差: 例如对于例3.1经计算有 甲患者: 同理乙患者:
直接法 标准差 例 三组同年龄、同性别儿童的体重(kg) 甲组 26 28 30 32 34 乙组 24 27 30 33 36 丙组 26 29 30 31 34
加权法 标准差
标准差应用 1.表示观察值分布的离散程度。均数相近、度量单位相同的条件下,S越大,观察值的变异程度越大,均数的代表性越差。 2. 结合均数计算CV。 3.结合均数描述正态分布资料的分布特征和估计医学参考值范围 4. 结合样本含量计算标准误。
(五)变异系数(Coefficient of Variation ) 主要用于对均数相差较大或单位不同的几组观察值的变异程度进行比较。 例3.3 测得某地成年人舒张压均数为77.5mmHg,标准差为10.7mmHg;收缩压均数为122.9mmHg,标准差为17.1mmHg。试比较舒张压和收缩压的变异程度。
变异系数 Coefficient of variation (CV) 应用 1.表示数据分布的相对离散程度 2.比较均数相差悬殊的两组或多组资料的离散程度 3.比较度量衡单位不同的两组或多组 资料的变异程度
某地20岁男子160人,身高均数为166.06cm,标准差为4.95cm;体重均数为53.72kg,标准差为4.96kg。比较身高与体重的变异程度。某地20岁男子160人,身高均数为166.06cm,标准差为4.95cm;体重均数为53.72kg,标准差为4.96kg。比较身高与体重的变异程度。 20岁男子体重的变异程度比身高的 变异程度大。
某地不同年龄女童的身高(cm)资料如下表所示 。试比较不同年龄身高的变异程度。 某地不同年龄女童身高的变异程度 年龄组 人数 均数 标准差 CV(%) 1~2月 100 56.3 2.1 3.7 5~6月 120 66.5 2.2 3.3 3~3.5岁 300 96.1 3.1 3.2 5~5.5岁 400 107.8 3.3 3.1
小结 全距与四分位数间距:后者较稳定,但均不能综合反映各观察值的变异程度。 标准差:最为常用,对正态分布尤为重要 变异系数:可用于多组资料间度量衡单位 不同或均数相差悬殊时作变异度的比较。 以上指标都是数值越小,说明观察值 的变异度越小,均数的代表性越好。 平均指标和变异指标常配套使用 如 正态分布:均数、标准差; 偏态分布:中位数、四分位间距
练习: 某市1974年为了解该地居民发汞的基础水平, 为汞污染的环境监测积累资料,调查了留住该市一年以上, 无明显肝、肾疾病,无汞作业接触史的居民238人的发汞含量(μmol/kg)如下: 用何种指标说明本资料的集中位置和变异程度较好?并计算之。
某检验师测定了10名正常成年钢铁工人的血红蛋白值(g/dl)和红细胞数(万/mm3)如下,试比较这两个检测项目的结果哪个变异性大? 血红蛋白(g/dL) 13.0 13.6 14.0 14.5 14.6 14.7 15.2 15.5 15.8 16.0 血细胞数(万/mm3) 510 515 517 518 520 522 524 525 528 530
正态分布和医学参考值范围 要求: 掌握:正态分布及其特征,正态曲线下面积分布的规律。 熟悉:医学参考值范围,参考值范围估计的步骤,参考值范围估计的正态分布法和百分位数法。标准正态分布。 了解:参考值范围估计的对数正态分布法。
一、正态分布(Normal Distribution) 正态分布曲线: 高峰位于中央,两侧逐渐下降、低平,左右完全对称、两端不与横轴相交的钟型曲线。 正态分布: 以均数为中心,中间多,两侧呈对称性逐渐减少的钟型分布。 图3-1 某地成年男子红细胞数的分布逐渐接近正态分布示意图
正态分布的密度函数f(x)为: 由上式可见,正态分布的图形由 和 所决定, X~N( , 2)
主要特征: 1.以 为中心的对称分布 2.钟型曲线 3.曲线下面积分布有规律 4.两个参数决定位置和变异 图3-2 正态分布曲线下的面积 图3-3 三种不同均值的正态分布 图3-4 三种不同标准差的正态分布
二、标准正态分布(Standard Normal Distribution) 标准正态变换(u变换) u为标准正态变量 或标准正态离差 u变换的特点:若X服从正态分布,则u服从 标准正态分布 标准正态分布:指均数为0、标准差 为1的正态分布,记为N(0,1)
表中曲线下面积为 - ~ u 的面积;即 P ( u) 可以利用标准正态分布表求出与原始变量X 有关的概率值。
u1 u2 1. 标准正态分布:求曲线下(u1,u2)范围 内的面积。 • u ≤0:①查表,分别求从-∞到u2与 • 从-∞到u1的面积; • ② 两者之差为所求面积。 u1 u2
例:u1= - 1.50,u2= - 0.31 则(-1.50,- 0.31)范围内的面积
-1.76 1.76 (2) u >0:利用正态分布的对称性求曲线 下从-∞到u范围的面积。 例:从-∞ 到u=1.76范围内的面积。 0.0392 0.0392 1-0.0392=0.9608
2. 非标准正态分布:求曲线下任意(x1,x2)范围内的面积。
先作标准正态变换; • 再查标准正态分布表求得面积。 • 例:已知110名7岁男童身高 • 。现欲估计该地身高界于116.5cm到119.0cm范围内7岁男童比 • 例及110名7岁男童中身高界于此值范 • 围内的人数。
(1) 标准正态分布变换: (2) 查表得:
(3) 求D: 110×13.92%=15 估计该地身高界于116.5~119.0cm范围内的7岁男童比例为13.92%; 估计110名7岁男童中有15名男童的身高界于116.5~119.0cm范围内。
思考题: 该地80%的男孩身高集中的范围?
三、正态分布的应用 1. 估计频数分布 例:出生体重低于2500g为低体重儿。 若由某项研究得某地婴儿出生体重均数为 3200g,标准差为350g,估计该地当年低 体重儿所占的比例。 查表 ,即从-∞到 2500的比例为2.28%,故估计该地 当年低体重儿所占的比例为2.28%。
2. 制定医学参考值范围 (Reference Value Range) 3. 质量控制 为了控制实验中的误差,实验室的质量控制中,常以 作为上、下警戒限;以 作为上、下控制限。 (2s和3s是1.96s与2.58s的近似值)。 4. 统计处理方法的基础
μ +3 σ μ +2 σ μ + σ μ μ - σ μ -2 σ μ -3 σ
第三节 医学参考值范围 (Reference Value Range) 一、基本概念 通常指正常人(排除了对所研究指标有影响的疾病和有关因素的特定人群)的解剖、生理、生化、免疫及组织代谢产物的含量等各种数据的波动范围。主要目的:用于临床疾病诊断。最常用的是95%参考值范围。 确定95%参考值范围示意图
二、医学参考值范围的制定方法 (一)选择足够数量的正常人作为参照样本 选择参照样本必须要考虑可能影响所要制定参考值范围指标的各种疾病及干扰因素,将这些人排除在外。例如在制定血清谷-丙转氨酶活性正常值时,选取正常人的条件为肝、肾、心、脑、肌肉等无器质性疾患,近期无特殊用药史等。同时可能需要考虑性别、年龄、民族、地理位置等因素。样本含量一般要较大,如n>120。
(二)对选定的参照样本进行准确的测定 为保证原始数据可靠,要严格控制检测误差,包括分析仪器的灵敏度、试剂的纯度、操作技术及标准的掌握等,同时必须对测量条件做出统一的规定和说明,如临床化验参考值范围的制定,应对收集样本时的环境和生理条件(温度、季节、体育活动强度、饮食、妊娠等),收集、转运和储藏样品的方法及时间有明确的规定。
(三)决定取单侧范围还是双侧范围值 有些指标如白细胞数过高或过低均属异常(a) ,故其参考值范围需要分别确定下限和上限,称作双侧。有些指标如24小时尿糖含量仅在过高(b)、肺活量仅在过低时为异常(c),只需确定其上限或下限,称作单侧参考值范围。 (a)白细胞数参考值范围 (b)24小时尿糖参考值范围 (c)肺活量参考值范围
(四)选择适当的百分范围 参考值的百分范围应根据资料的性质和研究目的选择,它与诊断阈值有确定的关系。百分范围的不同将导致不同的假阳性率和假阴性率。 若主要目的为减少假阳性(如确诊病人)→大 减少假阴性(如初筛病人)→小 图3-6 正常人和病人数据分布重叠
(五)估计参考值范围的界限 参考值范围估计主要有百分位数法和正态分布法。 表3-2 参考值范围所对应的百分位数 表3-3 参考值范围所对应的正态分布区间