700 likes | 1.01k Views
第八章 数值变量资料的统计描述. 预防医学教研室 牟素华. 主要内容:. 第一节 数值变量资料的频数分布 第二节 集中趋势指标 第三节 离散趋势指标. 第一节 数值变量资料的频数分布. 一、频数分布表及其制作 频数( frequency )是指在对一组研究对象进行观察时,某变量或指标数值出现的次数。 将各变量值及其出现的频数编制频数分布表,以此反应各变量值与其频数之间的关系,并观察资料的分布类型。. 1. 求全距(极差): R= 最大值 — 最小值 2. 确定组段和组距 组段数 : 一般设 8 ~ 13 个
E N D
第八章 数值变量资料的统计描述 预防医学教研室 牟素华
主要内容: 第一节 数值变量资料的频数分布 第二节 集中趋势指标 第三节 离散趋势指标
第一节 数值变量资料的频数分布 一、频数分布表及其制作 频数(frequency)是指在对一组研究对象进行观察时,某变量或指标数值出现的次数。 将各变量值及其出现的频数编制频数分布表,以此反应各变量值与其频数之间的关系,并观察资料的分布类型。
1.求全距(极差):R= 最大值—最小值 2.确定组段和组距 组段数:一般设8 ~ 13个 组距(i):为相邻两组段下限之差。一般用等 距。i=R/组段数 取整 各组段的的起点和终点分别称为下限和上限。第一组段应包括最小值,最末组段应包括最大值,略大于或等于最大值。 3.列表划记
表8-1 某地区2002年55~58岁健康成人的空腹血糖测定值(mmol/L)
二、频数分布的特征 ★ 集中趋势, 空腹血糖测定值虽然高低不等,但向中间集中,中等水平(4.60~4.80 mmol/L)的人数最多。 ★离散趋势,即随着血糖值逐渐变大或变小,人数越来越少,向两端分散。 由此知道资料的分布类型。
1.对称分布:是指集中位置在正中,左右两侧频数分布大致对称,这种分布统计学上称为正态分布或近似正态分布。1.对称分布:是指集中位置在正中,左右两侧频数分布大致对称,这种分布统计学上称为正态分布或近似正态分布。 2.偏态分布:是指频数分布不对称,集中位置偏向一侧,若偏向数值小的一侧——正偏态,如食物中毒潜伏期的分布;集中位置偏向数值大的一侧——负偏态分布,如冠心病,大多恶性肿瘤患者的年龄分布都呈负偏态分布。 不同的分布选用不同的统计分析方法。
第一节 集中趋势指标 平均数(average)是一类描述数值变量资料集中趋势的指标。这类指标不但能给人一个简明概括的印象,而且还便于进行事物间的分析比较。 医学统计上常用的平均数有 、G、M。
一、算术均数 1.定义:算术均数简称均数,是一组已知性质相同的数值之和除以数值个数所得的商。常用 表示样本均数, 表示总体均数。 2.适用资料:对称分布、正态分布或进似正态分布的数值变量数据资料。 3.计算方法:直接法,加权法、简捷法三种,
(一)直接法 当观察例数不多,如小于30时,或观察例数虽然很多,但有计算机及统计软件,宜选择此法, 公式: (8.1) 例8.2 测定5名健康人第一小时末血沉,分别是6,3,2,9,10mm,试求均数。 将5人血沉值代入公式8-1,得:
(二)加权法 当观察值个数较多时,先将各观察值分组归纳成频数表,用加权法求其均数。 式中 , …分别为各组段的频数, , ……分别为各组段的组中值。 8.2
式中频数 (又称作权数)与组中值 之乘积,近似等于该组变量值之和;各组中值与权数之乘积的总和,视为所有变量值的总和;总和除以总频数的商,作为全部观察值的均数。由此可见,各组的权数越大,权数与组中值乘积越大,作用也越大;反之权数越小,作用也小, 由此该法被称为加权法。
某地2002年55~58岁健康成人空腹血糖平均数、标准差加数法,简捷法计算表某地2002年55~58岁健康成人空腹血糖平均数、标准差加数法,简捷法计算表
将表中数据代入公式(8.2),得 (mmol/L) 当变量值个数较多,同时数值又较大时,可在加权法的基础上,进一步简化为简捷法计算均数。(手工计算使用)
(三)简捷法: 公式: :假定均数 :各缩减值与相应频数 乘积之总和 :总频数 :组距
某地2002年55~58岁健康成人空腹血糖平均数、标准差加数法,简捷法计算表某地2002年55~58岁健康成人空腹血糖平均数、标准差加数法,简捷法计算表
仍以上述例子,在加数法计算表的基础上增加 、 栏,求得 代入公式: (mmol/L) 与加权法计算结果相同。
二、几何均数 1.定义:几何均数用“G”表示,是将n个观察值x的乘积再开n次方的方根。 2.适用条件: ①变量值呈倍数关系或近似倍数关系的资料,如血清抗体滴度,血清凝集效价等。 ②正偏态分布资料,数据经对数变换后呈正态分布或近似对数正态分布。如某些疾病的潜伏期,必需微量元素的含量等。 3.计算方法:
(一)直接法 公式: (8.3) 从两边取常用对数: 再取反对数:
例8.3 5人的血清滴度分别是1:2,1:4,1:8,1:16,1:32,求其平均滴度。将其数据代入公式: 该5人血清平均滴度为1:8
(二)加数法 公式: :为各组段的效价或滴度的倒数或各组段的组中值(对数正态分布资料), :为各组段对应的频数 (8.5)
例8.4有60人血清抗体效价,分别为: 7人1:5,11人1:10,22人1:20,12人1:40,8人1:80,试求其平均抗体滴度。将各抗体效价的倒数代入公式(8.5)得 50人的血清平均抗体效价为1:20.705。
(三)简捷法 公式: :假定几何均数的对数值 :对数组距,即变量值的对数值的组距。 :各缩减值与相应频数乘积之总和。
例:如表中资料 加权法 简捷法: 30名易感儿童免疫后的平均血液抑制抗体滴度1:48.5。两种方法结果一样。
三、中位数(median) 中位数是一组由小到大排列的观察值中位次居中的数值,用“M”表示。 用于描述偏态分布或分布不明资料的中心位置。 计算方法有直接法和频数表法。 1.直接法 当 较小时,先将观察值由小到大排列, 为奇数时,位置居中的观察值即为中位数; 为偶数时,位置居中的两个观察值的平均数即为中位数。
2.频数表法 (8.6) :为中位数(即累计频率为50%)所在组段的下限 :为组距 :为中位数所在组段的频数 :为小L的各组段的累计频数 :为总例数 公式:
例8.5求表8—3中数据的中位数。 表8—3 某传染性疾病者潜伏期的中位数和Px计算表 由上表 可见,中位数所在组段在4~组段内,本例 代入公式 (天)
四、百分位数(percentile) 百分位数是把一组数据从小到大排列,分割成100等分,每等份含1%的观察值,分割限上的值就是百分位数,用符号 表示。 中位数是第50百分位数,用 表示。 百分位数常用于描述一组偏态分布资料在某百分位置上的水平及确定偏态分布资料的医学参考值范围。第5、第25、第75、第95百分位数分别记为 。这些百分位数也可以作为反应离散趋势的指标使用,如 之间的距离或 之间的距离。
百分位数的计算原理与中位数完全相同. 计算公式: 式中 分别为所在组段的下限,组距和频数, 为小于 的各组段的累计频数。
例 8.6 现仍以8-3表数据 求 , , 。 (天) (天) (天) 同理可求 (天)
※ 中位数与百分位数的应用 1.M与 、G 的作用相同,都能反映一组数据的趋中位置或平均水平,由于中位数的确定仅取决于它在数据序列中的位置,因此不受少数特大或特小值的影响,这一点上优于均数。但计算均数时利用了所有的观察值,所以较中位数稳定。 中位数还有一个很大的缺点,即不便于作统计运算,如根据两组资料的不同中位数无法算出合并的中位数,因此在统计分析中,中位数的用途不如均数那样广泛。
2.百分位数可用来描述资料的观察值序列在某百分位置的水平,多个百分位数结合使用常可以用来说明某一特定的问题,如用 及 描述资料的分散程度,用 及 规定医学 95% 的参考值范围,在研究青少年生长发育时用 、 、 、 划分等级。百分位数可用于任何频数分布的资料,但靠近两端的百分位数只在样本例数比较大时才比较稳定(如 >100)。
第三节 离散趋势指标 离散趋势指标有: 全距、四分位数间距、方差、标准差和变异系数。其中最常用的是方差和标准差。
一、全距(range) 亦称极差,全距大,说明变异程度大。全距小说明变异度小。 全距适合任何分布的数值变量资料(末端无确切数值资料除外)。用全距描述资料变异度的大小,简单明了,但它只考虑了最大值和最小值,不能反映组内其它数据的变异度,易受特大值和特小值的影响,稳定性较差。
二、四分位数间距(guartile interval) 四分位数间距是两个特定的百分数之差,用表示.即上四分位数(P75)和下四分位数(P25)之差。其值越大,说明变异程度越大。常用于描述偏态分布的资料的离散程度。其计算公式为: 例8.7 求表8.3中数据的四分位数间距 (天)
三、方差和标准差(standard deviation) 1.方差 为了考虑各观察值的影响,用 来反映资料的离散程度,但 ,不能反映变异程度的大小。若计算 则不为0,可又受到观察例数多少的影响,为了消除这一影响,可取离均差平方和的均数,该指标简称方差或均方。
总体方差用 表示,样本方差用 表示。公式分别为: (8.6) (8.7) 方差愈小,说明各变量值的变异程度愈小,反之方差越大,变异程度越大。
2.标准差 由于方差的度量单位是原度量单位的平方单位,导致计算结果难以解释。为了还原成原来的度量单位,故将方差开平方,取平方根正值,此即标准差。 (8.10) (8.11)
直接法:: 加权法: 简捷法: 方差与标准差适用于对称分布,特别是正态或近似正态分布资料。 (8.12)
1)直接法 例:有5名小学生体重测量资料分别为26、28、30、32、34kg,计算标准差。 将数值代入8.12 (kg)
某地2002年55~58岁健康成人空腹血糖平均数、标准差加数法,简捷法计算表某地2002年55~58岁健康成人空腹血糖平均数、标准差加数法,简捷法计算表
3)简捷法 (mmol/L)
某地2002年55~58岁健康成人空腹血糖平均数、标准差加数法,简捷法计算表某地2002年55~58岁健康成人空腹血糖平均数、标准差加数法,简捷法计算表
标准差的意义和用途: ①说明一组资料的离散趋势或变异程度 在均数相近,单位相同的条件下,标准差大,表示观察值的变异度大,均数的代表性较差;反之则相反。 ②计算变异系数 A.当两组比较资料单位不同时; B.单位相同,但均数相差较大时,不能计算标准差只能计算变异系数。 ③结合均数描述频数分布的特征和估计医学参考值范围。 ④结合样本含量,计算标准误。
四、变异系数(coefficient of variation) 变异系数用CV表示,是标准差的另一种表示方式,即将标准差转化为均数的倍数,以百分数的形式表示。计算公式为: (7.14) 例8.9 某地20岁男大学生身高 , ; 体重 kg , kg,试比较两者变异程度。 身高 体重 由此可见,该地20岁男大学生体重的变异度大于身高。
第四节 正态分布和医学参考值范围 一、正态分布(normal distribution) 1.概念: 以均数为中心,左右两侧基本对称,靠近均数两侧频数较多,离均数越远,频数越少,形成一个中间多,两侧逐渐减少基本对称的分布,称为正态分布。
b a 图8-2 频数分布逐渐接近正态分布示意图 c
其概率密度函数为: -∞< x <+∞ (8.12) 式中: 称密度函数,是与自变量对应的正态曲线的纵轴高度, 为总体均数, 为总体标准差, 为圆周率,即3.1416, 为自然对数底,即2.71828。可见 、 、 、 均为常量,仅为变量。因此,当已知 、 和变量值时,以为横轴, 为纵轴,按公式(7.15)即可绘制出正态分布曲线的图形。 图8-3 A。