1.03k likes | 1.32k Views
第九章. 数值变量资料的统计分析. 主要内容 第一节 数值型资料的统计描述 第二节 正态分布和参考值范围的估计 第三节 数值型资料的统计推断 第四节 t 检验和 u 检验 第五节 方差分析. 统计分析包括 统计描述 和 统计推断 两大部分。 统计描述 (statistical description) 是用统计指标、统计表和统计图描述资料的分析规律及其数量特征; 统计推断 (statistical inference) 包括总体参数估计和假设检验两个内容。 参数估计 : 是用样本统计量估计总体参数所在范围。
E N D
第九章 数值变量资料的统计分析
主要内容 第一节 数值型资料的统计描述 第二节 正态分布和参考值范围的估计 第三节 数值型资料的统计推断 第四节 t检验和u检验 第五节 方差分析
统计分析包括统计描述和统计推断两大部分。 • 统计描述(statistical description)是用统计指标、统计表和统计图描述资料的分析规律及其数量特征; • 统计推断(statistical inference)包括总体参数估计和假设检验两个内容。 参数估计:是用样本统计量估计总体参数所在范围。 假设检验:是利用样本的实际资料来检验事先对总体某些数量特征所作的假设是否成立。
一、数值变量资料的频数分布 二、平均水平指标 三、离散程度指标
一、数值变量资料的频数分布 • 1. 频数表(frequency table)的编制方法 • 2. 频数分布的两个特征及两种类型 • 3. 频数表的用途 集中趋势 对称分布 特征 类型 离散趋势 偏态分布
第一节 数值型变量资料的统计描述 例9.1 某地用随机抽样的方法对140名健康成年男性血清尿素氮(BUN)浓度进行了检测,所得数据如表9-1,如何进行统计描述。
表9-1 某地140名健康成年男性血清尿素氮浓度(mmol/L)表9-1 某地140名健康成年男性血清尿素氮浓度(mmol/L)
统计描述的内容: 一、制频数(分布) 表(表9-2)和频数分布图(图9-1) 频数表的用途 (1) 揭示资料的分布特征和分布类型 (2) 便于发现某些特大或特小的可疑值 (3) 便于进一步计算统计指标和统计分析处理 二、计算统计指标 (1) 计算平均值—代表一组资料的平均水平; (2) 计算标准差---反映资料的离散程度。 三、绘制统计表和统计图
一、编制频数分布表:制表步骤: (1)求极差或全距(range):R=Xmax - Xmin 本例, R=6.55-2.10=4.45(mmol/L)。 (2)决定组数、组段数和划分组距(class interval): 根据样本含量的多少确定组数,一般设8~15组。 组段数=取整(极差/组数)。 本例:组段数=取整(4.45/12)=0.370.4 划分组距:每组段的起点和终点分别称为下限和上限。 组距:本组内的上限和下限之差。
(3)列频数表:按上述组段序列制成表的形式,采用划记法或计算机将原始数据汇总,得出各组段中所包含的观察例数,即为频数,如表9-2的第 (2)栏。将各组段及其相应的频数列成表格,即为频数表(frequency table),如表9-2。所绘的图形见图9-1。
表9-2140名健康成年男性血清尿素氮浓度(mmol/L)频数表表9-2140名健康成年男性血清尿素氮浓度(mmol/L)频数表
19 19 18 18 16 16 15 15 15 14 14 14 14 13 13 13 13 10 频 数 7 7 6 6 5 2 2 2 2 0 2.4 2 2.8 3.2 3.6 4 4.4 4.8 5.2 5.6 6 6.4 6.8 X 图9-1 140名健康成年男性血清尿素氮浓度频数分布图 图9-1
资料的分布类型: • 对称分布或正态分布; • 2. 偏态分布(正、负):高峰在左侧或右侧; • 3. 不规则分布:分布很散,无明显高峰
频数表和频数图的用途 • (1) 可以将原来相对杂乱的数据以相对直观、有序的表格或图形的形式描述,便于进一步分析。 • (2) 揭示资料的分布类型,便于进一步计算统计指标和统计分析处理 • (3) 用于描述频数分布的特征 (4)便于发现某些特大或特小的可疑值,
某公司员工工资,请描述平均水平 • 1、1800,1900,1900,2000,2000,2000,2000,2100,2100,2200, • 平均工资为2000. • 2、1800,1900,1900,2000,2000,2000,2000,2100,2100,10000 • 平均工资为2800,合理吗?
请描述以下资料中变量的平均水平 • 1、8名某病患者血清抗体滴度为:1:2,1:4,1:8,1:16,1:32,1:64,1:128。 • 2、某医院收治某癌症患者6人,其生存时间(月)分别为10,8,19,6,20,≥25
二、集中趋势的描述 • 集中趋势:一组数据向某一个位置聚集或集中的倾向。 • 平均数(average):是描述一组同质观察值的集中趋势或平均水平的指标体系。 • 一、意义: • 反映一组同质变量值的平均水平或分布的集中位置。 • 作为一组资料的代表值,便于组间的分析比较。 • 二、卫生领域常用的平均数指标: • (一)算术均数 (二)几何均数 (三)中位数 • 其他平均数:调和平均值 、众数
(一) 算术均数 算术均数(arithmetic mean,average): • 简称均数,等于所有观察值的总和除以观察值的个数 • 常用 表示样本均数,希腊字母μ表示总体均数。 • 计量资料最常用的平均数。 • 1、适用条件:服从对称分布(特别是服从正态分布 或近似正态分布)或偏度不大的的计 量资料
2、计算方法: ①直接法: xi(i=1,2,…,n)为第i个观察对象的观察值
例9-2 • 某班级中10名女孩身高测量值分别为132.4,151.3,…137.6,求其平均身高。
②加权法: (weighting method) • xi 为第i组的组中值, fi 为第i组的例数
(二) 几何均数(geometric mean,G) 1、计算方法: ①直接法: G等于所有n个观察值的乘积的n次方根
例9-3 • 8份血清的某种抗体效价分别为1:200,1:25,1:400,1:800…,求其平均效价。 • 先求其倒数的几何均数, • 平均效价为1:100.
②加权法: χi 为第i组的组中值(或观察值), fi 为第i组例数:
表9-4 某地34名儿童接种麻疹疫苗后血清血凝抑制抗体滴度 血清血凝抑制抗体的几何平均滴度为1:47.55。
2、几何均数的适用条件: • (1)等比数列资料. • (2)原始观察值呈偏态分布、但经过对数变换后呈正态分布或近似正态分布的资料。如疾病的潜伏期、抗体滴度、平均效价等。 • 注意:同一组观察值的几何均数总是小于它的算术均数。
3、几何均数的应用 • 1. 几何均数常用于等比资料,或用于对数正态分布资料。 • 多应用于血清学和微生物学。如抗体的平均滴度和平均效价、卫生事业平均发展速度、人口的几何增长等; • 2. 观察值不能有0。 • 因为0不能取对数,不能与任何其他数呈倍数关系。否则在作对数变换之前需要加一个常数。 • 3. 观察值不能同时有正值和负值。 • 若全是负值,计算时可把负号去掉,得出结果后再加上负号。
(三) 中位数(median, P50或M)和百分位数: 中位数:将观察值按大小排序后,位次居中的观察值。 M=X(P=50%) 1、计算方法 ①直接法: 设n为观察值的个数,有公式(9-5)及(9-6) /2
百分位数( percentile) • 把一组数据从小到大排列,分成100等份,各等份含1%的观察值,分割界限上的值就是百分位数,用PX表示。 • 它是一种位置指标,即一个百分位数PX将总体或样本的全部变量值分为两部分,理论上有X%的变量值比它小,有(100-X)%的变量值比它大。
例9-5 8名食物中毒患者的潜伏期分别为1、2、3、3、4、5、8、16小时,求中位数。 M=(3+4)/2=3.5(小时) 例9-6 某传染病11名患者的潜伏期(天)分别为1、2、2、3、3、4、5、6、7、7、9 M=4(天)
②频数表法: Lx: 第x百分位数所在组段下限 ix: 第x百分位数所在组段的组距 fx: 第x百分位数所在组段频数 fL: 小于L的累计频数
表9-5 340名7岁以下儿童血铅值的频数分布(中位数计算) L: 中位数组段下限值, ΣfL:小于L的累计频数, i: 中位数组距, f50%:中位数组频数. L=1.25 ΣfL=164 i=00.25 f50%=55
2、适用条件 中位数不仅可以用于任何分布的定量资料,(对称分布、偏态分布,不规则分布),还可以用于开口资料(含不确定数值资料)。
3、中位数在应用中的特点 (1)小于M的观察值个数与大于M的观察值个数相等。 (2)不是由全部观察值计算出来的, 因而M不受个别特小 或特大观察值的影响,这一点优于均数,适用于明显 偏态、两端无确定值、分布不规则或分散度很高的资料. (3)只受居中观察值波动的影响,因而不敏感 (4)当数据分布对称的时候,理论上中位数等于算术均 数,当数据分布对数转换后对称时,理论上中位数等 于几何均数。 (5)用中位数代替均数、几何均数会减低灵敏度,且进一步统计处理的方法较少,所以实际工作中,应当尽量使用算术均数或几何均数。
4、百分位数的应用 • 可用于任何频数分布的资料。 • 可用来描述资料的观察值序列在某百分位置的水平,中位数是其中的一个特例。 • 多个百分位数结合使用常常可以用来说明某一特定的问题,如用P25、P75描述资料的离散程度,用P2.5、及P97.5规定医学95%的参考值范围。 • 分布中部的百分位数稳定,具有较好的代表性;但靠近两端的百分位数仅在样本例数比较大时才比较稳定(如n大于100)。当样本例数不多时,不宜取太近两端的百分位数。
三、 离散程度的统计描述 (Measures of Dispersion)
例 对甲乙两名高血压患者连续观察5天,测得的收缩压(mmHg)结果如下: 可以看出:两患者收缩压的均数十分接近,但甲患者的血压波动较大,而乙患者相对稳定。通常,描述一组观察值,除需要表示其平均水平外,还要说明它的离散或变异的情况。
第一节 衡量变异程度的指标 • 一类是按间距计算: • 极差、四分位数间距 • 一类则按平均差距计算: • 方差、标准差等
(一)全距(Range,用符号R表示) 也称作极差,即观察值中最大值和最小值之差,用符号R 表示。如前例甲乙两患者收缩压的极差分别为 该法简单明了、容易使用,如用于说明传染病、食物中毒等的最短、最长潜伏期等;缺点是不全面,易受极端值影响,结果不稳定。
(二)四分位数间距(Quartile) • 四分位数:P75、P50、P253个点将全部观察值分为四个部分,处于分位点上的数值即为四分位数 • 四分位数间距Q:Q=QU- QL=P75- P25 • 其间包括了一组观察值的一半,故四分位数间距可看成是中间50%观察值的极差。
四分位数间距的计算(interquartile range,Q): 25%位数计算公式: 75%位数计算公式
四分位数间距(interquartile range,Q) 计算公式: Q = P75 – P25=1.75-0.77=0.98(mmol/L) 0 0.77 1.25 1. 75 X1 … Xn X0% X25% X50% X75% X100% | Q |
四分位数间距的特点: • 适用于描述偏态分布、一端或两端无确切数值、分布不明确资料的离散程度。 • 四分位数间距越大,数据分布的变异度越大;反之,变异度越小。 • 与中位数一起描述偏态分布资料的分布特征。 • 作为描述数据分布离散程度的指标,比极差稳定,但仍未考虑到每个数据的大小,未考虑全部观察值的变异度,在统计分析中应用的不够普遍。
(三)方差(variance): σ 2(总体方差), S 2(样本方差) • 为了全面考虑每个观察值的变异情况,克服极差和四分位数间距的缺点,引入了“方差” • 均方差(mean square deviation,MS,均方),反映一组数据的平均离散水平。
自由度(degree of freedom) • 随机变量能够自由取值的个数 • 符号为 ,读作niu。 • 如n=4的样本受到 的条件限制,可自由取值的数字只有3个。
方差的特点 • 适用条件:对称分布资料,特别是正态分布或近似正态分布资料。 • 意义:方差越大,数据间的变异越大 • 优点:利用了每个数据的信息,是常用的 • 描述数据分布离散程度指标 • 不足:度量衡单位发生了改变,不便于实际应用。为此,更常用的是标准差。