850 likes | 1.03k Views
第二章 计量资料的统计描述 Descriptions of Measurement Data. Content. Frequency distribution Description of central tendency Measures of dispersion Normal distribution Range of reference value. 第一节 频数分布. 一、 频数分布表( frequency table ) :
E N D
第二章 计量资料的统计描述Descriptions of Measurement Data
Content • Frequency distribution • Description of central tendency • Measures of dispersion • Normal distribution • Range of reference value
第一节 频数分布 • 一、频数分布表(frequency table) : • 例2-1 从某单位1999年的职工体检资料中获得101名正常成年女子的血清总胆固醇( )的测量结果如下,试编制频数分布表。
编制步骤如下: • 1. 求极差: • 极差(range)也称全距,即最 大值和最小值之差,记作R。 • 本例: 。
2.确定组距(i) : • 组段数通常取组10-15组 • 本例组距 • 3.写组段: • 组下限(L):每个组段的起点 • 组上限(U):每个组段的终点
2.30~ 2.60~ • 组段 • 2.30~ • 2.60~ • 2.90~ • 3.20~ • … • 5.60~5.90
2.30~ 2.60~
频数表:由各组段及其频数所构成的统 • 计表。
三、频数表和频数分布图用途 • 1.描述频数分布的类型 • (1)对称分布 :若各组段的频数以频数最多组段为中心左右两侧大体对称,就认为该资料是对称分布
(2)偏态分布 : • 1)右偏态分布(skewed to the right distribution)也称正偏态分布(positive skewness distribution):右侧的组段数多于左侧的组段数,频数向右侧拖尾
2)左偏态分布(skewed to the left distribution)也称负偏态分布(negative skewness distribution):左侧的组段数多于右侧的组段数,频数向左侧拖尾
2.描述频数分布的特征 • ①变异的范围在2.30~5.90 • ②有明显的统计分布规律,数据主要集中在3.50~4.70 之间,尤以组段的人数3.80~4.10 最多,且上下组段数的频数分布基本对称。
第二节集中趋势的描述 • 统计上使用平均数(average)这一指标体系来描述一组变量值的集中位置或平均水平。 • 常用的平均数有: • 算术均数 • 几何均数 • 中位数
一、算术均数 • 算术均数:简称均数(mean) • 可用于反映一组呈对称分布的变量值在数量上的平均水平或者说是集中位置的特征值。
1、计算方法 • (1)直接计算法 • 公式 :
例2-2 用直接法计算例2-1某单位101名正常成年女子的血清总胆固醇的均数。
(2)加权法: • 公式 : • 计算4,4,4,6,6,8,8,8,10的均数?
例2-3 利用表2-1计算101名正常成年女子的血总胆固醇的均数。
式中k表示频数表的组段数, 及 • 分别表示各组段的频数和组中值,如表2-1第1个组段的组中值为, • 余类推(见表2-1的第(3)栏)。在这里,频数起到了“权”(weight)的作用,即某个组段频数多,权数就大,其组中值对均数的影响也大;反之,影响则小
2、应用 • 适用于对称分布,特别是正态分布资料。
二、 几何均数 • 几何均数(geometric mean): 可用于反映一组经对数转换后呈对称分布的变量值在数量上的平均水平。 • 1、计算方法 • (1)、直接计算法 • 公式: 或
例2-4 某地5例微丝蚴血症患者治疗七年后用间接荧光抗体试验测得其抗体滴度倒数分别为,10,20,40,40,160,求几何均数。
(2)加权法 • 公式:
例2-5 69例类风湿关节炎(RA)患者血清EBV-VCA-lgG抗体滴度的分布见表2-4第(1)、(2)栏,求其平均抗体滴度。
故例类风湿关节炎患者血清EBV-VCA-lgG抗体的平均滴度为:1:150.6。故例类风湿关节炎患者血清EBV-VCA-lgG抗体的平均滴度为:1:150.6。
2、应用: • 适用于成等比级数的资料,特别是对数正态分布资料。
三、中位数与百分位数 • (一)中位数 • 中位数(median):是将变量值从小到大排列,位置居于中间的那个变量值。 • 例: 1,3,7,5,>100 • 中位数为多少?
计算 • 公式: • n为奇数时 • n为偶数时
例2-6 7名病人患某病的潜伏期分别为2, 3, 4, 5, 6, 9, 16天,求其中位数。 • 本例n=7,为奇数 • 例2-7 8名患者食物中毒的潜伏期分别为1,2,2,3,5,8,15,24小时,求其中位数。 • 本例n=8,为偶数
应用 • 适用于: • 1、各种分布类 型的资料 2、特别是偏态分布资料和开囗资料(一端或两端无确切数值的资料)。
(二)百分位数 • 百分位数(percentile)是一种位置指标,用 来表示。 • 一个百分位数 将全部变量值分为两部分,在不包含 的全部变量值中有 的变量值比它小, 变量值比它大。
1.直接计算法 • 设有x个原始数据从小到大排列,第x百分位数的计算公式为: • 当 为带有小数位时: • 当 为 整数时:
例2-9 对某医院细菌性痢疾治愈者的住院天数统计,名患者的住院天数从小到大的排列如下,试求第5百分位数和第99百分位数。 患者: 住院天数: n=120,120X5%=6,为整数:
例2-9 对某医院细菌性痢疾治愈者的住院天数统计,名患者的住院天数从小到大的排列如下,试求第5百分位数和第99百分位数。 患者: 住院天数: ,带有小数,取整后trunc(118.8)= 118
L i f X X X S f L L X 2.频数表法 • 公式: 式中 、 和 分别为第 百分位数所在组段 的下限、组距和频数, X 为小于 各组段的累计频数, 为总例数。 n
例2-10 某地118名链球菌咽喉炎患者的潜伏期频数表见表2-5第(1)、(2)栏,试分别求中位数及第25、第75百分位数。
第三节离散趋势的描述 例2-11 三组同龄男孩的身高值(cm)
常用统计指标:极差、四分位数间距、方差、标准差和变异系数。常用统计指标:极差、四分位数间距、方差、标准差和变异系数。 一、极差 • 极差,用R表示:即一组变量值最大值与最小值之差。
二、四分位数间距 • 四分位数间距,用QR表示: • QR= • 下四分位数: • 上四分位数:
例2-12 续例2-10。已知P25=39.2,P75=67.7,计算118名链球菌咽喉炎患者潜伏期的四分位数间距。 • (天) • 请回答: • 四分位数间距可以看成大小在中间的一半变量值的全距( R )。