480 likes | 617 Views
统计方法介绍. 上海第二医科大学 生物统计教研室. 根据不同的资料类型及不同的统计要求选择不同的统计方法。. 资料类型 :. 资料一般可分成三大类:计量资料、计数资料和等级资料。 (1) 计量资料: 它是测量每个观察单位某项指标值的大小所得的资料。 (2) 计数资料:将观察单位按某种属性或类别分组计数 , 得到各类别观察单位计数的资料 , 称为计数资料。 (3) 等级资料又称为半定量资料:将观察单位按某种属性的不同程度分组计算所得出的各个不同程度的观察单位计数的资料。. 统计分析方法:
E N D
统计方法介绍 上海第二医科大学 生物统计教研室
根据不同的资料类型及不同的统计要求选择不同的统计方法。根据不同的资料类型及不同的统计要求选择不同的统计方法。
资料类型: • 资料一般可分成三大类:计量资料、计数资料和等级资料。 • (1)计量资料: 它是测量每个观察单位某项指标值的大小所得的资料。 • (2)计数资料:将观察单位按某种属性或类别分组计数,得到各类别观察单位计数的资料,称为计数资料。 • (3)等级资料又称为半定量资料:将观察单位按某种属性的不同程度分组计算所得出的各个不同程度的观察单位计数的资料。
统计分析方法: (1)统计描述:指用统计指标、统计表、统计图等方法,对资料的数量特征及其分布规律进行描述。 (2)统计推断:指用样本推断总体,主要是假设检验,例如检验:两个总体均数是否有差异,两总体率是否有差异,两个因素之间是否有关。 (3)因素之间的关系:如相关和回归分析等。
一. 计量资料的描述性统计 • 1. 计量资料的描述性统计指标包括: (1)集中位置的指标,用以描述观察值的平均水平。 如算术均数、几何均数、中位数、百分位数等。 (2)资料变异的指标,用以描述观察值间参差不齐的程度,即离散度或称变异度。 如全距、标准差、方差、变异系数、四分位数间距等。
(1)算术平均数,简称为均数。观察值全部相加再除以总例数。均数适用于服从对称分布的计量资料,尤其是正态分布的资料(1)算术平均数,简称为均数。观察值全部相加再除以总例数。均数适用于服从对称分布的计量资料,尤其是正态分布的资料 (2)几何均数。用G表示, 为观察值的总乘积开n 次方根。常用对数计算,求对数值的均数。再查反对数得出G。几何均数适用于成倍数关系的资料,如抗体滴度、效价等,也用于对数正态分布的资料如某些传染病的潜伏期、细菌计数等。 (3)中位数:用M表示,它将总体或样本的全部观察 值分成两部分,每部分各有50%个观察值。
中位数计算方法为:先将原始观察值按由小到大顺序排列后,位次处于中间的那个观察值为中位数。观察值数为奇数时,处于中间的那个数为中位数,偶数时处于中间的两个数的均数为中位数。中位数计算方法为:先将原始观察值按由小到大顺序排列后,位次处于中间的那个观察值为中位数。观察值数为奇数时,处于中间的那个数为中位数,偶数时处于中间的两个数的均数为中位数。 中位数适用于表示任何分布资料的平均水平。但常用于非正态分布资料。由于中位数不受个别特大,特小数值的影响, 因此它比均数稳健,常用于资料分布不明,或明显偏态, 或分布的一端无确定值的情况。
(4)百分位数:第X百分位数以Px表示,它将全部观察值分成二个部分,其中有x%个观察值小于Px, (100-x)%个观察值大于Px。 用途:1.描述一组资料在各个百分位置上的水平,用一组百分位数如P5,P25, P50, P75, P95,可以描述总体或样本的分布特征,如集中位置、变异度等。 2.确定医学正常值范围。
(100-X)% X% PX
P25称为第1四分位数;记为Q1。 P50称为第2四分位数;记为Q2,就是中位数M P75称为第3四分位数;记为Q3。
(5)全距:是最大与最小观察值之差。 全距计算方便,但仅利用最大与最小二个数据来代表全部数据的离散程度,信息利用差。全距受特大与特小值影响大,不稳定。 通常:最小值~最大值, 如:3.980~5.875
(6)标准差与方差: 标准差常用SD表示,方差是标准差的平方。标准差是一种常用的离散指标,结合均数能给出正态分布的特征。实际应用时常以均数±标准差的写法综合观察值的集中和离散特征。 (7)变异系数:变异系数是一种离散指标,简记为CV,它是标准差与均数之比,用百分数表达。 由于CV无量度单位,而且消除了原始资料的平均水平的影响,因此常用于比较量度单位不相同的指标或者平均水平相差悬殊的指标的变异程度。
(8)四分位数间距: 四分位数间距是第3四分位数与第1四分位 数之差,即P75–P25。 四分位数间距受特大值或特小值影响小, 较稳定。 中位数和四分位数间距相结合常用于表示 非正态分布资料的平均水平和离散程度。
二.t检验 t检验也称为Student t检验。主要用于两组计量资料比较的显著性检验。包括:样本均数与总体均数的比较,两配对样本均数的比较和非配对两样本均数的比较。
样本均数与总体均数比较的t检验 • 检验样本是否来自均数为μ0的已知总体 。 • 如:要研究现在13岁男孩的身高是否比20年前的13岁男孩高。 20年前的13岁男孩平均身高为1.30。现测量了13岁男孩100名平均身高为1.35,标准差为0.12,要检验现在13岁男孩身高的总体均数是否高于1.30。
2. 配对t检验 • 两种处理的比较 • 对子号 A药 B药 • 1 0.2 -0.1 • 2 1.0 1.8 • …… • 10 0.4 0.8 • 两种药物治疗白细胞降低疗效的比较(表中为白细胞升高数)。 • 处理前后的比较 • 例号 用药前 用药后 • 1 118 112 • 2 110 98 • …… • 10 122 108 • 治疗前后舒张压的改变
团体t检验 • 用于非配对两样本均数的比较。 • 如:两组雌鼠,分别饲以高蛋白和低蛋白饲料, 8周后记录各鼠体重增加量(克)如下,问两组动物增重的均数差别是否显著? • 高蛋白组: • 134 146 104 119 124 161 107 83 113 • 129 97 123 • 低蛋白组: 70 118 101 85 107 132 94
t检验的条件 1. 样本均数和总体均数比较的t检验: 样本来自正态分布的总体。 2 . 配对t检验: 差值的总体为正态分布。 3 . 团体t检验: 1)两个样本都来自正态分布的总体。 2)两个总体方差相等。
t检验条件不满足时的对策 1. 进行变量变换,如对数变换,变换成正态分布后再进行t检验。 2. 用非参数检验的方法。 3 . 两样本比较的t检验时,如正态分布但方差不齐,可用t’检验。
三. 方差分析 方差分析主要用于检验计量资料中两个或两个以上样本均数间差别的显著性。 常见的错误是进行各组之间的两两t检验。这将增加第一类误差的概率。 两组以上均数的比较不能用两两t检验,而必须用方差分析。如差别有统计学意义,然后再进一步用SNK等方法作两两比较。
例: 小白鼠给药前后发生咳嗽的推迟时间(秒) ───────────────────── 复方Ⅰ 复方Ⅱ 可待因 ───────────────────── 40 50 60 15 -10 30 -5 105 77 ┇ ┇ ┇ ───────────────────── 例数 15 15 10 均值 31.67 44 60.7 ─────────────────────
随机单位组设计方差分析: 欲比较因素Ⅰ的K个水平的各变量均值,同时控制另一个因素的作用。试验设计时,先将受试对象按其它控制因素性质相同或相近者组成单位组,每个单位组有K个受试对象,分别随机分配至因素Ⅰ的K个水平上。这时每个水平的受试对象不仅数量相同, 而且性质亦相同或相近,就能缩小误差,提高实验效率。它是两样本配对试验的扩大。
———————————————————————————————————————————————————— 单位组 处理1 处理2 ……... 处理k —————————————————————————— 1 X11 X12 ……... X1k 2 X21 X22 ……... X2k ┇ ┇ ┇ ……... ┇ b Xb1 Xb2 Xbk ——————————————————————————
大白鼠注射不同剂量雌激素后的子宫重量(g) ─────────────────────── 雌激素剂量(μg/100g) ───────────────── 大白鼠种系 0.2 0.4 0.8 ─────────────────────── A 106 116 145 B 42 68 115 C 70 111 133 D 42 63 87 ───────────────────────
欲比较一个因素中K个水平的各均数,同时要控制另二个因素作用时,可用拉丁方设计欲比较一个因素中K个水平的各均数,同时要控制另二个因素作用时,可用拉丁方设计 的方差分析。 要同时研究几个因素的作用,同时要考察因素间的交互作用,可用析因设计的方差分析。
协方差分析: 在各种试验设计中,对主要变量Y 研究时,常希望其他可能影响Y的变量保持基本一致,以达到均衡可比。 例如:比较几种药物的降压作用,各试验组在原始血压、性别、年龄等指标应无显著差异。 有时这些变量不能控制,须在统计分析时,通过一定方法来消除这些变量的影响后,再对主要变量y作出统计推断。 如果所控制的变量是分类变量时,可用多因素的方差分析。
当要控制的变量是连续型变量时,可用协方差分析。当要控制的变量是连续型变量时,可用协方差分析。 称这些影响变量为协变量,消除协变量的影响后,或将协变量化成相等后,对y的修正均数所作的方差分析称为协方差分析。 例如:比较几种不同饲料对动物体重增加的作用,可把动物的进食量作为协变量。 比较大学生和运动员的肺活量时,可把身高作为协变量。 比较治疗后二组舒张压的大小,可把治疗前的舒张压作为协变量。
如:比较初生至三周岁儿童男女两组体表面积Y之间有无差异,以身高X1和体重X2为协变量比较对身高和体重修正后的体表面积修正均数。如:比较初生至三周岁儿童男女两组体表面积Y之间有无差异,以身高X1和体重X2为协变量比较对身高和体重修正后的体表面积修正均数。
四. 计数资料的描述性统计: 率和构成比是计数资料的主要描述性指标。 率说明某种现象发生的频率或强度,其公式为: 率=某现象实际发生的例数/某现象可能发生的例数。 常见的率有发病率、患病率、死亡率、痊愈率、有效率等。 构成比表示事物或现象内部各构成部分的比重,通常以100作为比例基数, 故常称为百分比。 构成比=事物内部某一构成部分的观察单位数/事物内部各组成部分的观察单位总数 。 如性别的构成比,病种的构成比,职业的构成比等。
构成比和率是两个不同的相对数,用途不一样,不能混淆。最容易犯的错误是把构成比当作率来用。构成比和率是两个不同的相对数,用途不一样,不能混淆。最容易犯的错误是把构成比当作率来用。 用率作比较时,应注意其可比性。应审慎思考影响的因素,不能凭表面数值贸然下结论。对于内部构成不同的两个率,应先作标准化处理,才能进行比较, 这称为率的标准化,经标准化后的率称为标准化率。
例:某医院门诊部近视眼患者情况: —————————————————————— 职业 患者人数 所占比例(%) —————————————————————— 工人 1500 50.00 农民 1000 33.33 学生 250 8.33 干部 250 8.33 —————————————————————— 结论为:工人患近视眼最多,其次是农民,学生和干部患近视眼都比较少。
正确的调查方法: —————————————————————— 职业 调查人数 患者人数 患病率(%) —————————————————————— 工人 2000 100 5.00 农民 2000 100 5.00 学生 1000 100 10.00 干部 1000 100 10.00 ——————————————————————
五. 四格表和行×列表卡方检验 四格表和行×列表卡方检验用于两个或多个率或构成比差异的显著性检验以及两种属性间独立性检验。
两种药物治疗某病有效率的比较 ────────────────────── 药物 有效 无效 合计 有效率 ────────────────────── 西药 63 16 79 79.75 中药 47 7 54 87.04 ────────────────────── 合计 110 23 133 82.71 ────────────────────── 两组有效率的差异是否有统计学意义?
──────────────────────────────────────────── 有效 无效 合计 有效率 ─────────────────── 西药组 63 16 79 79.75 中药组 47 7 54 87.04 中西结合 65 3 68 95.59 ─────────────────── 合计 175 26 201 ──────────────────────
二个或多个构成比的比较或两个属性之间有无关系:二个或多个构成比的比较或两个属性之间有无关系: ────────────────────── 血 型 民族 ────────────────── A B O AB 合计 ───────────────────── 傣族 f11 f12 f13 f14 n1+ 佤族 f21 f22 f23 f24 n2+ 土家族 f31 f32 f33 f34 n3+ ───────────────────── 合计 n+1 n+2 n+3 n+4 n ──────────────────────
六. 非参数统计 • 在统计推断中,如t检验,方差分析等,假定样本所来自的总体分布为已知的函数形式,但其中有的参数为未知,统计推断的目的就是对这些未知参数进行估计或检验。这类统计推断方法称为参数统计。 • 非参数统计是一种不依赖总体分布的具体形式的统计方法。
优点: (1)适用于任何总体分布。 (2)计算简便。 (3)易于理解和掌握。 (4)可应用于不能精确测量的资料,如等级资料。 缺点: (1)对适宜用参数方法的资料,若用非参数处理,常损失部分信息,降低效率。 (2)虽然许多非参数法计算简便,但不少问题的计算,特别样本较大时,比较繁杂。
1.符号秩和检验用于配对资料。相当于配对t检验。1.符号秩和检验用于配对资料。相当于配对t检验。 2.两样本秩和检验,又称Wilcoxon秩和检验,适用于未配对样本的差异显著性检验。 相当于团体t检验。 3. Kruskal Wallis 检验(K-W检验) 用于两个以上样本的比较,相当于方差分析。 4. Friedman秩和检验用于试验按随机单位组设计时的秩和检验。
七. 等级资料 等级资料的描述性统计和计数治疗相同,是率和构成比。 等级资料的显著性检验都用非参数检验。
八. 考察两指标间有无关系 • 1. 两指标均为正态计量指标用相关系数。 • 2. 两指标为非正态计量指标用秩相关系数。 • 3. 两指标均为等级指标用秩相关系数。 • 4. 两指标为计数指标用列联系数,卡方检验。 • 5. 一个为等级指标,另一个为计量指标用秩相关系数,或者用方差分析。 • 6. 一个为计数指标,另一个为计量指标用 t 检验或者方差分析。
如要分析一个连续的正态变量(应变量)和其他几个变量(自变量)间有无关系。用多元相关和多元回归分析。如要分析一个连续的正态变量(应变量)和其他几个变量(自变量)间有无关系。用多元相关和多元回归分析。 • 如要分析一个二值变量(反应变量)和其他几个变量(协变量)间有无关系。用LOGISTIC回归分析。
九. 生存分析 • 对于肿瘤等疾病的疗效及预后的考核常常不用通常的治愈率、好转率等表示,而用生存期表示。 • 生存分析是指对于生存期这一变量进行分析的一系列特殊的统计分析方法。 • 生存期从某个标准时刻(发病、确诊、开始治疗或手术等)算起至死亡为止的存活时间。
生存期不同于一般指标的两个特点: • (1)有截尾数据。 • (2)生存期不服从正态分布。 • 生存分析起先只用于分析生存期,但以后又发展成可分析一切从某种起始事件达到某终点事件所经历的时间跨度。如:起效时间,缓解时间,等。
生存时间不一定专用于死与活的情况,生存时间(存活时间)可定义为从某种起始事件到达某终点事件所经历的时间跨度。例如急性白血病病人从治疗开始到复发为止之间的缓解期;冠心病病人在两次发作之间的时间间隔;已作输卵管结扎的妇女从施行输卵管吻合手术后至受孕的时间间隔;在流行病学研究中,从开始接触危险因素到发病所经历的时间等都可作为生存时间用作生存分析。生存时间不一定专用于死与活的情况,生存时间(存活时间)可定义为从某种起始事件到达某终点事件所经历的时间跨度。例如急性白血病病人从治疗开始到复发为止之间的缓解期;冠心病病人在两次发作之间的时间间隔;已作输卵管结扎的妇女从施行输卵管吻合手术后至受孕的时间间隔;在流行病学研究中,从开始接触危险因素到发病所经历的时间等都可作为生存时间用作生存分析。 • 有时还收集一些有关因素(称为自变量或协变量), 以分析这些协变量是否对生存时间有影响,影响的大小,是缩短或延长生存时间。这可以通过Cox回归进行分析,因此,Cox 回归可看成带有协变量的生存分析。
生存分析目的: (1)估计生存函数。 (2)比较各组的生存函数。 (3)研究影响生存期长短的因素。
生存率的估计可用参数方法和非参数方法二种。生存率的估计可用参数方法和非参数方法二种。 • 常用非参数估计法,主要有两种, • (1)乘积-极限法(product-limit) • 又称Kaplan-Meier法 • (2)寿命表法 • 得到各年的生存率及其标准误。
两组或多组生存期数据的比较用对数秩检验,即log-rank检验。两组或多组生存期数据的比较用对数秩检验,即log-rank检验。 • 研究各种因素(称为协变量,伴随变量或影响变量)对于生存期长短的关系,进行多因素分析可用比例风险模型,即cox回归。