470 likes | 721 Views
危险度分析和 Logistic 回归. 第十七章. 上海第二医科大学 生物统计教研室. 危险度分析和 LOGISTIC 回归主要用于研究影响肿瘤和其它各种疾病的发病因素或预后因素。 一般的相对危险度计算通常用于单因素分析。 LOGISTIC 回归可用于多因素分析。. 第十七章危险度分析和 Logistic 回归. 第一节 发病危险度比较的统计指标. 病因分析(或预后分析)的目的:找出影响疾病发生(或预后好坏)的原因及其影响的强度。 如果某因素对疾病发生有影响,就称该因素与疾病发病有联系,而联系的强度则反映该因素对疾病发生影响的大小。
E N D
危险度分析和Logistic回归 第十七章 上海第二医科大学 生物统计教研室
危险度分析和LOGISTIC回归主要用于研究影响肿瘤和其它各种疾病的发病因素或预后因素。 一般的相对危险度计算通常用于单因素分析。 LOGISTIC回归可用于多因素分析。 第十七章危险度分析和Logistic回归
第一节 发病危险度比较的统计指标 病因分析(或预后分析)的目的:找出影响疾病发生(或预后好坏)的原因及其影响的强度。 如果某因素对疾病发生有影响,就称该因素与疾病发病有联系,而联系的强度则反映该因素对疾病发生影响的大小。 危险度分析就是分析某因素对疾病发生是否有关,以及关系的大小。
第一节 发病危险度比较的统计指标 • 危险度(RISK):通常指某个不幸事件发生的概率。危险度大表示发生的可能性大。 • 某病发病危险度:就是观察对象在观察期间发生某病的概率,即某病发病率。 • 研究发病危险度的统计指标常有相对危险度,特异危险度和人群特异危险度。
一.相对危险度 相对危险度(relative risk)简记为RR,人群总体中暴露于某因素者的发病率P1与不暴露于某因素者的发病率P0之比值称为该因素对于该疾病发病的相对危险度,即: RR>1时,表示该因素为危险因素,使发病危险度增大; RR<1时,表示该因素为保护因素,使发病危险度减少; RR=1时,表示该因素对疾病的发病无影响。
例17.1 为了检验钩端螺旋体病与脑脉管炎是否有联系,选择钩端螺旋体病爆发流行地区, 确诊为钩端螺旋体病的人作为暴露组,当地健康人群为非暴露组,得脑脉管炎发病情况如下: 发病人数 未发病人数 小计 发病率(%) 暴露组 12 351 363 P1=3.3 非暴露组 1 817 818 P0=0.12 小计 13 1168 1181 计算钩端螺旋体病对于脑脉管炎发病的相对危险度。
相对危险度 RR= =27.6,表明患钩端螺旋体病人相对于未患钩端螺旋体者发生脑脉管炎的相对危险度为27.6。
第二节 队列研究 队列研究(cohort study)又称为前瞻性研究或追踪观察, 在这类研究中观察人群系按是否暴露于某可疑危险因素或暴露程度来分组,然后进行追踪观察,并随时记录这两组人群中的发病和死亡情况,经过一定时间后,比较两组人群的发病率或死亡率, 从而对该危险因素有无致病作用或致病强度高低作出估价并进行分析推断,其特点是从因到果。
第二节 队列研究 队列研究一般模式: ┌─发病 a ┌─ 暴露组─┤ │ └不发病 b 确定范围的人群 ─┤ (未发病) │ ┌─发病 c └ 非暴露组─┤ └─不发病 d
第二节 队列研究 暴露组发病率 =a/(a+b) 非暴露组发病率 =c/(c+d) 故相对危险度的估计值 =[a/(a+b)]/[c/(c+d)]
第二节 队列研究 RR的假设检验: H0:总体相对危险度为1, 即RR=1 H1:总体相对危险度不为1,即RR≠1 χ2MH=[(ad-bc)2(n-1)]/[(a+b)(c+d)(a+c)(b+d)] 它与四格表χ2未校正公式所得χ2相差仅为系数n/(n-1)。 χ2MH =[(n-1)/n]χ2 其中 χ2=(ad-bc)2n/[(a+b)(c+d)(a+c)(b+d)] 当n较大时,两者差别甚微,因而有些统计学家建议,上述检验仍用四格表的χ2或用Yates校正χ2计算。
第二节 队列研究 例21.2 为研究血液中儿茶酚胺水平与冠心病发病之间的关系,对609名男子按血液中儿茶酚胺水平分为高低两组,经过十年追踪观察得结果如下表,试作危险度分析。 表17.1 血中儿茶酚胺水平与冠心病发病关系 ──────────────────────────────────────── 血中儿茶酚胺 冠心病 ────────────────── 水平 发病 未发病 小计 ──────────────────────────────────────── 高 27(a) 95(b) 122 低 44(c) 443(d) 487 ──────────────────────────────────────── 小计 71 538 609 ────────────────────────────────────────
第二节 队列研究 即血液中儿茶酚胺水平高低与冠心病发病之间有关,且血中儿茶酚胺水平高者,其冠心病的发病危险度为低者的2.45倍。
第二节 队列研究 队列研究优点: 前瞻性,从因到果,合理,可靠 队列研究缺点: 研究难度大,随访时间长,研究发病率低的疾病时需要很大样本。
第三节 病例对照研究 病例对照研究(Case-Control Study)是一种回顾性研究方法,其特点是从“果”到“因”,即在已经发病之后来研究发病的原因,这种研究需要两类对象,第一类是患有某种疾病的人,称为病例, 第二类是不患该病的人,称为对照。研究时主要采用调查方式,分别调查这二类对象过去是否接触危险因素,接触的比例与强度如何,然后由这二类对象接触该危险因素的不同程度,估计发病与危险因素之间的关系,并在此基础上对所提出的病因学假设作出推断。
一.成组病例对照研究 成组病例对照研究(Grouped Case-Control Study)是未将病例与对照配对的病例对照研究。这类研究中无法直接计算暴露与非暴露组的发病率;所比较的是病例组和对照组中暴露者比数(odds),两个比数之比值称为比数比(odds ratio)。
一.成组病例对照研究 比数(odds),某事件发生的概率和不发生的概率之比。 Odds=P/(1-P) 病例组中暴露的比数=[a/(a+b)]/[b/(a+b)]=a/b 对照组中暴露的比数=[c/(c+d)]/[d/(c+d)]=c/d 两个比数之比值称为比数比:OR(odds ratio)。 病例组中暴露的比数与对照组中暴露的比数之比值 OR=[a/b]/[c/d]=ad/bc 可以证明:在发病率较低的疾病中可由比数比来近似地估计相对危险度 (P320)。
一.成组病例对照研究 例21.3 为研究子宫内膜癌与绝经期使用雌激素的关系,采用成组病例对照研究,对183名子宫内膜癌患者(病例组)及183名非子宫内膜癌患者(对照组)进行调查,得口服雌激素情况如下: 表17.2 子宫内膜癌与口服雌激素的关系 ──────────────────────────────────────── 使用过雌激素 未用过 小计 ──────────────────────────────────────── 病例组(子宫内膜癌患者) 55 128 183 对照组(非子宫内膜癌患者) 19 164 183 ──────────────────────────────────────── 小计 74 292 366 ────────────────────────────────────────
一.成组病例对照研究 解:由(17.19)式, =(55×164)/(19×128)=3.71 H0:Ψ=1 H1:Ψ≠1 =[(55×164-19×128)2(366-1)]/(74×292×183×183)=21.89 由于 >χ20.01=6.635,故P<0.01,拒绝H0,认为总体比数比不为1,患子宫内膜癌与绝经期使用过雌激素有关;并估计绝经期使用过雌激素的妇女患子宫内膜癌的相对危险度是不用者的3.71倍。
一.成组病例对照研究 病例对照研究优点: 简单易行,不需长期随访,特别适用于研究发病率低的疾病。 病例对照研究缺点: 回顾性研究,从果到因,不合理,可靠性差。
二.分层分析 有时在分析某危险因素与疾病之间的关系时, 有些额外因素会对所分析的问题起干扰作用,这些额外因素就称为混杂因素。它能部分甚至全部掩盖危险因素与疾病之间的真实关系,故必须设法排除。例如要研究卫生状况与某传染病发病之间的关系,但传播可能与居住密度有关 ,故居住密度对所研究的问题就成为一个混杂因素,如果结论中未排除该因素之干扰,将影响推断之可靠性。以下这个假设例说明混杂因素所起的干扰作用,假定混杂因素分为2个水平(Ⅰ,Ⅱ)
二.分层分析 表17.3 混杂因素干扰的假设例 ──────────────────────────────────────── 混杂因素未分层 混杂因素分层分析 ────────── ────────────────────── Ⅰ Ⅱ ────────── ────────── 暴露 非暴露 暴露 非暴露 暴露 非暴露 ──────────────────────────────────────── 病例 300 56 294 21 6 35 对照 700 944 606 79 94 865 ────────────────────────────────────────
二.分层分析 但将混杂因素分为两层后,Ⅰ,Ⅱ层的分别仅为1.83,1.58。 由此可见该混杂因素的干扰会导致不正确的推断。分层分析有助于克服混杂因素之干扰。 分层分析(Stratified Analysis)是对可能的混杂因素(常常是性别,年龄,或其它有关条件)进行分层,使得每一层内混杂因素处于同一水平上,这样就可排除它的干扰。
K层2×2表统计分析步骤: 以P323,例17.4为例,根据年龄分为5层 (1)计算各层的比数比,作显著性检验。 (2)检验各层的总体比数比是否相同。 如差异有统计学意义,结束。 (3)如差异无统计学意义, 计算公共比数比。 (4)检验公共比数比和1之间的差异是否有统计学意义。
三.配对病例对照研究 在成组病例对照研究中,为了排除混杂因素的干扰可以使用分层分析,但当可能的混杂因素较多时,所分层次就会很多,而且必须调查较大的样本, 否则各层中频数就会太小,这种情况有时会给工作带来困难,一个较好的控制混杂因素的办法就是配对病例对照研究(Paired Case-Contral Study)。
三.配对病例对照研究 本方法的基本点就是对每一名病例, 选择一名或数名各种控制因素与病例相近的非病例作为对照者,在调查一开始就把他们配成对 ,然后一对对地进行比较分析。这样做可以使各对内部保持均衡,尽可能排除或减少混杂因素的影响,从而提高分析的效能。配对因素可以是按属性分类的变量,如性别、民族、血型、职业、既往病史等,也可以是连续性变量,如年龄、血压、某种生理、生化指标等。
第五节 Logistic回归 Logistic回归是一个较好的,目前常用的,控制混杂因素的多因素分析方法。 多变量分析中使用的多元线性回归模型,应变量y常取为一个计量数据。 Logistic回归中y呈现为二值变量形式。如发病与不发病,死与活,成功与失败,阳性与阴性, 等等。当应变量只取二个数值时常记为1与0,在SAS的logistic回归中最好记成1与2。 Y=1: 反应,如: 发病,死亡,成功 Y=2:不反应,如:不发病,存活,不成功
第五节 Logistic回归 Y:反应变量(response variable) X: 协变量(covariate),解释(explanatory)变量, 伴随变量等, X可以呈现二值变量的形式,也可以计量的或等级的指标。 logistic回归是一种概率模型。设P为Y呈现反应值为1的概率,P=P(Y=1),则Q=1-P,为呈现非反应值的概率,Q=P(Y=2)。 P与各协变量Xi之间的关系可用下式表示。
第五节 Logistic回归 发病的概率: P=[exp(b0+b1x1+…+bmxm)]/[1+exp(b0+b1x1+…+bmxm)] 不发病的概率: Q=1-P=1/[1+exp(b0+b1x1+…+bmxm)] P/(1-P)=exp(b0+b1x1+…+bmxm) 定义y=ln[P/(1-P)]为logit变换,它是比数的自然对数值,则有 y=ln[p/(1-p)]= b0+b1x1+…+bmxm
第五节 Logistic回归 SAS的Logistic回归和多元回归一样,也可用逐步剔选的方法选择变量,使方程内变量都显著,方程外变量都不显著,称为逐步Logistic回归。 Logistic回归模型既适用于队列研究又适用于病例对照研究。
Logistic回归的应用 1. 在队列研究中用于预测 把各协变量代入方程,得到P值,即发病的概率。 2. 因素分析 分析哪些因素(协变量)对疾病的发生有显著作用。 对各偏回归系数作显著性检验,如显著,则说明在排除其它因素的影响后,该因素与发病有显著关系。
Logistic回归的应用 3. 求各因素在排除其它因素的影响后,对于发病的相对危险度(或比数比) 如某因素Xi的偏回归系数为bi, 则该因素Xi对于发病的比数比为exp(bi) (1) 当Xi为二值变量时,如吸烟(1=吸,0=不吸) exp(bi)为吸烟对于发病的比数比
Logistic回归的应用 (2)当Xi为等级变量时,如吸烟(0=不吸,1=少量,2=中等,3=大量)。 exp(bi)为每增加一个等级,发病的相对危险度 如大量对于不吸其发病的相对危险度为:exp(3bi) (3)当Xi为连续变量时,如年龄(岁) exp(bi)为每增加一岁时,发病的相对危险度 如60岁相对于35岁其发病的相对危险度为exp(25bi)
Logistic回归的应用 4. 比较各因素对于发病的相对重要性 比较各标准化偏回归系数bi’ 绝对值的大小,绝对值大的对发病的作用也大。 5. 考察因素之间的交互作用 如考察XL和XK之间的交互作用是否显著,再增加一各指标:XLK= XL*XK ,如其偏回归系数bLK显著,则XL和XK之间的交互作用显著。 6. Logistic回归也可用于二类间的判别分析。
判别分类表 预测值 观察值 合计 不治愈 治愈 不治愈 17 6 23 治愈 5 87 92 合计 22 93 115
判别分类表 敏感性(Sensitivity)=实际不治愈病例中所预测不治愈比例 17/23=73.9% 特异性(specificity)=实际治愈病例中所预测治愈比例 87/92=94.6% 正确率(correct)=预测正确的病例数 / 总病例数 (17+87)/ 115=90.4% 假阳性率(false positive rate)=预测不治愈而实际治愈比例 5/22=22.7% 假阴性率(false negative rate)=预测治愈而实际不治愈比例 6/93=6.5%
由此可得LOGISTIC回归方程为: P/(1-P)=EXP(-17.96+3.63X5+1.60X6+1.91X7+2.57X8) 方程内各偏回归系数都大于零,因此这些变量数值越大不治愈的概率越大。 根尖X线片有阴影的,换药次数多的,根管充填不密合或超填的,医生经验不丰富的病人不容易治愈。
对象和方法: 1)一般的样本描述:样本来源,例数,死亡数,存活数。性别和年龄构成情况等。 2)各指标含义及其数量化情况。 X1A:胃癌位置是否胃底, 胃底=1, 非胃底=0。 。。。。。。 YY:手术后3年是否死亡,死亡=1,存活=0 。 3)统计方法: 用SAS6.12统计软件包进行数据处理和统计分析。 单变量分析时,计数资料用卡方检验,或确切概率计算比较各水平的死亡率;计量资料用t检验比较死亡组和存活组的均数之差异。 多变量分析用逐步LOGISTIC回归。以手术后3年是否死亡(YY)作为反应变量,其余指标为协变量。剔选变量的P值均取0.05。
结果: 1)单变量分析结果: 如需详细给出结果,可对每个变量给出一个R×C表或四格表,包含各水平的死亡率和各水平死亡率比较的P值;对于计量指标给出死亡组和存活组的例数,均数和标准差以及两均数差异显著性检验的P值。 如只需给出简单结果,可仅给出对于是否死亡有显著作用的指标的情况。 2)LOGISTIC回归结果: 给出最后一步方程内变量的情况。
指标 偏回归系数 标准误 P值 标准偏回归系数 常数项 -2.8770 2.0954 0.1697 . X3C 2.2844 1.0210 0.0253 0.519452 X5 1.0102 0.3147 0.0013 0.931773 X6 1.6321 0.5449 0.0027 0.837360 X8 -0.5764 0.1874 0.0021 -0.917033 X9 0.000386 0.000186 0.0384 0.392918
各指标的相对危险度: 大体类型为浸润对于非浸润3年内死亡的相对危险度为: e2.2844=9.82 胃癌深度级别每增加1级: e1.0102=2.75 淋巴结转移级别每增加1级: e1.6321=5.11 血色素每减少1g/L: e0.5764=1.78 白细胞数每增加1000个/mm3:e0.386 =1.47
从标准偏回归系数的绝对值大小可得: 胃癌深度级别,淋巴结转移级别和血色素对于手术后3年生存率的影响较大,胃癌的大体类型和白细胞数淋巴结转移级别和血色素对于手术后3年生存率的影响较小。
LOGISTIC回归方程为: y=ln(P/(1-P))= -2.8770+2.2844 ×大体类型为浸润 +1.0102 ×胃癌深度级别 +1.6321 ×淋巴结转移级别 -0.5764 × 血色素(g/L) +0.000386 × 白细胞数(个/mm3)
用此LOGISTIC回归方程对于这98例样本进行回代判别,如P大于0.5判为死亡,P小于0.5判为存活,结果如下:用此LOGISTIC回归方程对于这98例样本进行回代判别,如P大于0.5判为死亡,P小于0.5判为存活,结果如下: 回归方程判别结果 实际情况 死亡 存活 合计 死亡 47 7 54 存活 9 35 44 合计 56 42 98
敏感性(Sensitivity)=实际死亡病例中所预测死亡比例敏感性(Sensitivity)=实际死亡病例中所预测死亡比例 47/54=87.0% 特异性(specificity)=实际不死亡病例中所预测不死亡比例 35/44=79.5% 正确率(correct)=预测正确的病例数 / 总病例数 (47+35)/ 98=83.7% 假阳性率(false positive rate)=预测死亡而实际不死亡比例 9/56=16.1% 假阴性率(false negative rate)=预测不死亡而实际死亡比例 7/42=16.7%