460 likes | 836 Views
第十五章 第二节 Logistic 回归分析. 山西医科大学卫生统计 刘桂芬 liugf66@yahoo.com. 一、前言. 在疗效评价 , 发病因素研究中 , 应变量为分类指标 有效 治愈 发生 阳性 Y 无效 死亡 未发生 阴性 线性回归分析: 正态随机变量. 多重线性回归难以解决的问题. 医学数据的复杂、多样性 连续型和离散型数据 医学研究中疾病的复杂性 一种疾病可能有多种致病因素或与多种危险因素有关 疾病转归的影响因素也可能多种多样 临床治疗结局的综合性. 解决方法. 简单的 :
E N D
第十五章 第二节Logistic回归分析 山西医科大学卫生统计 刘桂芬 liugf66@yahoo.com
一、前言 • 在疗效评价,发病因素研究中,应变量为分类指标 • 有效 治愈 发生 阳性 • Y • 无效 死亡 未发生 阴性 • 线性回归分析: 正态随机变量
多重线性回归难以解决的问题 • 医学数据的复杂、多样性 • 连续型和离散型数据 • 医学研究中疾病的复杂性 • 一种疾病可能有多种致病因素或与多种危险因素有关 • 疾病转归的影响因素也可能多种多样 • 临床治疗结局的综合性
解决方法 • 简单的: • 固定其他因素,研究有影响的一两个因素; • 按1~2个因素组成的层进行分层分析(层内和综合分析)。 • 多因素: • 寻找合适的统计模型
二、 Logistic回归模型 • Logistic回归 二分类 多分类 条件Logistic回归 非条件Logistic回归
概述 • 1967年Truelt J,Connifield J和Kannel W在《Journal of Chronic Disease》上发表了冠心病危险因素的研究,较早地将Logistic回归用于医学研究。
Logistic回归分析解决的问题 医学研究中, 有关生存与死亡, 发病与未发病, 阴性与阳性等结果的产生可能与病人的年龄、性别、生活习惯、体质、遗传等许多因素中哪些有关?如何找出其中哪些因素对结果有影响?
Logistic回归分析 设:暴露组 发生率 p1 /未发生率(1-p1) 对照组 发生率 p0 /未发生率(1-p0) p表示暴露因素X时个体发病的概率,则发病的概率 与未发病的概率 1- p之比称为优势(odds). 暴露组 odds p1 / (1-p1) 对照组 odds p0 / (1-p0)
Logit变换 也称对数单位转换 logit P= 病例组 与对照组 的 优势比 (odds retio ,OR)
Logistic回归分析模型 • 进行logit变换
Logistic回归模型是一种概率模型, 它是以疾病,死亡等结果发生的概率为因变量, 影响疾病发生的因素为自变量建立回归模型。 它特别适用于因变量为二项, 多项分类的资料。 • 在临床医学中多用于鉴别诊断, 评价治疗措施的好坏及分析与疾病预后有关的因素等。
Logistic回归分析模型 经数学变换可得: 称为非条件logistic回归模型,常 应用于成组数据的分析 • Exp/e表示指数函数。
三、参数估计 最大似然估计法 (Maximum likehood estimate) 似然函数:L=∏Pi 对数似然函数: lnL=∑(ln P)=ln P1+ln P2+…+ln Pn 非线性迭代方法-Newton-Raphson法
logistic 回归系数的意义 • OR=e β • lnOR= β β表示自变量每增加一个单位,其优势比对数值的改变量, 亦即自变量每增加一个单位,其相对危险度为eβ。
回归系数 的意义 设只有一个自变量 的Logistic方程 =0 表示非暴露, =1表示暴露。
ln(OR)=logit[P(1)]-logit[P(0)] =(β0+β1×1)-(β0+β1×0) = β1
例如,吸烟与肺癌的关系的研究 令 1 吸烟 1 肺癌 X = y= 0 不吸 0 非肺癌 若求得: β= 1, OR=e 表明:吸烟个体 患肺癌的危险性是不吸烟个体的2.71828倍。
注意 变量X的赋值与OR的关系 令 0 吸 X = 1 不吸 则求得 β= ? OR=? 则求得: β= -1, OR=1/e 意思是: 不吸烟的人得肺癌症的危险 性是吸烟的36.79%。
Logistic回归中的常数项(b0)表示在不接触任何潜在危险/保护因素条件下,效应指标发生与不发生事件的概率之比的对数值。Logistic回归中的常数项(b0)表示在不接触任何潜在危险/保护因素条件下,效应指标发生与不发生事件的概率之比的对数值。 • Logistic回归系数( bi)表示,某一因素改变一个单位时,效应指标发生与不发生事件的概率之比的对数变化值,即OR的对数值。
四、参数检验 • 1.似然比检验(likehood ratio test) 通过比较包含与不包含某一个或几个待检验观察因素的两个模型的对数似然函数变化来进行,其统计量为G G=-2(ln Lp-ln Lk) n较大时, G近似服从自由度为待检验因素个数的2分布。
比分检验(score test) 以未包含某个或几个变量的模型计算保留模型中参数的估计值,并假设新增参数为零,计算似然函数的一价偏导数及信息距阵,两者相乘便得比分检验的统计量S 。n 较大时, S近似服从自由度为待检因素个数的2分布。
Wald检验( wald test) 即广义的t检验,统计量为u u服从正态分布,即为标准正态离差。
以上三种方法中,似然比检验最可靠,比分检验一般与它相一致,但两者计算量均较大;而Wald检验未考虑各因素间的综合作用,在因素间有共线性存在时,结果不像其它两者可靠。以上三种方法中,似然比检验最可靠,比分检验一般与它相一致,但两者计算量均较大;而Wald检验未考虑各因素间的综合作用,在因素间有共线性存在时,结果不像其它两者可靠。
分析因素xi为等级变量时,如以最小或最大等级作参考组,并按等级顺序依次取为0,1,2,…。此时, e(bi) 表示xi增加一个等级时的优势比, e(k* bi)表示xi增加k个等级时的优势比。 • 分析因素xi为连续性变量时, e(bi)表示xi增加一个计量单位时的优势比。
六、 Logistic回归分析方法 分析思想与多重线性回归分析相同 筛选变量的方法: 前进法 后退法 逐步法 统计量不再是线性回归分析中的F统计 量,而是上面介绍的三种统计量之一。
为计算方便,通常向前选取变量用似然比或比分检验,而向后剔除变量常用Wald检验。为计算方便,通常向前选取变量用似然比或比分检验,而向后剔除变量常用Wald检验。
七、条件Logistic回归 对配比调查资料,多采用条件Logistic回归分析。 Logistic回归方程
假设自变量在各配比组对结果变量的作用相同,即自变量的回归系数与配比组无关。假设自变量在各配比组对结果变量的作用相同,即自变量的回归系数与配比组无关。 • 配比设计的Logistic回归模型 不含常数项。
可见非条件Logistic回归模型与回归模型十分相似,只不过其参数估计是根据条件概率得到的,因此称为条件Logistic回归模型。可见非条件Logistic回归模型与回归模型十分相似,只不过其参数估计是根据条件概率得到的,因此称为条件Logistic回归模型。 • 条件Logistic回归模型的回归系数检验与解释同非条件Logistic回归。
八、 Logistic回归的应用 • 1.因素分析 可用于危险/保健因素的筛选,并确定其作用大小。 • 2.预测预报 • 若已知x1, x2 … xm数值大小时, 通过模型可以预测某个病例发病、死亡的概率。
十、应用中应注意的问题 • (一)应用条件 1. 各观察对象间相互独立; 2. logit P与自变量呈线性关系。 3.异常值 4.变量间的共线性问题
(二)变量的数量化 • 变量的编码要易于识别 • 注意编码的顺序关系 • 改变分类变量的编码,其分析的意义应不变。
变量的编码 • 变量名 变量标识 变量值 值标识 SEX 性别 1 男 2 女 EDU 教育程度 0 文盲 1 小学 2 初中及以上
(三)哑变量的设置和引入 • 哑变量,又称指示变量 • 有利于检验等级变量各个等级间的变化是否相同。 • 一个k分类的分类变量,进行Logistic回归分析前需将该变量转换成k-1个指示变量或哑变量(dummy variable)来表示。这样指示变量都是二分变量,每一个指示变量均有一个回归系数,其解释同前。
教育程度:文盲,小学,初中,高中以上 • 哑变量的设置
(四)其他问题 研究对象例数的确定 观察单位数与分析变量个数 • logistic回归的局限性 • 理论上的不足:自变量对疾病的影响是独立的,但实际情况及推导结果不同。 • 模型有不合理性:“乘法模型”与一般希望的“相加模型”相矛盾。 • 最大似然法估计参数的局限 • 样本含量不宜太少:例数大于200例时才可不考虑参数估计的偏性。