230 likes | 831 Views
Logistic Regression Analysis Logistic 回归分析. 童新元 中国人民解放军总医院 2005 年 11 月 4 日. 问题背景. 在医学研究中 , 经常要分析某种结果的产生与哪些因素有关。 例如:生存与死亡 , 发病与未发病 , 阴性与阳性等结果的产生可能与病人的年龄、性别、生活习惯、体质、遗传等许多因素有关。如何找出其中哪些因素对结果的产生有显著性影响。 Logistic 回归分析能较好地解决这类问题。. 一、 Logistic 回归模型. 1 、 Logistic 回归模型的构造.
E N D
Logistic Regression AnalysisLogistic回归分析 童新元 中国人民解放军总医院 2005年11月4日
问题背景 在医学研究中, 经常要分析某种结果的产生与哪些因素有关。 例如:生存与死亡, 发病与未发病, 阴性与阳性等结果的产生可能与病人的年龄、性别、生活习惯、体质、遗传等许多因素有关。如何找出其中哪些因素对结果的产生有显著性影响。 Logistic回归分析能较好地解决这类问题。
1、 Logistic回归模型的构造 • 若因变量y为连续型正态定量变量时, 可采用多元线性回归分析y与变量 X1, X2, … , Xp之间的关系: y=β0+β1X1+β2X2+…+βpXp • 现y为发病或未发病,生存与死亡等定性分类变量,不能直接用上模型进行分析。 • 能否用发病的概率P来直接代替 y呢? • p=β0+β1X1+β2X2+…+βpXp
P发病概率 0≤ P≤1 等式左边变化范围 1-P不发病概率 0≤ P≤1 p/1-p 比数 (ratio) 0 ≤ p/1-p<+∞ ln(p/1-p) 对数比 (ratio) -∞< ln(p/1-p) <+∞
2、 Logistic 回归模型 • ln[P/(1-P)]=β0+β1X1+…+βpXp. 定义:logit(P)= ln[P/(1-P)]为 Logistic变换, Logistic 回归模型为: • logit(P)=β0+β1X1+…+βpXp ;
经数学变换可得: exp(β0+β1X1+…+βpXp) • P= ───────────── • 1+ exp(β0+β1X1+…+βpXp); • exp表示指数函数。
Logistic回归模型是一种概率模型, 它是以疾病,死亡等结果发生的概率为因变量, 影响疾病发生的因素为自变量建立回归模型。 它特别适用于因变量为二项, 多项分类的资料。 • 在临床医学中多用于鉴别诊断, 评价治疗措施的好坏及分析与疾病预后有关的因素等。
3、 软件的要求 CHISS软件要求,对分类变量Y数量化,而且赋值为: • 1 发病 (阳性, 死亡 , 治愈等) • y = • 0未发病 (阴性, 生存, 未治愈等). • 注意 :P=P(y=1), 即发病的概率。
4 、回归系数βi的意义 设只有一个自变量X,Logistic方程为 ln P/(1-P)= β 0 + β X 设,X= 1 表示暴露, 0 表示非暴露。 X=1时,发病概率为 P1; X=0时,发病概率为 P0。 P1/(1-P1) 则优势比 OR= ────── P0/(1-P0)
ln(OR)=ln[P1/(1-P1)]-ln[P0/(1-P0)] =(β0+β×1)-(β0+β×0) = β
logistic 回归系数的意义 • lnOR= β • OR=e β β表示自变量每增加一个单位,其优势比的对数值的改变量, 亦即自变量每增加一个单位,其相对危险度为e β。
例如,吸烟与肺癌的关系的研究 令 1 吸烟 1 肺癌 X = y= 0 不吸烟 0 非肺癌 若求得: β= 1, OR=e 含意是: 吸烟的人得肺癌症的危险 性是不吸烟的2.71828倍。
注意 变量X的赋值与OR的关系 令 0 吸烟 X = 1 不吸烟 则求得 β= ? OR=? 则求得: β= -1, OR=1/e 意思是: 不吸烟的人得肺癌症的危险 性是吸烟的36.79%。
二、logistic回归的作用 • (1)建立logistic回归模型: logit(p)=β0+β1X1+β2X2+…+βpXp ; • (2) 预测预报 • 若已知x1, x2 … xm数值大小时, 通过模型可以预测发病、死亡等的概率; • (3) 因素分析 • 寻找对发病、死亡等有关联的影响因素。
三、数据结构 设研究问题中含有p个指标变量x1, x2,…,xp及Y. n个观察对象. 其数据结构为: 编号 X1 X2 …. XP y 1 x11 x21 … x1p y1 2 x21 x22 … x2p y2 … … … … … … n xn1 xn2 … xnp yp 注:Y 的值要求数值化,Y=1 为发病 。
四、Logistic分析的具体任务: • 1) 采用极大似然估计或加权最小二乘估计确定方程中系数β i=0,1,2,3…; • 2) 采用(剩余)卡方检验对回归方程进行检验; • 3) 采用U检验对方程中的每个系数β i进行显著性检验。
五、CHISS的实现 • 点击 模型→数学模型→logistic模型
六、实例讲解 • 例11-1某研究者调查了15名正常病人和15名肺癌患者,记录了同肺癌发病有关的危险因素情况, 数据如下表。试分析各因素与肺癌间的关系。
七、Logistic回归方程的应用-----------预测与估计七、Logistic回归方程的应用-----------预测与估计 • 求出logistic回归方程后,可求出每个观测点发病概率。
上机实习题 <CHISS统计软件操作指南> • P79 例11-1 • P127 54