580 likes | 680 Views
第十章 直线相关与直线回归. 预防医学教研室 胡启托 Email:574537882@qq.com. 直线相关与回归的用途. 医学研究中,变量之间的关系更多地表现为具有随机性的一种“趋势”,即非确定性关系; 欲探索医学研究中变量间的非确定性关系,常用回归与相关分析的方法。 相关分析变量之间有无关系、方向、关系的密切程度; 回归分析变量之间的数量依存关系。. 第一节 直线相关 ( linear correlation ). 一、直线相关的概念. 直线相关是研究两变量 x 、 y 之间 协同变化线性关系的分析方法。. ★ 对资料的要求:
E N D
第十章 直线相关与直线回归 预防医学教研室 胡启托 Email:574537882@qq.com
直线相关与回归的用途 • 医学研究中,变量之间的关系更多地表现为具有随机性的一种“趋势”,即非确定性关系; • 欲探索医学研究中变量间的非确定性关系,常用回归与相关分析的方法。 • 相关分析变量之间有无关系、方向、关系的密切程度; • 回归分析变量之间的数量依存关系。
第一节 直线相关 ( linear correlation ) 一、直线相关的概念 直线相关是研究两变量x、y 之间 协同变化线性关系的分析方法。
★对资料的要求: 1.x、y都是正态分布资料的随机变量。 2.x、y必须是连续变量。 3.两样本含量必须大于或等于30(N≥30)。 4.两随机变量必须是成对的数据,而且每对 数据之间是互相独立的。
二、相关系数的意义与计算 • 表示方法:-1 r 1 • *意义:描述两个变量直线相关的方向与 • 密切程度的指标。
相关系数示意: 正相关 负相关 0 < r <1 -1 < r <0 完全正相关 完全负相关 r = 1 r = - 1
相关系数示意 零相关 零相关 零相关 r ≌ 0 r ≌ 0 r ≌ 0
例10.1某医师欲了解急性脑血管病人血清与脑脊液白细胞介素(IL-6)水平,随机抽取某医院确诊的10例蛛网膜下腔出血(SAH)患者24h内血清和脑脊液IL-6(pg/ml),数据如下,问SAH患者血清IL-6和脑脊液IL-6间是否有直线相关关系存在?例10.1某医师欲了解急性脑血管病人血清与脑脊液白细胞介素(IL-6)水平,随机抽取某医院确诊的10例蛛网膜下腔出血(SAH)患者24h内血清和脑脊液IL-6(pg/ml),数据如下,问SAH患者血清IL-6和脑脊液IL-6间是否有直线相关关系存在?
分析步骤如下: 1. 绘制散点图,观察两变量间是否呈直线趋势 , 从散点图可见,SAH患者血清IL-6和脑脊液IL-6散点有线性趋势存在,而且趋势的方向相同。 2. 编制相关系数计算表
220 200 180 160 140 脑脊液IL-6 (pg/ml) 120 100 80 60 20 40 60 80 100 血清IL-6 (pg/ml)
表10-1 SAH 患者血清和脑脊液IL-6(pg/ml)检测结果
3.计算 、 的离均差平方和与离均差积和及相关系数
本例 ,显示血清IL-6和脑脊液IL-6之间呈正相关关系。
4.相关系数的假设检验 目的:检验 r是否来自总体相关系数 = 0的总体,推断两变量的相关关系是否成 立。 1)t 检验公式: S r为相关系数的标准误
H0 : =0, H1: 0, =0.05 本例 r = 0.7237, n =10代入公式 P < 0.05。 结论:可以认为患者血清IL-6和脑脊液IL-6之间直线相关关系存在。
2)查表法 根据自由度查相关系数 r 界值表,查出 界值,若 , P>0.05 ,不拒绝 H0 , 若 , P<0.05,拒绝 H0,接受 H1 。 本例 ν=10-2=8, 查 r 界值表: , 本 r=0.7232>0.715 , P <0.01 , 拒绝 H0,接受 H1。
5.应用相关系数时注意事项 *分析资料要求 x、y两变量都是来自正态总体的 随机变量。 *进行相关分析前,应先绘制散点图。只有当散点有线性趋势时,方可进行直线相关分析。 *相关分析时,小样本资料经 t 检验只能推断两 变量有无直线关系,而不能推断其相关的密切 程度,要推断两变量间相关的程度,样本含量 必须足够大( n≥30)。
*相关关系不等于因果关系。 两变量之间相关 系数 有统计学意义,只是从统计学上反映出他们之间的变化存在某种规律性,不能直接把这种相关性解释为因果关系。有无因果关系的结论,还须从专业角度作进一步研究。
*当观察例数较少,例如 n<15时,相关系数容易受个别观察对象的特殊值所影响,故不够稳定。 *在实际工作中,应区别相关有统计学意义与相关 强度。相关具有统计学意义指该样本相关系数 r 来自相关系数的总体的概率很小。而相关强度表示两变量间相互联系的 密切程度,其大小是用 r 的绝对值来反映。
第二节 直线回归 一、直线回归的概念: • 分析某变量随另一变量变化而变化依存关系的方法称为直线回归(linear regression), • 它通过拟合线性方程来描述两变量间的回归关系。
*直线回归的意义: 在研究两个随机变量(双变量)间的关系时,当散点图呈直线趋势,经相关系数的显著性检验有显著性时,常常要求由一个变量值推算另一个变量值,这时可用回归分析。 *对资料的要求: 自变量 x:正态总体中的随机变量或指定变量 因变量 y:服从正态分布的随机变量
直线回归方程的表达通式: 式中 为由 x 推算 y 的估计值,a 为常数,为回归直线在 y 轴上的截距, ,表示直线与纵轴 y 的交点在原点上方, ,表示直线与 y 轴的交点在原点下方; ,表示回归线通过原点。
y 0 x a 为回归直线在 y 轴上的截距 a> 0 a = 0 a < 0 b
y 0 x b 为回归系数,即回归直线的斜率; 其统计学意义是 x 增加(减)一个单 位,y 平均变动 b 个单位 b = 0 b > 0 b = 0 b < 0
最小二乘法原理: 各点到回归线的纵向 距离的平方和最小。
b可正可负,当正相关时 b 为正,x 增一个单位, y 平均增 b个单位,当负相关时 b 为负, x 每增一个单位,y 就平均减 b 个单位。
例:某研究者欲用测定的血清IL-6含量,来预测和估计急性蛛网膜下腔出血患者脑脊液IL-6水平,可以例13.1数据,建立脑脊液IL-6对血清IL-6的直线回归方程。例:某研究者欲用测定的血清IL-6含量,来预测和估计急性蛛网膜下腔出血患者脑脊液IL-6水平,可以例13.1数据,建立脑脊液IL-6对血清IL-6的直线回归方程。 1)绘制散点图 由13.1原始数据散点图可见,本资料散点有线性趋势存在,故可进行线性回归分析。 2)计算
表10-2 SAH 患者血清和脑脊液IL-6(pg/ml)检测结果
3)计算回归系数和截距 本例回归系数 b =1.1797,表明SAH患者脑脊液IL-6随血清IL-6增加而增加,且血清IL-6每增1pg/ml时,脑脊液IL-6平均增加1.1797pg/ml。 4)建立回归方程
5)绘制回归直线 在 x 实测数据范围内任意选两个较远的且容易读数的 x 值,代入回归方程求出 值,根据 两对变量值在直角坐标图上描两点,通过两点连一直线,此直线即为回归直线。
p2 肺活量() p1 L , Y 体重(kg),x 如: P1: P2: 十名女中学生体重与肺活量散点图与回归直线
三、回归系数的假设检验与区间估计 目的:推断总体回归系数 是否为0,确定所求得的回归方程是否成立。 1.假设检验-- t 检验 S b为样本回归系数标准误 S y.x为剩余标准差
例:试问上述所建立的回归方程 是否成立? 建立假设: SAH患者血清IL-6和脑脊液IL-6 间无直线回归关系 SAH患者血清IL-6和脑脊液IL-6 间有直线回归关系
确定 P 值,判断结果: ,查 t 界值表 , tb=2.962>2.306 , P<0.05。 结论:可认为SAH患者血清IL-6和脑脊液IL-6间 有直线回归关系,所求线性回归方程成立。 ※ 同一组资料作直线相关与回归时 tb与 tr 等值。
2.总体回归系数区间估计 总体回归系数的 置信区间为: 本例总体回归系数的 95%置信区间为: 1.1797±2.306×0.3983=0.262,2.098 结论: 总体回归系数 95%置信区间为 0.262pg/ml~2.098pg/ml。
三、回归方程的应用 ★描述两个变量之间的数量依存关系 ★利用回归方程进行预测 此是回归方程重要 应用之一,将自变量 x 的值代入回归方 程,则可得到因变量 y 的估计值,即预测 值。如已知SAH患者第一天血清IL-6与脑脊 液IL-6间有直线关系存在,就可以以某SAH 患者已检出的血清 IL-6 来预测SAH 患者脑脊液IL-6含量。
★利用回归方程进行统计控制 指用回归方程进行逆估计,如某环境监测站以汽车流量作为自变量(x),大气中NO2作应变量(y),拟合直线方程 。欲将大气中NO2的浓度控制在0.05㎎/L以下,估计汽车流量每小时应控制在多少辆以下. 将 y=0.05代入前面的回归方程: 如果要让大气中的NO2的浓度控制在0.05㎎/L以下,必须将汽车流量控制在1183辆/小时以下。
★用容易测量的指标估计不易测量的指标 是指由建立的回归方程对未知参数值进行估计, 如体重与体表面积关系中,体重是较容易测量的 指标,而体表面积是不易准确测量的指标。若根 据一组实测数据,建立体表面积(应变量 y )对 体重(自变量 x )的直线回归方程后,即可根据 体重来估计体表面积 的大小。
四、直线回归与直线相关的联系与区别 区别: 1.意义直线回归反映两变量的依存关系;直线相关反映两变量的相互关系。 2.对资料的要求 直线回归:自变量是正态总体的随机变量或指定变量,y 一定是正态总体的随机变量; 直线相关:两变量均为正态总体的随机变量。
联系: 1.同一组资料的 r与 b 的正负符号是一致的; 2.同一组资料的 r和 b 的假设检验结果是一致的,即 t r = t b。 3.两变量间有相关关系,不一定有因果关系;但两变量间有因果关系,一定有相关关系。
五、应用注意事项 1. 进行相关与回归时先绘制散点图,还要观察有无异常点。 2. 回归与相关的应用仅限于原实测数据的范围内使用。
第三节 等级相关 • 如果观测值是等级资料,则可以用等级相关来 表达两事物之间的关系。 • 等级相关是分析X、Y 两变量等级间是否相关的一种非参数方法。 • 常用的等级相关方法是Spearman等级相关。 • 与线性相关系数r 一样,等级相关系数 rs的数值亦在 -1与 +1之间,数值为正表示正相关,数值为负表示负相关。
一、等级相关系数的计算 Spearman 等级相关系数 rs可由公式计算 式中,n 表示样本含量; d 表示 X、Y 的秩次之差。
例10.4 某医生做一种研究,欲了解人群中氟骨症患病率(%)与饮用水中氟含量(mg/l)之间的关系。随机观察8个地区氟骨症患病率与饮用水中氟含量,数据如表10-4(2)、(4)两栏。试计算等级相关系数rs。