1 / 58

第十章 直线相关与直线回归

第十章 直线相关与直线回归. 预防医学教研室 胡启托 Email:574537882@qq.com. 直线相关与回归的用途. 医学研究中,变量之间的关系更多地表现为具有随机性的一种“趋势”,即非确定性关系; 欲探索医学研究中变量间的非确定性关系,常用回归与相关分析的方法。 相关分析变量之间有无关系、方向、关系的密切程度; 回归分析变量之间的数量依存关系。. 第一节 直线相关 ( linear correlation ). 一、直线相关的概念. 直线相关是研究两变量 x 、 y 之间 协同变化线性关系的分析方法。. ★ 对资料的要求:

Download Presentation

第十章 直线相关与直线回归

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 第十章 直线相关与直线回归 预防医学教研室 胡启托 Email:574537882@qq.com

  2. 直线相关与回归的用途 • 医学研究中,变量之间的关系更多地表现为具有随机性的一种“趋势”,即非确定性关系; • 欲探索医学研究中变量间的非确定性关系,常用回归与相关分析的方法。 • 相关分析变量之间有无关系、方向、关系的密切程度; • 回归分析变量之间的数量依存关系。

  3. 第一节 直线相关 ( linear correlation ) 一、直线相关的概念 直线相关是研究两变量x、y 之间 协同变化线性关系的分析方法。

  4. ★对资料的要求: 1.x、y都是正态分布资料的随机变量。 2.x、y必须是连续变量。 3.两样本含量必须大于或等于30(N≥30)。 4.两随机变量必须是成对的数据,而且每对 数据之间是互相独立的。

  5. 二、相关系数的意义与计算 • 表示方法:-1  r  1 • *意义:描述两个变量直线相关的方向与 • 密切程度的指标。

  6. 相关系数示意: 正相关 负相关 0 < r <1 -1 < r <0 完全正相关 完全负相关 r = 1 r = - 1

  7. 相关系数示意 零相关 零相关 零相关 r ≌ 0 r ≌ 0 r ≌ 0

  8. 相关系数的计算:

  9. 例10.1某医师欲了解急性脑血管病人血清与脑脊液白细胞介素(IL-6)水平,随机抽取某医院确诊的10例蛛网膜下腔出血(SAH)患者24h内血清和脑脊液IL-6(pg/ml),数据如下,问SAH患者血清IL-6和脑脊液IL-6间是否有直线相关关系存在?例10.1某医师欲了解急性脑血管病人血清与脑脊液白细胞介素(IL-6)水平,随机抽取某医院确诊的10例蛛网膜下腔出血(SAH)患者24h内血清和脑脊液IL-6(pg/ml),数据如下,问SAH患者血清IL-6和脑脊液IL-6间是否有直线相关关系存在?

  10. 分析步骤如下: 1. 绘制散点图,观察两变量间是否呈直线趋势 , 从散点图可见,SAH患者血清IL-6和脑脊液IL-6散点有线性趋势存在,而且趋势的方向相同。 2. 编制相关系数计算表

  11. 220 200 180 160 140 脑脊液IL-6 (pg/ml) 120 100 80 60 20 40 60 80 100 血清IL-6 (pg/ml)

  12. 表10-1 SAH 患者血清和脑脊液IL-6(pg/ml)检测结果

  13. 分别求出各栏中的总和及均数和标准差

  14. 3.计算  、 的离均差平方和与离均差积和及相关系数

  15.   本例       ,显示血清IL-6和脑脊液IL-6之间呈正相关关系。

  16. 4.相关系数的假设检验 目的:检验 r是否来自总体相关系数  = 0的总体,推断两变量的相关关系是否成 立。 1)t 检验公式: S r为相关系数的标准误

  17. H0 : =0, H1:   0, =0.05 本例 r = 0.7237, n =10代入公式 P < 0.05。 结论:可以认为患者血清IL-6和脑脊液IL-6之间直线相关关系存在。

  18. 2)查表法 根据自由度查相关系数 r 界值表,查出 界值,若 , P>0.05 ,不拒绝 H0 , 若 , P<0.05,拒绝 H0,接受 H1 。 本例 ν=10-2=8, 查 r 界值表: , 本 r=0.7232>0.715 , P <0.01 , 拒绝 H0,接受 H1。

  19. 5.应用相关系数时注意事项 *分析资料要求 x、y两变量都是来自正态总体的 随机变量。 *进行相关分析前,应先绘制散点图。只有当散点有线性趋势时,方可进行直线相关分析。 *相关分析时,小样本资料经 t 检验只能推断两 变量有无直线关系,而不能推断其相关的密切 程度,要推断两变量间相关的程度,样本含量 必须足够大( n≥30)。

  20. *相关关系不等于因果关系。 两变量之间相关 系数 有统计学意义,只是从统计学上反映出他们之间的变化存在某种规律性,不能直接把这种相关性解释为因果关系。有无因果关系的结论,还须从专业角度作进一步研究。

  21. *当观察例数较少,例如 n<15时,相关系数容易受个别观察对象的特殊值所影响,故不够稳定。 *在实际工作中,应区别相关有统计学意义与相关 强度。相关具有统计学意义指该样本相关系数 r 来自相关系数的总体的概率很小。而相关强度表示两变量间相互联系的 密切程度,其大小是用 r 的绝对值来反映。

  22. 第二节 直线回归 一、直线回归的概念: • 分析某变量随另一变量变化而变化依存关系的方法称为直线回归(linear regression), • 它通过拟合线性方程来描述两变量间的回归关系。

  23. *直线回归的意义: 在研究两个随机变量(双变量)间的关系时,当散点图呈直线趋势,经相关系数的显著性检验有显著性时,常常要求由一个变量值推算另一个变量值,这时可用回归分析。 *对资料的要求: 自变量 x:正态总体中的随机变量或指定变量 因变量 y:服从正态分布的随机变量

  24. 图13-3 回归直线、回归系数、残差示意图

  25. 直线回归方程的表达通式: 式中 为由 x 推算 y 的估计值,a 为常数,为回归直线在 y 轴上的截距, ,表示直线与纵轴 y 的交点在原点上方, ,表示直线与 y 轴的交点在原点下方; ,表示回归线通过原点。

  26. y 0 x a 为回归直线在 y 轴上的截距 a> 0 a = 0 a < 0 b

  27. y 0 x b 为回归系数,即回归直线的斜率; 其统计学意义是 x 增加(减)一个单 位,y 平均变动 b 个单位 b = 0 b > 0 b = 0 b < 0

  28. 二、直线回归方程的建立

  29. 最小二乘法原理: 各点到回归线的纵向 距离的平方和最小。

  30. b可正可负,当正相关时 b 为正,x 增一个单位, y 平均增 b个单位,当负相关时 b 为负, x 每增一个单位,y 就平均减 b 个单位。

  31. 例:某研究者欲用测定的血清IL-6含量,来预测和估计急性蛛网膜下腔出血患者脑脊液IL-6水平,可以例13.1数据,建立脑脊液IL-6对血清IL-6的直线回归方程。例:某研究者欲用测定的血清IL-6含量,来预测和估计急性蛛网膜下腔出血患者脑脊液IL-6水平,可以例13.1数据,建立脑脊液IL-6对血清IL-6的直线回归方程。 1)绘制散点图 由13.1原始数据散点图可见,本资料散点有线性趋势存在,故可进行线性回归分析。 2)计算

  32. 表10-2 SAH 患者血清和脑脊液IL-6(pg/ml)检测结果

  33. 3)计算回归系数和截距 本例回归系数 b =1.1797,表明SAH患者脑脊液IL-6随血清IL-6增加而增加,且血清IL-6每增1pg/ml时,脑脊液IL-6平均增加1.1797pg/ml。 4)建立回归方程

  34. 5)绘制回归直线 在 x 实测数据范围内任意选两个较远的且容易读数的 x 值,代入回归方程求出 值,根据 两对变量值在直角坐标图上描两点,通过两点连一直线,此直线即为回归直线。

  35. p2 肺活量() p1 L , Y 体重(kg),x 如: P1: P2: 十名女中学生体重与肺活量散点图与回归直线

  36. 三、回归系数的假设检验与区间估计 目的:推断总体回归系数  是否为0,确定所求得的回归方程是否成立。 1.假设检验-- t 检验 S b为样本回归系数标准误 S y.x为剩余标准差

  37. 例:试问上述所建立的回归方程 是否成立? 建立假设: SAH患者血清IL-6和脑脊液IL-6 间无直线回归关系 SAH患者血清IL-6和脑脊液IL-6 间有直线回归关系

  38. 计算统计量:

  39. 确定 P 值,判断结果: ,查 t 界值表 , tb=2.962>2.306 , P<0.05。 结论:可认为SAH患者血清IL-6和脑脊液IL-6间 有直线回归关系,所求线性回归方程成立。 ※ 同一组资料作直线相关与回归时 tb与 tr 等值。

  40. 2.总体回归系数区间估计 总体回归系数的 置信区间为: 本例总体回归系数的 95%置信区间为: 1.1797±2.306×0.3983=0.262,2.098 结论: 总体回归系数 95%置信区间为 0.262pg/ml~2.098pg/ml。

  41. 三、回归方程的应用 ★描述两个变量之间的数量依存关系 ★利用回归方程进行预测 此是回归方程重要 应用之一,将自变量 x 的值代入回归方 程,则可得到因变量 y 的估计值,即预测 值。如已知SAH患者第一天血清IL-6与脑脊 液IL-6间有直线关系存在,就可以以某SAH 患者已检出的血清 IL-6 来预测SAH 患者脑脊液IL-6含量。

  42. ★利用回归方程进行统计控制 指用回归方程进行逆估计,如某环境监测站以汽车流量作为自变量(x),大气中NO2作应变量(y),拟合直线方程 。欲将大气中NO2的浓度控制在0.05㎎/L以下,估计汽车流量每小时应控制在多少辆以下. 将 y=0.05代入前面的回归方程: 如果要让大气中的NO2的浓度控制在0.05㎎/L以下,必须将汽车流量控制在1183辆/小时以下。

  43. ★用容易测量的指标估计不易测量的指标 是指由建立的回归方程对未知参数值进行估计, 如体重与体表面积关系中,体重是较容易测量的 指标,而体表面积是不易准确测量的指标。若根 据一组实测数据,建立体表面积(应变量 y )对 体重(自变量 x )的直线回归方程后,即可根据 体重来估计体表面积 的大小。

  44. 四、直线回归与直线相关的联系与区别 区别: 1.意义直线回归反映两变量的依存关系;直线相关反映两变量的相互关系。 2.对资料的要求 直线回归:自变量是正态总体的随机变量或指定变量,y 一定是正态总体的随机变量; 直线相关:两变量均为正态总体的随机变量。

  45. 联系: 1.同一组资料的 r与 b 的正负符号是一致的; 2.同一组资料的 r和 b 的假设检验结果是一致的,即 t r = t b。 3.两变量间有相关关系,不一定有因果关系;但两变量间有因果关系,一定有相关关系。

  46. 五、应用注意事项 1. 进行相关与回归时先绘制散点图,还要观察有无异常点。 2. 回归与相关的应用仅限于原实测数据的范围内使用。

  47. 第三节 等级相关 • 如果观测值是等级资料,则可以用等级相关来 表达两事物之间的关系。 • 等级相关是分析X、Y 两变量等级间是否相关的一种非参数方法。 • 常用的等级相关方法是Spearman等级相关。 • 与线性相关系数r 一样,等级相关系数 rs的数值亦在 -1与 +1之间,数值为正表示正相关,数值为负表示负相关。

  48. 一、等级相关系数的计算 Spearman 等级相关系数 rs可由公式计算 式中,n 表示样本含量; d 表示 X、Y 的秩次之差。

  49. 例10.4 某医生做一种研究,欲了解人群中氟骨症患病率(%)与饮用水中氟含量(mg/l)之间的关系。随机观察8个地区氟骨症患病率与饮用水中氟含量,数据如表10-4(2)、(4)两栏。试计算等级相关系数rs。

More Related