830 likes | 1.07k Views
演示课件. 普通高等教育 “ 十一五 ” 国家级规划教材. 卫生(医学)统计学. 第十章 回归与相关. 1. 回归与相关概述. 回归与相关 是研究变量之间相互关系的统计分析方法,它是一类双变量或多变量统计分析方法( 本章主要介绍双变量分析方法 ),在实际之中有着广泛的应用。如年龄与体重、年龄与血压、体重与肺活量、体重与体表面积、毒物剂量与动物死亡率、污染物浓度与污染源距离等都要运用回归与相关方法对资料进行统计分析。. 变量之间的关系: (1)直线关系(线性关系);(2)曲线关系(非线性关系)。在回归与相关分析中,直线回归与相关是最简单的一种,是本章主要内容。
E N D
演示课件 普通高等教育“十一五”国家级规划教材 卫生(医学)统计学 第十章 回归与相关 1
回归与相关概述 回归与相关是研究变量之间相互关系的统计分析方法,它是一类双变量或多变量统计分析方法(本章主要介绍双变量分析方法),在实际之中有着广泛的应用。如年龄与体重、年龄与血压、体重与肺活量、体重与体表面积、毒物剂量与动物死亡率、污染物浓度与污染源距离等都要运用回归与相关方法对资料进行统计分析。
变量之间的关系:(1)直线关系(线性关系);(2)曲线关系(非线性关系)。在回归与相关分析中,直线回归与相关是最简单的一种,是本章主要内容。变量之间的关系:(1)直线关系(线性关系);(2)曲线关系(非线性关系)。在回归与相关分析中,直线回归与相关是最简单的一种,是本章主要内容。 直线回归分析:分析两个变量间的数量关系,分析用一个变量推算另一个变量的方法(建立回归方程); 直线相关分析:分析两个变量之间有无相关关系以及相关的性质(正、负相关)和相关的密切程度。
直线回归 一、直线回归的概念 “回归”一词首先由英国生物统计学家S.F.Galton(1885)提出,他发现,高个子的父代其子代平均身高不是更高,而是稍矮;相反,矮个子的父代其子代平均身高不是更矮,而是稍高于其父代水平,他把这种趋向种族稳定的现象称为“回归”。目前回归的含义已经演变成变量之间的某种数量依存关系。
由于生物间存在变异,故两相关变量之间的关系具有某种不确定性,如同性别、同年龄的人,其肺活量与体重有关,肺活量随体重的增加而增加,但体重相同的人其肺活量并不一定相等。因此,散点呈直线趋势,但并不是所有的散点均在同一条直线上,肺活量与体重的关系与严格对应的函数关系不同,它们之间是一种回归关系,称直线回归。这种关系是用直线回归方程来定量描述。因此,回归分析的任务就是通过样本数据求出回归方程,并检验方程是否成立。
二、回归分析对资料的要求 回归分析涉及到两个变量,X与Y,其中X称自变量,Y 为因变量或反应变量。要求X是可以精确测量和严格控制的非随机变量,如年龄,药物浓度或剂量等;X也可以是随机变量,如血清胆固醇的含量,血红蛋白的含量,等。Y要求是呈正态分布的随机变量。收集资料时,X与Y是成对的,一般来自同一个研究对象。一对数据缺少X或Y都不能使用,因此收集数据时要特别注意。
三、直线回归方程的求法 1、由X推算Y的直线回归方程一般表达式 =a+bx (10.1) a称为截距, b 为回归系数, 即直线的斜率。 2、回归系数b的统计学意义 b>0时,Y随X增大而增大,b<0时,Y随X的增大而减; b=0时,X与Y无直线关系。b是一个重要的指标,它的 统计学意义是:X每增(减)一个单位,Y平均改变b 个单位。
3、a和b 的求法 式中 、 分别是X、Y的均数; 为X的离均差平方和; 为X与Y的离均差积和,按下式计算。
4、回归分析的步骤 例10.1 某地12名一年级女大学生的体重及肺活量资料如下,试求肺活量(L)Y对体重(kg)的直线回归方程。 体重 X 42 42 46 46 46 50 50 50 52 52 58 58 肺活量 Y 2.55 2.20 2.75 2.40 2.80 2.81 3.41 3.10 3.46 2.85 3.50 3 .00
4 3.5 3 肺活量(L) 2.5 2 40 45 50 55 60 体重(kg) 一年级女大学生体重与肺活量散点图 (1)、绘制散点图。(见图10.1)
(2)求ΣX、ΣY、ΣX2、ΣY2及ΣXY; 本例:ΣX=592、ΣY=34.83;ΣX2=29512,ΣY2=102.9833 ;ΣXY=1736.32 (3)计算 、 、lxx、lyy、lxy;
(4) 求a 和 b ; (5) 列出回归方程:
四、线回归方程的图示 在X实测值范围内选相距较远且易读数的两个X值,代入回归方程求出Y的估计值,本例取X1=42时Y1=2.47;X2=58时,Y2=3.41。在坐标上确定(42,2.47)和(58, 3.41)两点,将这两点用直线相连,即为回归直线。所绘直线经过( , ),与Y轴相交于a。(见图10.1)
五、回归系数b的假设检验 (一)lyy的分析 P(X,Y) Y X 图 10.2 应变量Y 的平方和划分示意
P为散点图上任意一点,其Y值被分割三段: 第一段: 表示P点与回归直线的纵向距离, 即实际值Y与估计值 之差, 称剩余或残差。 第二段: 即估计值与均数之差,它与回归系数的大小有关。|b| 值越大, 的差值也越大,反之越小。当b=0时, 则 = 也就是回归直线并不能使残差减小。 第三段: ,是应变量Y的均数。
上述三个线段的代数和为: = + + 移项得: = + 对上式两边同时平方后求和可以得到: 其中: 称总平方和,用SS总表示, 称回归平方和,用SS回表示; 称剩余平方和,用SS剩表示。 1、三种平方和的关系是: SS总=SS回+SS剩
2、三种平方和的意义 (1)、SS总,为Y值的离均差平方和,说明未考虑X与Y的回归关系时Y总的变异。 (2)、SS回,它反映在Y的变异中由于X与Y的直线关系而使Y变异减少的部分,也是在总平方和中可以用X解析的部分。SS回越大,说明回归效果越好。 (3)、SS剩,反映X对Y的线性影响之外其它因素对Y的变异的作用,也是在总平方和中无法用X解析的部分。SS剩越小,说明回归方程的估计误差越小。
3、三种平方和的自由度及其关系如下 υ总=n-1,υ回=1,υ剩=n-2 υ总=υ回+υ剩
(二)、SS回及SS剩的计算方法 1、先计算SS剩,再反推SS回 SS剩的计算采用直接法进行,见表10.1;SS剩=0.8280, SS总=1.8892,则SS回=SS总-SS剩=1.8892-0.8280=1.0612。 2、先计算SS回,再反推SS剩 SS回=blxy=(lxy)2/lxx 本例 lxx=306.6667,lxy=18.04,lyy=1.8892,则 SS回=(18.04)2/306.6667=1.0612 SS剩=SS总-SS回=1.8892-1.0612=0.8280
表10.1 SS的计算 序号 X Y 1 42 2.55 2.4711 0.0789 0.0062 2 42 2.20 2.4711 -0.2711 0.0735 3 46 2.75 2.7064 0.0436 0.0019 4 46 2.40 2.7064 -0.3064 0.0939 5 46 2.80 2.7064 0.0936 0.0088 6 50 2.81 2.9417 -0.1317 0.0173 7 50 3.41 2.9417 0.4683 0.2193 8 50 3.10 2.9417 0.1583 0.0251 9 50 3.46 3.0594 0.4006 0.1605 10 52 2.85 3.0594 -0.2094 0.0438 11 58 3.50 3.4123 0.0877 0.0077 12 58 3.00 3.4123 -0.4123 0.1700 合计 592 34.83 34.8299 0.0001 0.8280
(三)、b的假设检验方法 1、方差分析方法 将SS总分解为SS回和SS剩两部分后,按下式计算F 值: MS回,MS剩分别为回归均方及剩余均方,求出F值后查F界值表确定P值,按所取检验水准推断结论。
2、t检验法 按下列公式计算t值: 上式中,Sb为样本回归系数的标准误,Sy.x为剩余标准差,也称回归标准差,它表示应变量Y的观察值对于回归直线的离散程度;Sy.x可以作为回归方程估计的精度指标。
(四)、 例10.1回归系数b的假设检验 1、方差分析方法 H0:β=0,即体重与肺活量之间无直线关系 H1:β≠0,即体重与肺活量之间有直线关系 α=0.05 前面已经算得: SS总=1.8892,SS回=1.0612,SS剩=0.8280, 本例F=12.816 ,V回=1,v剩=10, 查附表4, F界值表得, F0.01,(10,1)=10.04, 因为 F> F0.01,(10,1) ,故P<0.01,按α=0.05水准,拒绝H0,接受H1,故可以认为一年级女大学生肺活量与体重之间有直线关系,可以使用体重推算肺活量。
2、t 检验方法 假设及检验水准同上 本例n=12,SS剩=0.8280,lxx=306.6667,b=0.058826
按v=10查t界值表得,t0.005,10=3.581,由于t= t0.005,10 ,故P=0.005。α=0.05水准,拒绝H0,接受H1,故可以认为一年级女大学生肺活量与体重之间有直线关系。
六、直线回归分析的区间估计 1、总体回归系数β的估计 用样本回归系数b估计总体回归系数β,方法如下: β95%可信区间是: (b-t0.05,(n-2)Sb ,b+t0.05,(n-2)Sb), 缩写为 b± t0.05,(n-2)Sb Sb 为回归系数的标准误,n-2为自由度。
例 样本回归系数b=0.058826估计其总体回归系数β 的95%可信区间。 已算得Sb=0.016429,v=12-2=10,查t界值表得 t0.05(10) =2.228,按上式: 0.058826- 2.228×0.016429= 0.022222 0.058826+2.228×0.016429=0.095430 β95%可信区间是 ( 0.022222 , 0.095430)
2、 总体均数 的估计 是总体中当X为某定值时Y的总体均数,而将X的值代入回归方程中所求得的 为样本均数,是 的估计值。比如,在一年级女大学生中(指总体),体重X=50kg的女学生,其平均肺活量就是 ,而 往往未知, 可以通过 来估计,计算方法如下:
(1- )的可信区间是: ( -tα,n-2 , +tα,n-2 ),缩写为 ±tα,n-2 是 的标准误。
1 求当体重X=50时,肺活量 95%的可信区间。 =0.0000419+0.058826X, =49.3333, lxx=306.6667,已求得 =0.2877 当X=50时, =0.000419+0.058826(50)=2.9417 v= V=12-2=10, t0.05,10=2.22 (2.9417-2.228×0.0838, 2.9417+2.228×0.0838) =(2.7550,3.1284) 即X=50时,肺活量总体均数95%可信区间是 (2.7550, 3.1284)升。
3、个体值Y的容许区间 当即总体中,当X为某定值时,个体值Y的波动范 围,个体值Y的离散程度用Sy(称个体值的标准差)来表示,其计算方法如下: 当X 与 接近,且n充分大时,可用Sy.x代替Sy。 个体值Y的1-α容许区间计算方法如下: ( -tα,n-2Sy, +tα,n-2Sy),缩写为 ±tα,n-2Sy
例 用上例数据,进一步计算当X=50时,肺活量95%容许区间(波动范围)。 t0.05,10=2.228,X=50时,=2.9417 (2.9417-2.228×0.2996, 2.9417+2.228×0.2996) =(2.27, 3.61) 即估计总体中,体重是50kg者, 有95%的人其肺活量数值波动在2.27~3.61升的范围内。
七、直线回归方程的应用 1、描述两变量间依存的数量关系。 =0.000419+0.058826X就是一年级女大学生肺活量对体重依存变化的定量表达式;而 =7+2X是定量描述7岁以内儿童体重对年龄依存关系定量表达式。 2、利用回归方程进行预测 这是回归方程重要的应用方面。将预报因子(自变量X)代入回归方程,对预报量(应变量Y)进行估计。预报量的波动范围可按求个体值Y的容许区间进行计算。
例某地防疫站根据10年来乙脑发病率(1/10万,预报量Y)与相应前一年7月份日照时间(小时,预报因子X)建立回归方程,将乙脑发病率作平方根反正弦变换,即取y=sin-1 ,求得回归方程: =-1.197+0.0068X,Sy.x=0.0223, =237.43,lxx=5690,n=10。已知1990年7月份日照时间X=260,试估计1991年该地乙脑发病率(设α=0.05)。
1、先求个体值Y的离散度Sy 2、求 =-1.197+0.0068(260)=0.571 α=0.05时,t0.05,8=2.306 95%容许区间是: ( -t0.05(n-2)Sy, +t0.05(n-2)Sy) (0.571-2.306×0.0243,0.571+2.306×0.0243) =(0.5150,0.6270)
取原函数,Y=(siny)2,得乙脑发病率95%容许区间(0.0000808,0.0001197),故可预测该地1991年乙脑发病率有95%的可能在8.08~11.97/10万之间。 (注:将y还原时,角度单位定为度)
3、利用回归进行统计控制 统计控制是利用回归方程进行逆估计,也就是已知y之后反推x。如要求y在一定范围内波动时,可按求Y的容许区间来推算x的取值来实现。
例:某市环境监测站在交通点连续测定30天,每天定时采样3次,测得大气中NO2浓度Y(mg/m3)与当时汽车流量X(辆/小时),共90对数据,求得回归方程: =-0.064866+0.000133X, 剩余标准差Sy.x=0.032522,若NO2的最大容许浓度为0.15/m3,则汽车流量应如何控制?设α=0.05。
分析:NO2的浓度以过高为异常,应求个体值y的单侧波动范围的上限值,其95%的波动范围是:分析:NO2的浓度以过高为异常,应求个体值y的单侧波动范围的上限值,其95%的波动范围是: +t(0.05,v)Sy=-0.064866+0.000133X+ t(0.05,v)Sy 要求NO2的最高容许浓度为0.15,即: -0.064866+0.000133X+ t(0.05,v)Sy=0.15 单侧t0.05,(90-2)=1.662,以Sy.x代替Sy,带入上式 -0.064866+0.000133X+ 1.662×0.032522=0.15 解上式得:X=1209.13(辆/小时) 即只要把汽车流量控制在1209辆/小时以下,就有95%的可能使NO2浓度不超过0.15mg/m3。
八、应用直线回归分析应注意的问题 (1)作回归分析要有实际意义。 (2)进行直线回归分析前,应绘制散点图; 作用:①看散点是否呈直线趋势;② 有无异常点; (3)直线回归方程的适用范围以求回归方程时X的实测值范围为限;若无充分理由证明超过该范围还是直线,应避免外延。
直线相关 一、直线相关的概念 在实际应用中若只需了解两个随机变量之间相互关系的情况,而不要求由X推算Y,此时就宜进行直线相关分析(积差相关分析)。 1、相关分析的目的 分析随机变量X与Y是否有直线相关关系以及相关的性质和相关的密切程度等(暂不考虑X和Y数量上的关系)。直线相关的性质可通过散点图直观地说明。
直线相关的性质 (1)正相关(Y随X的增大而增大,如散点在一直线上,称完全正相关); (2)负相关(Y随X的增大而减小,如散点在一直线上,称完全负相关); (3)零相关:散点分布呈圆形等,反映两变量间无直线关系,也可能存在曲线关系。
2、相关分析对资料的要求 要求X与Y均呈正态分布的随机变量,称双变量正态分布资料。 3、相关分析方法 相关分析是通过计算相关系数r(称积差相关系数)来定量地描述随机变量X与Y之间的关系。计算r之后,还要对r是否来自ρ=0的总体进行假设检验(采用t检验或直接查r界值表确定P值。
注意:通过相关分析认为X与Y有相关关系,并不一定是因果关系,可能是一种伴随关系,即X与Y同时受到另外一个因素的影响。因此,相关分析的任务就是对两变量之间的关系给以定量的描述。注意:通过相关分析认为X与Y有相关关系,并不一定是因果关系,可能是一种伴随关系,即X与Y同时受到另外一个因素的影响。因此,相关分析的任务就是对两变量之间的关系给以定量的描述。
二、相关系数的计算及其意义 1、r的计算方法 式中lxy称X和Y的离均差积和,lxx称X的离均差平方和;lyy称Y的离均差平方和。
2、相关系数r的意义 r称为积差相关系数,没有单位,它反映具有直线关系的两个变量间,相关关系的密切程度和相关性质的指标,取值范围是-1≤r≤1。r为正表示正相关,r为负表示负相关,r的绝对值越大,则变量间的关系越密切;|r|=±1,称为完全正(或负)相关。
3、相关系数的计算 例 对例 10.1的资料计算一年级女大学生体重与肺活量的相关系数。 因为体重与肺活量均是随机变量,且呈正态分布(可经检验证明),两变量呈直线趋势(见图10.1),故可进行直线相关分析。 已知:lxx=306.6667,lyy=1.8892,lxy=18.04 即一年级女大学生体重与肺活量的相关系数r=0.7495
三、相关系数的假设检验 根据样本资料计算所得的相关系数r,称样本相关系数,由于存在抽样误差,尽管r不为0,尚不能说明两变量之间有直线相关关系。因此,要对r是否来自ρ=0的总体进行假设检验。可用t检验或直接查附表14,r界值表确定P值。检验统计量t值的计算方法如下: