530 likes | 632 Views
第五章 相关与回归. 王晓莉. 基本内容. 医学上,许多现象之间都有相互联系,例如:身高与体重、父亲身高与儿子身高、体温与脉搏、产前检查与婴儿体重、乙肝病毒与乙肝等。 在这些有关系的现象中,它们之间联系的程度和性质也各不相同。. 关系:可以说乙肝病毒感染是前因,得了乙肝是后果,乙肝病毒和乙肝之间是因果关系;但是,有的现象之间因果不清,只是伴随关系,例如丈夫的身高和妻子的身高之间,就不能说有因果关系。. 相关就是用于研究和解释两个变量之间 相互 关系的。. 主要内容. 第一节 直线相关 一、相关的类型 二、相关系数 三、相关系数的假设检验 四、直线相关的应用.
E N D
第五章 相关与回归 王晓莉
医学上,许多现象之间都有相互联系,例如:身高与体重、父亲身高与儿子身高、体温与脉搏、产前检查与婴儿体重、乙肝病毒与乙肝等。医学上,许多现象之间都有相互联系,例如:身高与体重、父亲身高与儿子身高、体温与脉搏、产前检查与婴儿体重、乙肝病毒与乙肝等。 在这些有关系的现象中,它们之间联系的程度和性质也各不相同。
关系:可以说乙肝病毒感染是前因,得了乙肝是后果,乙肝病毒和乙肝之间是因果关系;但是,有的现象之间因果不清,只是伴随关系,例如丈夫的身高和妻子的身高之间,就不能说有因果关系。关系:可以说乙肝病毒感染是前因,得了乙肝是后果,乙肝病毒和乙肝之间是因果关系;但是,有的现象之间因果不清,只是伴随关系,例如丈夫的身高和妻子的身高之间,就不能说有因果关系。
主要内容 第一节 直线相关 一、相关的类型 二、相关系数 三、相关系数的假设检验 四、直线相关的应用 第二节 直线回归 一、回归方程 二、回归系数 三、回归系数的假设检验 四、直线回归的应用 第三节 偏相关 一、概念 二、偏相关系数
Linear Correlation 第一节 直线相关
为了研究父亲与成年儿子身高之间的关系,卡尔.皮尔逊测量了1078对父子的身高。把1078对数字表示在坐标上,如图。为了研究父亲与成年儿子身高之间的关系,卡尔.皮尔逊测量了1078对父子的身高。把1078对数字表示在坐标上,如图。 • 它的形状象一块橄榄状的云,中间的点密集,边沿的点稀少,其主要部分是一个椭圆。
一、相关的类型 ★正相关 ★负相关 ★完全正相关 ★完全负相关 ★零相关
二、相关系数 ◆样本的相关系数用r (correlation coefficient) ◆相关系数r的值在-1和1之间。正相关时,r值在0和1之间,这时一个变量增加,另一个变量也增加;负相关时,r值在-1和0之间,此时一个变量增加,另一个变量将减少。 ◆r的绝对值越接近1,两变量的关联程度越强,r的绝对值越接近0,两变量的关联程度越弱。
一个产科医师发现孕妇尿中雌三醇含量与产儿的体重有关。一个产科医师发现孕妇尿中雌三醇含量与产儿的体重有关。 • 于是设想,通过测量待产妇尿中雌三醇含量,可以预测产儿体重,以便对低出生体重进行预防。因此收集了31例待产妇24小时的尿,测量其中的雌三醇含量,同时记录产儿的体重。 • 问尿中雌三醇含量与产儿体重之间相关系数是多少?是正相关还是负相关? • 分析问题:总体-样本、 目的、变量、关系
待产妇尿雌三醇含量与产儿体重关系 编号 (1) 尿雌三醇 mg/24h(2 产儿体重 kg(3) 编号 (1) 尿雌三醇mg/24h(2) 产儿体重 kg(3) 1 7 2.5 17 17 3.2 2 9 2.5 18 25 3.2 3 9 2.5 19 27 3.4 4 12 2.7 20 15 3.4 5 14 2.7 21 15 3.4 6 16 2.7 22 15 3.5 7 16 2.4 23 16 3.5 8 14 3.0 24 19 3.4 9 16 3.0 25 18 3.5 10 16 3.1 26 17 3.6 11 17 3.0 27 18 3.7 12 19 3.1 28 20 3.8 13 21 3.0 29 22 4.0 14 24 2.8 30 25 3.9 15 15 3.2 31 24 4.3 16 16 3.2
SPSS计算程序 1.做散点图:标题、标目、散点 GRAPHS-SCATTERT-SIMPLE-DEFIND 双击TITLE加标题、标目 2. 相关分析: ANALYZE--CORRELATION –BIVARIATE -VARIABLES
从计算结果可以知道,31例待产妇尿中雌三醇含量与产儿体重之间程正相关,相关系数是0.61。从计算结果可以知道,31例待产妇尿中雌三醇含量与产儿体重之间程正相关,相关系数是0.61。
问题:我们能否得出结论:待产妇尿中雌三醇含量与产儿体重之间成正相关,相关系数是0.61?为什么?问题:我们能否得出结论:待产妇尿中雌三醇含量与产儿体重之间成正相关,相关系数是0.61?为什么?
三、相关系数的假设检验 • 上例中的相关系数r等于0.61,说明了31例样本中雌三醇含量与出生体重之间存在相关关系。但是,这31例只是总体中的一个样本,由此得到的相关系数会存在抽样误差。 • 因为,总体相关系数()为零时,由于抽样误差,从总体抽出的31例,其r可能不等于零。 • 这就要对r进行假设检验,判断r不等于零是由于抽样误差所致,还是两个变量之间确实存在相关关系。
对相关系数的假设检验,常用t检验,选用统计量t的计算公式如下:对相关系数的假设检验,常用t检验,选用统计量t的计算公式如下: =n-2
t=4.14 H0 : =0 H1 :≠0 =0.05 r=0.61, n=31, 代入公式t= =n-2=31-2=29 查t值表,t0.05 (29) =2.045, 查t值表, t0.05(29) =2.045, 上述计算t=4.14>2.045,由t所推断的P值小于0.05 按=0.05水准拒绝??,接受?? 认为临产妇24小时内尿中雌三醇浓度与产儿体重之间有正相关关系。
在待产妇尿中雌三醇含量和产儿体重之间的关系中,知道了二者之间成正相关。在待产妇尿中雌三醇含量和产儿体重之间的关系中,知道了二者之间成正相关。 • 那么,如果我们知道了一位待产妇的尿雌三醇含量,能推断出产儿的体重吗?或产儿的体重可能在什么范围内呢? • 这要用直线回归的方法来解决。
第二节 直线回归 一、回归方程 二、回归系数 三、回归系数的假设检验 四、直线回归的应用
知道了两个变量之间有直线相关关系,并且一个变量的变化会引起另一个变量的变化,这时,如果它们之间存在准确、严格的关系,它们的变化可用函数方程来表示,叫它们是函数关系,它们之间的关系式叫函数方程。知道了两个变量之间有直线相关关系,并且一个变量的变化会引起另一个变量的变化,这时,如果它们之间存在准确、严格的关系,它们的变化可用函数方程来表示,叫它们是函数关系,它们之间的关系式叫函数方程。
但在实际生活当中,由于其它因素的干扰,许多双变量之间的关系并不是严格的函数关系,不能用函数方程反映,为了区别于两变量间的函数方程,我们称这种关系式为直线回归方程,这种关系为直线回归.但在实际生活当中,由于其它因素的干扰,许多双变量之间的关系并不是严格的函数关系,不能用函数方程反映,为了区别于两变量间的函数方程,我们称这种关系式为直线回归方程,这种关系为直线回归.
直线回归就是用来描述一个变量如何依赖于另一个变量直线回归就是用来描述一个变量如何依赖于另一个变量 • 其任务就是要找出一个变量随另一个变量变化的直线方程,我们把这个直线方程叫做直线回归方程。
一、 回归方程 = a + bX 式中的 是由自变量X推算应变量Y的估计值,a是回归直线在Y 轴上的截距,即X=0时的Y值;b为样本的回归系数,即回归直线的斜率,表示当X变动一个单位时,Y平均变动b个单位。如果a、b已知,代入上式,就可求得直线回归方程。
二 回归系数 根据上例的数据,求待产妇尿中雌三醇含量与产儿体重之间的回归方程。
SPSS程序 • ANALYZE-REGRESSION–LINEAR
这就是我们求得的二者关系的回归方程 从公式中也可求得:
三 回归直线的描绘 • 根据求得的回归方程,可以在自变量X的实测范围内任取两个值,代入方程中,求得相应的两个Y值,以这两对数据找出对应的两个坐标点,将两点连接为一条直线,就是该方程的回归直线。 • 回归直线一定经过(0,a ),( )。 • 这两点可以用来核对图线绘制是否正确。
是否一定能说明雌三醇与产儿体重之间存在回归关系?是否一定能说明雌三醇与产儿体重之间存在回归关系? =2.15+0.061X
总体的回归系数一般用β表示。 • 需要对样本的回归系数b进行假设检验,以判断b是否从回归系数为零的总体中抽得。 • 为了判断抽样误差的影响,需对回归系数进行假设检验。
H0:β=0 H1:β≠0 α=0.05 选择合适的假设检验方法,计算统计量 计算概率值P 做出推论:统计学结论和专业结论 四 回归系数的假设检验
采用公式计算:t检验方法 其中Sy.x为各观察值Y到回归直线的距离的标准差,表示去除X影响后Y的变异程度,
计算 tb=4.414 自由度=31-2=29,查t值表t0.05(29)=2.045, P<0.05 按=0.05检验水准,拒绝H0,认为待产妇24小时尿中雌三醇含量与产儿体重之间存在直线回归关系。
例题:已知某地29名13岁男童身高X1(cm)、体重X2(kg)和肺活量Y(ml), 请计算身高与肺活量,体重与肺活量的相关关系。
1、身高与肺活量的简单相关系数 身高与肺活量的简单相关系数
另外的例子: • 识字数,鞋大小 • 游泳票与冰激凌销售量 • 排除其它变量的干扰
一、概念 当有多个变量存在时,为了研究任何两个变量之间的关系,而使与这两个变量有联系的其它变量都保持不变。即控制了其它一个或多个变量的影响下,计算两个变量的相关性。 二、偏相关系数 偏相关系数是用来衡量任何两个变量之间的关系的大小。
三、SPSS操作步骤 Analyze-----Correlation-----Partial 把分析变量选入 Variable 框 把控制变量选入 Controlling for 框 点击 Options 点击 Statistics:选择 Mean and standard deviation Zero-order correlation Continue OK
结 果: • Variable Mean Standard Dev Cases • X1( 身高 ) 152.5759 8.3622 29 • Y (肺活量) 2206.8966 448.5541 29 • X2 ( 体重 ) 37.3069 5.6704 29
身高与肺活量的偏相关系数(体重为控制变量)身高与肺活量的偏相关系数(体重为控制变量) P A R T I A L C O R R E L A T I O N C O E F F I C I E N T S Controlling for.. X2 (体重) Y(肺活量) X1(身高) Y (肺活量) 1.0000 .2361 ( 0) ( 26) P= . P= .226 X1 (身高) .2361 1.0000 ( 26) ( 0) P= .226 P= .
肺活量与体重的偏相关系数(身高作为控制变量)肺活量与体重的偏相关系数(身高作为控制变量) P A R T I A L C O R R E L A T I O N C O E F F I C I E N T S Controlling for.. X1(身高) Y(肺活量) X2(体重) Y 1.0000 .4152 ( 0) ( 26) P= . P= .028 X2 .4152 1.0000 ( 26) ( 0) P= .028 P= .
应用相关注意事项 1.实际意义 进行相关回归分析要有实际意义,不可把毫无关系的两个事物或现象用来作相关回归分析。 2.相关关系 相关关系不一定是因果关系,也可能是伴随关系,并不能证明事物间有内在联系。