460 likes | 523 Views
第九讲. 相关与回归. 王晓莉. 基本内容. 医学上,许多现象之间都有相互联系,例如:身高与体重、父亲身高与儿子身高、体温与脉搏、产前检查与婴儿体重、乙肝病毒与乙肝等。 在这些有关系的现象中,它们之间联系的程度和性质也各不相同。. 变量之间的关系: 乙肝病毒感染是前因,得了乙肝是后果,乙肝病毒和乙肝之间是 因果关系 ; 有的现象之间因果不清,只是 伴随关系 ,例如丈夫的身高和妻子的身高之间,就不能说有因果关系。. 相关与回归就是用于研究和解释两个变量之间 相互 关系的。. 主要内容. 第一节 直线相关 第二节 直线回归 第三节 注意事项.
E N D
第九讲 相关与回归 王晓莉
医学上,许多现象之间都有相互联系,例如:身高与体重、父亲身高与儿子身高、体温与脉搏、产前检查与婴儿体重、乙肝病毒与乙肝等。医学上,许多现象之间都有相互联系,例如:身高与体重、父亲身高与儿子身高、体温与脉搏、产前检查与婴儿体重、乙肝病毒与乙肝等。 • 在这些有关系的现象中,它们之间联系的程度和性质也各不相同。
变量之间的关系: • 乙肝病毒感染是前因,得了乙肝是后果,乙肝病毒和乙肝之间是因果关系; • 有的现象之间因果不清,只是伴随关系,例如丈夫的身高和妻子的身高之间,就不能说有因果关系。
主要内容 第一节 直线相关 第二节 直线回归 第三节 注意事项
第一节 直线相关 一、相关的类型 二、相关系数 相关系数的计算公式 相关系数的假设检验 三、直线相关的意义
为研究父亲与成年儿子身高之间的关系,皮尔逊测量了1078对父子的身高。为研究父亲与成年儿子身高之间的关系,皮尔逊测量了1078对父子的身高。 • 把1078对数字表示在坐标上。X上的数代表父亲身高,Y上的数代表儿子的身高 • 1078个点形成图形是一个散点图。
散点图 为了确定相关变量之间的关系,收集一些数据,这些数据是成对的;然后在直角坐标系上描述这些点,这一组点集称为散点图。
相关的类型 ★正相关 ★负相关 ★完全正相关 ★完全负相关 ★称零相关
相关系数 样本的相关系数用r表示 • r的值在-1和1之间; • r的绝对值越接近1,两变量的关联程度越强,r的绝对值越接近0,两变量的关联程度越弱; • 正相关时,r值在0和1之间,这时一个变量增加,另一个变量也增加;负相关时,r值在-1和0之间,此时一个变量增加,另一个变量将减少。
一个产科医师发现孕妇尿中雌三醇含量与产儿的体重有关;一个产科医师发现孕妇尿中雌三醇含量与产儿的体重有关; • 于是设想,通过测量待产妇尿中雌三醇含量,可以预测产儿体重,以便对低出生体重进行预防。因此收集了31例待产妇24小时的尿,测量其中的雌三醇含量,同时记录产儿的体重。 • 问尿中雌三醇含量与产儿体重之间相关系数是多少?是正相关还是负相关? • 分析问题:总体-样本、 目的、变量、关系
待产妇尿雌三醇含量与产儿体重关系 编号 (1) 尿雌三醇 mg/24h(2 产儿体重 kg(3) 编号 (1) 尿雌三醇mg/24h(2) 产儿体重 kg(3) 1 7 2.5 17 17 3.2 2 9 2.5 18 25 3.2 3 9 2.5 19 27 3.4 4 12 2.7 20 15 3.4 5 14 2.7 21 15 3.4 6 16 2.7 22 15 3.5 7 16 2.4 23 16 3.5 8 14 3.0 24 19 3.4 9 16 3.0 25 18 3.5 10 16 3.1 26 17 3.6 11 17 3.0 27 18 3.7 12 19 3.1 28 20 3.8 13 21 3.0 29 22 4.0 14 24 2.8 30 25 3.9 15 15 3.2 31 24 4.3 16 16 3.2
∑X=534 ∑Y=99.2 ∑ X2=9876 ∑ Y2=324.8 ∑XY=1750 N=31
计算结果 r的值说明了两个变量X与Y之间关联的密切程度(绝对值大小)与关联的性质(正负号)。
问题:我们能否得出结论:待产妇尿中雌三醇含量与产儿体重之间成正相关,相关系数是0.61。为什么?问题:我们能否得出结论:待产妇尿中雌三醇含量与产儿体重之间成正相关,相关系数是0.61。为什么? 从计算结果可以知道,31例待产妇尿中雌三醇含量与产儿体重之间程正相关,相关系数r=0.61。
相关系数的假设检验 • 上例中的相关系数r等于0.61,说明了31例样本中雌三醇含量与出生体重之间存在相关关系。但是,这31例只是总体中的一个样本,由此得到的相关系数会存在抽样误差。 • 因为,总体相关系数()为零时,由于抽样误差,从总体抽出的31例,其r可能不等于零。 • 这就要对r进行假设检验,判断r不等于零是由于抽样误差所致,还是两个变量之间确实存在相关关系。
相关系数的假设检验,常用t检验,选用统计量t的计算公式如下:相关系数的假设检验,常用t检验,选用统计量t的计算公式如下: =n-2
t=4.14 1. H0 : =0 H1 :≠0 2. =0.05 3. t= =n-2=31-2=29 4.确定P值:查t值表, t 0.05(29) =2.045 t=4.14>2.045,由t所推断的P值小于0.05 5.结论: 按=0.05水准拒绝??,接受??,认为临产妇24小时内尿中雌三醇浓度与产儿体重之间有正相关关系。
直线相关的意义 • 在确实存在相关关系的前提下(??),如果r的绝对值越大,说明两个变量之间的关联程度越强,那么,已知一个变量对预测另一个变量越有帮助;如果r绝对值越小,则说明两个变量之间的关系越弱,一个变量的信息对猜测另一个变量的值无多大帮助。 • 一般说来,当样本量较大,并对r进行假设检验,有统计学意义时,r的绝对值大于0.7,则表示两个变量高度相关;r的绝对值大于0.4,小于等于0.7时,则表示两个变量之间中度相关;r的绝对值大于0.2,小于等于0.4时,则两个变量低度相关。
雌三醇含量与产儿体重有相关关系: • 如果知道了一位待产妇的尿雌三醇含量 • 能推断出产儿的体重吗? • 能预测产儿的体重可能在什么范围内? • 这要用直线回归的方法来解决。
第二节 直线回归 一、回归方程 二、回归系数 三、回归系数的假设检验 四、直线回归的应用 休息 一个人的快乐,不是因为他拥有的多,而是因为他计较的少
第二节 直线回归 一、回归方程 二、回归系数 三、回归系数的假设检验 四、直线回归的应用
知道了两个变量之间有直线相关关系,并且一个变量的变化会引起另一个变量的变化,这时,如果它们之间存在准确、严格的关系,它们的变化可用函数方程来表示,叫它们是函数关系,它们之间的关系式叫函数方程。知道了两个变量之间有直线相关关系,并且一个变量的变化会引起另一个变量的变化,这时,如果它们之间存在准确、严格的关系,它们的变化可用函数方程来表示,叫它们是函数关系,它们之间的关系式叫函数方程。
实际上,由于其它因素的干扰,许多双变量之间的关系并不是严格的函数关系,不能用函数方程反映,为了区别于两变量间的函数方程,我们称这种关系式为直线回归方程,这种关系为直线回归。实际上,由于其它因素的干扰,许多双变量之间的关系并不是严格的函数关系,不能用函数方程反映,为了区别于两变量间的函数方程,我们称这种关系式为直线回归方程,这种关系为直线回归。
直线回归就是用来描述一个变量如何依赖于另一个变量直线回归就是用来描述一个变量如何依赖于另一个变量 • 其任务就是要找出一个变量随另一个变量变化的直线方程,我们把这个直线方程叫做直线回归方程。
回归方程 = a + bX 式中的 是由自变量X推算应变量Y的估计值,a是回归直线在Y 轴上的截距,即X=0时的Y值;b为样本的回归系数,即回归直线的斜率,表示当X变动一个单位时,Y平均变动b个单位。如果a、b已知,代入上式,就可求得直线回归方程。
回归系数 根据上例的数据,求待产妇尿中雌三醇含量与产儿体重之间的回归方程。 从相关系数的计算中,已经求得:
回归直线的描绘 • 根据求得的回归方程,可以在自变量X的实测范围内任取两个值,代入方程中,求得相应的两个Y值,以这两对数据找出对应的两个坐标点,将两点连接为一条直线,就是该方程的回归直线。 • 回归直线一定经过(0,a ),( )。 • 这两点可以用来核对图线绘制是否正确。
是否一定能说明雌三醇与产儿体重之间存在回归关系?是否一定能说明雌三醇与产儿体重之间存在回归关系? =2.15+0.061X
与直线相关一样,直线回归方程也是从样本资料计算而得的,同样也存在着抽样误差问题。与直线相关一样,直线回归方程也是从样本资料计算而得的,同样也存在着抽样误差问题。 • 所以,需要对样本的回归系数b进行假设检验,以判断b是否从回归系数为零的总体中抽得。为了判断抽样误差的影响,需对回归系数进行假设检验。总体的回归系数一般用β表示。
采用t检验方法 其中Sy.x为各观察值Y到回归直线的距离的标准差,表示去除X影响后Y的变异程度,
H0:β=0 H1:β≠0 α=0.05 计算统计量: t=4.14; =31-2=29,t 0.05(29)=2.045 计算概率值P: P<0.05 做出推论:按=0.05检验水准,拒绝H0,接受H1认为待产妇24小时尿中雌三醇含量与产儿体重之间存在直线回归关系。 回归系数的假设检验 ,,
直线回归的应用 • 描述两变量之间的依存关系:通过回归系数的假设检验,若认为两变量之间存在直线回归关系,则可用直线回归来描述。 • 利用回归方程进行预测 :把自变量代入回归方程,对应变量进行估计,可求出应变量的波动范围。例如,已知某待产妇的尿雌三醇浓度,代入回归方程,再用区间估计的方法,即可知道生产时,产儿的体重的范围。 • 利用回归方程进行统计控制 :空气质量与汽车数量
第三节 应用时注意事项 一、注意事项 二、相关与回归的区别 三、相关与回归的联系
应用直线相关与回归的注意事项 1.实际意义 进行相关回归分析要有实际意义,不可把毫无关系的两个事物或现象用来作相关回归分析。例如,有人说,孩子长,公园里的小树也在长。求孩子和小树之间的相关关系就毫无意义,用孩子的身高推测小树的高度则更加慌谬。 2.相关关系 相关关系不一定是因果关系,也可能是伴随关系,并不能证明事物间有内在联系,例如,有人发现,对于在校儿童,鞋的大小与阅读技能有很强的相关关系。然而,学会新词并不能使脚变大,而是涉及到第三个因素‑‑ 年龄。当儿童长大一些,他们的阅读能力会提高而且由于长大也穿不下原来的鞋。
3.利用散点图 对于性质不明确的两组数据,可先做散点图,在图上看它们有无关系、关系的密切程度、是正相关还是负相关,然后再进行相关回归分析。 4.变量范围 相关分析和回归方程仅适用于样本的原始数据范围之内,出了这个范围,我们不能得出两变量的相关关系和原来的回归关系。
1.意义 :相关反映两变量的相互关系,即在两个变量中,任何一个的变化都会引起另一个的变化,是一种双向变化的关系。回归是反映两个变量的依存关系,一个变量的改变会引起另一个变量的变化,是一种单向的关系。 2.应用:研究两个变量的相互关系用相关分析。研究两个变量的依存关系用回归分析。 3.研究性质:相关是对两个变量之间的关系进行描述,看两个变量是否有关,关系是否密切,关系的性质是什么,是正相关还是负相关。回归是对两个变量做定量描述,研究两个变量的数量关系,已知一个变量值可以预测出另一个变量值,可以得到定量结果。 4.相关系数r与回归系数b:r与b的绝对值反映的意义不同。r的绝对值越大,散点图中的点越趋向于一条直线,表明两变量的关系越密切,相关程度越高。b的绝对值越大,回归直线越陡,说明当X变化一个单位时,Y的平均变化就越大。反之也是一样。 相关与回归的区别
相关与回归的联系 1.关系 能进行回归分析的变量之间存在相关关系。所以,对于两组新数据可先做散点图,求出它们的相关系数,对于确有相关关系的变量再进行回归分析,求出回归方程。 2. r与b 符号一致:r为正时,b也为正,表示两变量是正相关,是同向变化。r为负时,b也为负,表示两变量是负相关,是反向变化。 r与b的假设检验结果一致:可用r的显著检验代替b的显著性检验。
小结 第一节 直线相关 • 相关的类型 • 相关系数 • 相关系数的计算 • 相关系数的假设检验 第二节 直线回归 • 回归方程 • 回归系数 • 回归系数的假设检验 • 直线回归的应用 第三节 注意事项
第二次 随堂测验 1.某地2004年年平均人口数为127万,该年活产数为2.4万,死亡人数为5484人,婴儿死亡数为698人,肺癌死亡人数是85人。请计算该地2004年粗出生率、粗死亡率、婴儿死亡率和肺癌死亡率。 2. 寿命表法计算生存率的优点是什么? 3.计量资料(频数)的分布特征是….;常见的分布类型包括…