1 / 61

线性相关与回归

直线相关 相关系数 样本相关系数的计算 相关系数的假设检验 总体相关系数 ρ 的区间估计 应用相关系数时应注意的问题. 直线回归 建立直线回归方程的基本原理 建立直线回归方程的步骤 回归系数的假设检验 直线回归方程的用途 等级相关 曲线回归. 线性相关与回归. 直线相关. 直线相关 称简单相关。用于研究两个随机变量X与Y之间相关关系及密切程度。适用于双变量正态分布( bivariate normal distribution) 资料。两变量 X、Y 间的相关关系可用散点图直观说明,而相关分析就是用相关系数对这种关系给以定量的描述。.

lotte
Download Presentation

线性相关与回归

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 直线相关 相关系数 样本相关系数的计算 相关系数的假设检验 总体相关系数ρ的区间估计 应用相关系数时应注意的问题 直线回归 建立直线回归方程的基本原理 建立直线回归方程的步骤 回归系数的假设检验 直线回归方程的用途 等级相关 曲线回归 线性相关与回归

  2. 直线相关

  3. 直线相关 称简单相关。用于研究两个随机变量X与Y之间相关关系及密切程度。适用于双变量正态分布(bivariate normal distribution)资料。两变量X、Y间的相关关系可用散点图直观说明,而相关分析就是用相关系数对这种关系给以定量的描述。

  4. 相关系数 直线相关系数又称积差相关系数(coefficient of product-moment correlation),简称相关系数。创用于F.Y.Edgeworth(1892),样本相关系数用r表示,总体相关系数用ρ表示。

  5. 样本相关系数的计算 相关系数的计算公式为:

  6. 例9-1 测得某地4岁儿童10人的体重(kg)与体表面积(103cm2)资料见下表,试以此样本资料计算体重与体表面积的相关系数。

  7. 相关系数的假设检验 根据样本计算出的相关系数r,是总体相关系数ρ的估计值。从ρ=0(无直线相关)的总体中抽取样本,其r不一定为0。因此,得到r≠0后,由于存在抽样误差,则有必要检验r是否来自ρ=0的总体,以判定两变量间是否有直线相关关系。

  8. 在进行假设检验时,无效假设H0为:ρ=0,即两变量间无直线相关关系;备择假设H1为:ρ≠0,两变量间有直线相关关系。常用的假设检验方法是t检验,检验统计量t值的计算公式如下:

  9. 例9-2 就例9-1资料,问某地4岁儿童体重与体表面积间是否有直线关系?

  10. H0:ρ=0,两变量间无直线相关关系;H1:ρ≠0,两变量间有直线相关关系。α=0.05。H0:ρ=0,两变量间无直线相关关系;H1:ρ≠0,两变量间有直线相关关系。α=0.05。

  11. 本例n=10,r=0.9579,按下式计算t值: 查附表(t界值表),得P<0.001,按α=0.05水准拒绝H0,接受H1,故可以认为某地4岁儿童体重与体表面积呈正直线相关关系。

  12. 同样地,也可按=n-2直接查 (r界值表)求P值。 因为 ,所以,结论同t检验 P<0.001

  13. 总体相关系数ρ的区间估计 总体相关系数ρ≠0时,从这样的总体中抽样计算出的样本相关系数r不服从正态分布,此时,若对r按下式作Z变换(反双曲正切变换),则Z近似服从标准差为 的正态分布。故可以按正态分布原理求出Z的1-α可信区间,再对Z的可信区间作反变换(双曲正切变换)得总体相关系数ρ的1-α可信区间。

  14. 反双曲正切变换: 或

  15. Z的1-α可信区间计算公式: 缩写

  16. ρ的1-α可信区间计算公式: 缩写

  17. 例9-3 已求得某地4岁儿童10人的体重与体表面积的相关系数(即样本相关系数),r=0.9579,求总体相关系数(即某地4岁儿童的体重与体表面积的相关系数)的95%的可信区间。

  18. Z的95%可信区间为:ρ的1-α可信区间为: 所以求得ρ的95%可信区间为(0.8271,0.9903),其统计学意义为按95%的可信程度得到的总体相关系数可能存在的一个范围。

  19. 应用相关系数时应注意的问题

  20. 1.样本相关系数与总体相关系数间存在抽样误差,所以求得样本相关系数后应进行假设检验。 2.有相关关系不等于因果关系。有无因果关系还需结合专业知识进一步研究。 3.在实际工作中要区别相关的统计学意义与相关强度。相关有统计学意义指该样本相关系数r来自ρ=0的总体概率很小,而相关强度表示两变量间相互关系的密切程度,用值的大小来反映。

  21. 直线回归

  22. 直线回归 直线回归分析是研究两变量X、Y数量上线性依存关系的一种统计分析方法。它要求应变量Y服从正态分布;自变量X是一个可以精确测量和严格控制的变量,也可以是一个服从正态分布的变量。直线回归分析的任务就是求解X、Y变量的回归方程,并用此方程来反映X、Y两变量的线性依存关系。

  23. 建立直线回归方程的基本原理 在散点图中可以设想出无数条直线代表这些点的直线趋势,但是在这些直线中,我们希望找出一条最具代表性的直线,如果有一条直线它满足散点图上的每一点到该直线的纵向距离的平方和最小即最小(此即数学上的最小二乘法原理)这样一个条件,那么我们认为这样一条直线是最有代表性的。该直线回归方程的表达式为:

  24. 式中X为自变量,(读hat)为应变量Y的估计值。a为直线在Y轴上的截距,即X=0时的值。b为直线的斜率,称为回归系数,表示X变动一个单位时, 平均变动的单位数。

  25. 在满足最小二乘法原理,即 最小的前提下,用微积分学知识可推出a、b的计算公式为:

  26. 建立直线回归方程的步骤 1.用实测数据绘制散点图 2.计算回归系数b与截距a,

  27. 下面以例9-1资料说明建立直线回归方程的具体步骤:

  28. 过点(12,5.3832)与(15,6.0990)可在直角坐标系上作直线。若纵坐标、横坐标无折断时,将此直线左端延长与纵轴相交,交点的纵坐标必然等于截距a,同时所绘直线必然通过 。这两点可以用来核对直线绘制是否正确。

  29. 回归系数的假设检验 样本回归系数b是总体回归系数β的估计值。从β=0(无直线回归关系)的总体中抽取样本,由于存在抽样误差,其b不一定等于0。因此,得到b≠0后,必须检验b是否来自β=0的总体,以判定两变量间是否存在直线回归关系。

  30. 回归系数的假设检验常用t检验,检验统计量值的计算公式为:

  31. 仍以例9-1资料说明建立直线回归方程后对回归系数的假设检验步骤: 根据对例9-1资料进行回归分析的结果可得到如下数据:

  32. 1. 建立检验假设并确定检验水准H0:β=0,即体重与体表面积间无直 线回归关系;H1:β≠0,即体重与体表面积间有直 线回归关系。α=0.05。

  33. 2.计算检验统计量

  34. 3. 确定P值,作出推断结论 查附表 (t界值表): 因为, ,故P<0.001,所以按α=0.05水准拒绝H0,接受H1。说明体重与体表面积间存在直线回归关系。这里值得注意的是:对同一资料,相关系数与回归系数的假设检验是等价的,即 。

  35. 直线回归方程的用途 1.两变量间存在直线关系时,直线方程可定量地描述两变量间的线性依存关系。 2.根据直线回归方程由已知变量值估计未知变量值:如统计预测。

  36. 应用直线回归方程时应注意的问题 1.求出样本资料的直线回归方程后应进行假设检验。 2.应用直线回归方程时,要注意方程只适用于自变量X的样本数据波动范围,不能任意外延其应用范围。

  37. 等级相关

  38. 等级相关 第一节介绍的积差相关系数适用于双变量正态分布的资料,但有时其中一个甚至两个变量都不服从正态分布,这时需用非参数相关分析方法。

  39. 本节介绍由spearman提出的秩相关分析方法。本方法适用于下列情况: ①不服从双变量正态分布而不宜作积差相关分析的资料; ②总体分布类型未知的资料; ③原始数据是按等级分类的资料。

  40. 例9-2 某医院调查了12例病人的血小板浓度和出血症状两方面的资料,试以此样本资料计算秩相关系数。

  41. 表中出血症状是按等级分类的资料,称为等级资料,所以应采用秩相关系数来描述血小板浓度与出血症状之间的关系。 本资料中出血症状这一变量相同秩次较多,有11个,占总观察病例数的91.7%(11/12)。秩相关系数计算步骤为:

  42. 若相同秩次总数不多于观察总例数的25%,可以采用简易公式计算秩相关系数,此时,要计算出di2,本例已计算出,计算过程及结果见表9-2第(7)和第(8)列,=402.5,n=12。代入简易公式式即可计算出秩相关系数=1-6×402.5/(123-12)=-0.4073,

  43. 此例简易公式计算出的秩相关系数的绝对值明显小于校正式计算值,这是由于本例相同秩次总数太多(多于25%)所致,所以对相同秩次出现次数较多的资料,计算秩相关系数时勿必用简易公式计算,以免产生较大的误差。

  44. 曲线回归

More Related