330 likes | 393 Views
直线相关. 直线相关的掌握要点. 直线相关描述了什么问题? 直线相关分析的具体步骤是什么? 直线相关分析对资料有什么要求? 如何对这些要求进行检查或检验? 仅用样本直线相关系数能否说明相关程度? 总体相关系数非常接近 1 ,能否说明 Y=X ?. 体重. 身高. 线性相关. 例:考察身高与体重的伴随关系. 线性相关. 图中 不是每个身材较高的对象必有较重的体重,但大多数对象的体重 Y 与其身高 X 的变化呈一种伴随增大或减小的直线变化趋势,这种现象称为直线相关 。 刻画两个随机变量之间线性相关程度 称为线性相关 ( linear correlation ).
E N D
直线相关的掌握要点 • 直线相关描述了什么问题? • 直线相关分析的具体步骤是什么? • 直线相关分析对资料有什么要求? • 如何对这些要求进行检查或检验? • 仅用样本直线相关系数能否说明相关程度? • 总体相关系数非常接近1,能否说明Y=X?
体重 身高 线性相关 • 例:考察身高与体重的伴随关系
线性相关 • 图中不是每个身材较高的对象必有较重的体重,但大多数对象的体重Y与其身高X的变化呈一种伴随增大或减小的直线变化趋势,这种现象称为直线相关 。 • 刻画两个随机变量之间线性相关程度 称为线性相关(linear correlation)
线性相关 • 称X和Y伴随同时上升或伴随下降为线性正相关(Linear Positive Correlation) • X与Y的反方向伴随直线变化趋势称为线性负相关(linear negative correlation) • X和Y无任何直线伴随变化趋势,则称为零相关(零线性相关) 。
线性相关系数 • 直线相关系数(linear correlation coeffiecient),简称相关系数。 • 相关系数是描述两个变量之间线性相关的程度和相关方向的统计指标。
线性相关系数 • 描述全体研究对象的两个变量之间线性相关性的相关系数称为总体相关系数,记为。 • 描述样本资料的两个变量之间的线性相关性的相关系数为样本相关系数,简称相关系数,记为r。
样本相关系数的计算 • 一般而言,总体相关系数是未知的,通常用样本相关系数r进行估计。样本相关系数r按下式计算: • 上述相关系数又称为Pearson相关系数
相关系数性质 • 无量纲 • 取值范围为-1 1 ,-1r 1 • >0表示正相关; <0表示负相关; =0表示零相关。 • ||越接近1,表示相关程度越密切 • ||越接近0,表示相关程度越不密切
实例分析 • 例:随机抽取15名健康成人,测定血液的凝血酶浓度(毫升)及凝血时间(秒)。问:这两项指标是否线性相关?
实例分析 • 样本相关系数计算可以简化为
实例分析 • 本例:
样本相关系数与样本量 • 样本相关系数r的大小与样本量有关。 • 特别n=2,当两个点的连线不平行与横轴和纵轴时,r=1或r=-1。 • 样本相关系数大小不能直接评价两个变量之间的相关性。 • 通常研究者首先关心的是=0 ?
相关系数的检验 • 总体相关系数=0 时,样本相关系数一般不为0 (存在抽样误差),故需要作假设检验。 • Pearson相关系数的假设检验要求X和Y服从双正态分布
相关系数的检验 • H0: =0 H1: 0 • =0.05 • 检验统计量 • 当=0 为真时,t服从自由度为n-2的t分布,即|t|>t0.05/2,n-2时,拒绝H0 : =0 • 可以认为两个变量呈线性相关( 0) 。
实例分析(续) • H0: =0 H1: 0 • =0.05 • 临界值t0.05/2,15-2=2.16, |t|> t0.05/2,15-2 • 故拒绝H0 : =0 ,可以认为凝血酶浓度y及凝血时间x呈线性负相关( <0) 。
相关系数的95%可信区间计算 • 由于0的样本相关系数r呈偏态分布,故需作z变换 ,方法如下: • 其中
相关系数的95%可信区间计算 • z的95%可信区间为 • 反变换后的95%可信区间为
实例的95%可信区间计算 • Z变换: • z的95%可信区间为
实例的95%可信区间计算 • Z的反变换 • 的下限为 • 的上限为 • 凝血酶浓度y及凝血时间x 的总体相关系数的95%可信区间为(-0.976,-0.787)
线性相关与直线回归的异同性 回归系数很大,相关性很弱 回归系数很小,相关性较强
线性相关与直线回归的异同性 • 回归系数 刻画了X变化一个单位,Y平均变化多少单位,与相关性没有直接联系。即:回归系数可以很大,相关性可以很弱。 • 相关系数 刻画了X与Y的相关程度,即:X与Y伴随变化的同步程度,但相关系数与X伴随Y同步变化幅度没有之间联系。即:回归系数可以很小, 但同步变化的一致程度很高(相关程度可以很强)。
直线相关分析对资料的要求 • 由概率论的条件概率公式,得到检验X和Y服从双正态分布的方法如下: • 以X为自变量,Y为应变量作直线回归。 • 计算其残差 • 检验残差和自变量X是否均服从正态分布,并且残差与x没有明显的伴随趋势。 • 如果残差和X均服从正态分布且无伴随趋势,即可推断X和Y服从双正态分布。
直线回归与直线相关分析的注意点 • 直线回归的任何结果都不能推断x与Y的因果关系。 • x与Y相关分析的结果不能推断为x与Y相等关系或两个变量的一致性。 • 一般而言,相关系数检验的无效假设为=0,所以P和样本相关系数r的大小都不能推断总体相关系数的大小,只有通过95%可信区间才能估计的范围。
直线相关和直线回归小结 • 直线相关是刻画两个变量之间的相关程度。 • 直线回归是刻画自变量x与应变量Y的总体均数y的线性对应关系。 • 在直线相关分析中,两个变量都是随机变量,且要求服从双正态分布。
直线相关和直线回归小结 • 在直线回归分析中,应变量Y是随机变量,x可以是非随机变量也可以是随机变量,但即使从研究背景上考察,x是随机变量,在直线回归模型,x的变量值视为普通变量的取值。 • 直线回归要求固定自变量x,Y服从正态分布或残差服从正态分布,并且自变量X与残差无明显的伴随变化趋势。
您对直线相关的要点理解吗? • 直线相关描述了什么问题? • 直线相关分析的具体步骤是什么? • 直线相关分析对资料有什么要求? • 如何对这些要求进行检查或检验? • 仅用样本直线相关系数能否说明相关程度? • 总体相关系数非常接近1,能否说明Y=X?
思考题 • 某医生对一个患者进行连续观察其心跳次数和体温,每小时观察一次,记录该对象的心跳次数和体温,共观察了72小时,为了了解心跳次数与体温的关系,假定散点图显示:这些观察值的点呈直线带状态。请问:能否作直线回归分析?或直线相关分析?为什么?
Stata实现 • 一、用Stata软件计算相关系数 • 绘制散点图 graph x y • 计算Pearson相关系数,假设检验p值 pwcorr x y ,sig star(.05)
参考文献 • 赵耐青主编,十五规划教材《医学统计学》,高教出版社2004年3月 • 赵耐青主编,《临床研究设计与数据分析》,复旦大学出版社2005年8月 • John Neter. Applied linear statistical models,fourth edition. WCB:McGraw Hill,1996