930 likes | 1.03k Views
第八章 相关与回归. 第一节 相关与回归概述. 第二节 相关关系的测度. 第三节 一元线性回归分析. 第四节 多元线性回归分析. 第五节 非线性回归分析. 受教育的水平. 预防疾病支出. 工作后的收入. 疾病的发病率. 联系与相互影响是普遍的现象. 事物相互间关系的质的解释:自然的、社会的、经济的、心理的 …. 事物相互间关系的量的分析:两变量或多变量间的数量关系。在 可以解释的质的关系基础上 进行相关分析和回归分析. 第一节 相关与回归概述. 一、相关关系的概念.
E N D
第八章 相关与回归 第一节 相关与回归概述 第二节 相关关系的测度 第三节 一元线性回归分析 第四节 多元线性回归分析 第五节 非线性回归分析
受教育的水平 预防疾病支出 工作后的收入 疾病的发病率 联系与相互影响是普遍的现象 事物相互间关系的质的解释:自然的、社会的、经济的、心理的… 事物相互间关系的量的分析:两变量或多变量间的数量关系。在可以解释的质的关系基础上进行相关分析和回归分析
第一节 相关与回归概述 一、相关关系的概念 社会经济现象中,一些现象与另一些现象之间往往存在着依存关系,当我们用变量来反映这些现象的的特征时,便表现为变量之间的依存关系。 在分析变量的依存关系时,我们把变量分为两种: 自变量 引起其他变量发生变化的量。 因变量 受自变量的影响发生对应变化的量
例如:家庭收入决定消费支出,收入的变化必然引起消费支出的变化,这两个变量中收入是自变量,而消费支出则是因变量。例如:家庭收入决定消费支出,收入的变化必然引起消费支出的变化,这两个变量中收入是自变量,而消费支出则是因变量。 现象之间的相互关系,可以概括为两种不同的类型: (一)函数关系 (二)相关关系
指变量之间存在着确定性依存关系。即当一个或一组变量每取一个值时,相应的另一个变量必然有一个确定值与之对应 。 (一) 函数关系 函数关系可以用一个确定的公式,即函数式 或:Y=F(X) 来表示。
指变量之间存在着非确定性依存关系。即当一个或一组变量每取一个值时,相应的另一个变量可能有多个不同值与之对应 。 (二) 相关关系 例2、根据消费理论,商品需求量Q与商品价格P、居民收入I之间具有相关关系: 相关关系可用统计模型: 或:Y=F(X)+ε 式中,为影响Y的除X外的其他随机因素。
是两个变量之间存在的相关关系,即一个因变量与一个自变量之间的依存关系。因此也称为一元相关。是两个变量之间存在的相关关系,即一个因变量与一个自变量之间的依存关系。因此也称为一元相关。 也称多元相关,是指三个或三个以上变量之间存在的相关关系,通常涉及一个因变量与两个或更多个自变量,也称多元相关。 单相关 复相关 二、相关关系的种类 (一)按相关关系涉及变量的多少可分为:
当自变量X值增加(或减少)时,因变量Y值也随之增加(或减少),这样的相关关系就是正相关,也叫同向相关。 当自变量X的值增加(或减少)时,因变量Y的值随之而减少(或增加),这样的相关关系就是负相关,也叫异向相关。 正相关 负相关 (二)、按相关的方向可分为:
线性负相关 非线性相关
当自变量X值每变动一个单位,因变量Y值则随着发生大致均等的变动,这就是直线相关。亦称为简单相关或一元线性相关。 线性相关 当自变量X值每变动一个单位,因变量Y值则随之发生不均等的变化,称为一元非线性相关 。又称为曲线相关。 非线性相关 (三)按相关关系形式可分为:
(四)按相关关系的密切程度分为: 因变量完全随自变量变动而变动,存在着严格的依存关系。即变量间的关系为函数关系。 完全相关 变量之间存在着不严格的依存关系,即因变量的变动除了受自变量变动的影响外,还受其他因素的影响。它是相关关系的主要表现形式。 不完全相关 自变量与因变量彼此独立,互不影响,其数量变化毫无联系。。 完全不相关
三、相关分析与回归分析 (一)相关分析 对现象之间相关关系密切程度的研究,称为相关分析。 相关分析的主要内容包括: (1)确定现象之间有无相互依存关系,并确定是否是相关关系。 (2)确定相关关系的表现形式。
(3)判定相关关系的密切程度和方向。 (二)回归分析 1、回归与回归分析 回归分析是对具有相关关系的变量之间的数量关系形式进行测定,将它们之间的关系用数学表达式描述出来,并据此对因变量进行估计和预测的分析方法。
平均身高 回归:退回regression 1877年 弗朗西斯•高尔顿爵士 遗传学研究 回归线
回归分析法。由著名的英国生物学家、统计学家高尔顿(F.Gallton)——达尔文的表弟所创。回归分析法。由著名的英国生物学家、统计学家高尔顿(F.Gallton)——达尔文的表弟所创。 • 早年,高尔顿致力于化学和遗传学领域的研究。 • 他研究父亲们的身高与儿子们的身高之间的关系时,建立了回归分析法。 回归分析法产生的历史
1889年F.Gallton和他的朋友K.Pearson收集了上千个家庭的身高、臂长和腿长的记录1889年F.Gallton和他的朋友K.Pearson收集了上千个家庭的身高、臂长和腿长的记录 • 企图寻找出儿子们身高与父亲们身高之间关系的具体表现形式 • 下图是根据1078个家庭的调查所作的散点图(略图) 父亲们的身高与儿子们的身高之间关系的研究
185 180 175 Y 170 165 160 140 150 160 170 180 190 200 X 儿子们身高向着平均身高“回归”,以保持种族的稳定
从图上虽可看出,个子高的父亲确有生出个子高的儿子的倾向,同样地,个子低的父亲确有生出个子低的儿子的倾向。得到的具体规律如下:从图上虽可看出,个子高的父亲确有生出个子高的儿子的倾向,同样地,个子低的父亲确有生出个子低的儿子的倾向。得到的具体规律如下: • 如此以来,高的伸进了天,低的缩入了地。他百思不得其解,同时又发现某人种的平均身高是相当稳定的。最后得到结论:儿子们的身高回复于全体男子的平均身高,即“回归”——见1889年F.Gallton的论文《普用回归定律》。 • 后人将此种方法普遍用于寻找变量之间的规律
2、回归分析的类型 (1)根据变量的多少分为: 一元回归 只有一个自变量和一个因变量的回归 多元回归 自变量数目在两个或两个以上 (2)按变量变化的表现形式分为: 从所拟合的回归模型来看,一变量表现为其它变量的线性组合。 线性回归 从所拟合的回归模型来看,一变量表现为其它变量的非线性组合 非线性回归
3、回归分析的主要内容 (1)利用样本数确定变量之间的数学表达式。 (2)对回归方程、参数估计值进行显著性检验。 (3)根据回归方程对因变量进行估计和预测。
(三)相关分析与回归分析的关系 1、二者之间的联系: • 理论和方法具有一致性; • 无相关就无回归,相关程度越高,回归越好; • 相关系数和回归系数方向一致,可以互相推算。
2、二者之间的区别: • 两者的任务和目的不同。 相关分析只测定相关程度和方向,回归分析则建立回归模型反映变量间相互关系的具体形式,并根据模型进行预测和控制; • 两者所涉及的变量在性质上的不同。 相关分析中x与y对等,均为随机变量,回归分析中x与y要确定自变量和因变量,只有y为随机变量。
第二节 相关关系的测度 相关关系的测定 是依据研究者的理论知识和实践经验,对客观现象之间是否存在相关关系,以及何种关系作出判断 定性分析 在定性分析的基础上,通过编制相关表、绘制相关图、计算相关系数与判定系数等方法,来判断现象之间相关的方向、形态及密切程度 定量分析
一、相关表和相关图 将两个变量伴随变动结果编成一张统计表,即相关表。 (一)相关表 两个变量均不分组而形成的相关表。 1、简单相关表 对变量进行分组而形成的相关表。依两个变量是否同时分组,又分为: 2、分组相关表 单变量分组相关表 只对其中一个变量分组。 单变量分组相关表 对两个变量同时分组。
两种相关表的适用范围 适用于所观察的样本单位数较少,不需要分组的情况 简单 相关表 适用于所观察的样本单位数较多,标志变异又较复杂,需要分组的情况 分组 相关表
1、简单相关表 八个同类工业企业的月产量与生产费用
2、分组相关表 20个同类工业企业固定资产原值与平均每昼夜产量 (百万元) (吨)
(二)相关图 将变量之间的伴随变动绘于坐标图上所形成的统计图。又称散点图,散布图。 相关图 根据未分组资料的原始数据直接绘制的相关图。 简单相关图 分组相关图 根据分组资料绘制的相关图。
y y y y x x x x 相关图的绘制 用直角坐标系的x轴代表自变量,y轴代表因变量,将两个变量间相对应的变量值用坐标点的形式描绘出来,用以表明相关点分布状况的图形。 负 相 关 曲线相关 不 相 关 正 相 关
Y X
二、相关系数 (一)相关系数的含义 相关系数是测度变量之间相关关系程度的指标。 在直线相关的条件下,用以反映两变量 间线性相关 密切程度的相关系数称为简单相关系数。
(二)简单线性相关系数 若相关系数是依据总体全部数据计算的,称为总体相关系数。记为ρ;若是依据样本数据计算的,则称为样本相关系数,即为r。 其基本算法是英国统计学家皮尔逊所创的乘积动差法,简称积差法。
(三)相关系数的取值范围和意义 相关系数r的取值范围:-1≤r≤1 r>0 为正相关,r < 0 为负相关; |r|=0 表示不存在线性关系; |r|=1 表示完全线性相关;
0<|r|<1表示存在不同程度线性相关: |r|<0.4 为低度线性相关; 0.4≤ |r| <0.7为显著性线性相关; 0.7≤|r| <1.0为高度显著性线性相关。 (四)相关系数的计算 1、按极差法相关系数公式计算 2、相关系数的简捷计算法 【例】计算工业总产值与能源消耗量之间的相关系数 资料
结论:工业总产值与能源消耗量之间存在高度的正相关关系,能源消耗量x的变化能够解释工业总产值y变化的95.2﹪。结论:工业总产值与能源消耗量之间存在高度的正相关关系,能源消耗量x的变化能够解释工业总产值y变化的95.2﹪。
使用相关系数时应注意的问题: • 相关关系不等于因果关系; • 相关系数只度量变量间的线性关系,因此,弱相关不一定表明变量间没有关系; • 极端值可能影响相关系数。 • 注意相关关系成立的数据范围。 • 警惕虚假相关
第三节 一元线性回归分析 通过一个变量x或一些变量(x1,x2,x3…)的变化解释另一变量y的变化.即根据相关关系的数量表达式(回归方程式)与给定的自变量x,揭示因变量y在数量上的平均变化和求得因变量的预测值的统计分析方法 回归分析 回归:退回regression 反映自变量和因变量之间数学联系的表达式。 回归方程 回归模型 某一类回归方程的总称。
Y X X 自变量(independent variable):解释变量,给定的或可以控制的、用来解释、预测应变量的变量。 因变量(dependent variable):响应变量,由自变量来解释其变化的变量。 Y • • • • • • • •
回归分析的内容和步骤 1、根据理论和对问题的分析判断, 区分自变量和因变量; 2、设法找出适合的数学方程式(即 回归模型)描述变量间的关系 3、对回归模型进行统计检验; 4、统计检验通过后,利用回归模型,根据解释变量去估计,预测 因变量。
一、一元线性回归模型 (一)总体回归模型 指根据成对的两个变量的数值,配合直线方程式,根据自变量的变动,来推算因变量发展变动趋势的方法,其模型为: 总体回归模型 ( i=1,2, … ,N)
模型参数 其中:Yi表示因变量Y在总体中某一个具体的观察值;Xi表示在研究总体中自变量X的具体观察数值;N为总体单位数;α、β是参数,称为回归系数;ui为随机误差项,表示除X以外的其他各种因素对Y的影响,其平均数为0,方差为σ2。 总体一元回归模型可改写成: 假定: E(u)=0 误差项
总体一元线性回归方程: 对于一个给定的Xi ,将可能有多个不同的Yi与之对应。但是所有可能出现的Yi 值服从一定的总体分布,其波动中心是它的期望值E(Yi)。散布点到该直线的垂直坐标距离即为随机误差项ui : ui=Yi -E(Yi )
(二)样本回归模型 在实际应用中,我们对X和Y所代表的总体往往不可能全面的观察和了解,而只能从中抽取部分资料作为样本,并通过样本提供的信息来认识总体,找出总体回归模型的估计式,其估计式的方程式可写为: 样本回归方程 (i=1,2,… ,n) 其中:a,b分别为α、β的估计量。
样本的实际观测值 yi与样本回归方程估计值 并不完全相等,而是存在着一定偏差,这一偏差称为残差,用ei表示。 由于抽样的随机性,使样本回归线不可能与总体回归完全重合,从而会出现样本回归函数高估或低估总体回归函数的情况,我们能做的就是设法使样本回归函数尽可能接近总体回归函数,也就是说要使回归方程参数的估计值a、b尽量接近总体真实参数α、β。 ei可作为随机误差项ui的估计,因此样本回归模型 :
截距 斜率 一元线性回归方程的可能形态 为正 为负 为0 一元线性回归方程的几何意义
(估计的回归方程) 样本一元线性回归方程: 截距 总体一元线性 回归方程: 以样本统计量估计总体参数 斜率(回归系数) 截距a 表示在没有自变量x的影响时,其它各种因素对因变量y的平均影响;回归系数b 表明自变量x每变动一个单位,因变量y平均变动b个单位。
随机干扰:各种偶然因素、观察误差和其他被忽视因素的影响随机干扰:各种偶然因素、观察误差和其他被忽视因素的影响 X对y的线性影响而形成的系统部分,反映两变量的平均变动关系,即本质特征。