1 / 93

第一节 相关与回归概述

第八章 相关与回归. 第一节 相关与回归概述. 第二节 相关关系的测度. 第三节 一元线性回归分析. 第四节 多元线性回归分析. 第五节 非线性回归分析. 受教育的水平. 预防疾病支出. 工作后的收入. 疾病的发病率. 联系与相互影响是普遍的现象. 事物相互间关系的质的解释:自然的、社会的、经济的、心理的 …. 事物相互间关系的量的分析:两变量或多变量间的数量关系。在 可以解释的质的关系基础上 进行相关分析和回归分析. 第一节 相关与回归概述. 一、相关关系的概念.

Download Presentation

第一节 相关与回归概述

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 第八章 相关与回归 第一节 相关与回归概述 第二节 相关关系的测度 第三节 一元线性回归分析 第四节 多元线性回归分析 第五节 非线性回归分析

  2. 受教育的水平 预防疾病支出 工作后的收入 疾病的发病率 联系与相互影响是普遍的现象 事物相互间关系的质的解释:自然的、社会的、经济的、心理的… 事物相互间关系的量的分析:两变量或多变量间的数量关系。在可以解释的质的关系基础上进行相关分析和回归分析

  3. 第一节 相关与回归概述 一、相关关系的概念 社会经济现象中,一些现象与另一些现象之间往往存在着依存关系,当我们用变量来反映这些现象的的特征时,便表现为变量之间的依存关系。 在分析变量的依存关系时,我们把变量分为两种: 自变量 引起其他变量发生变化的量。 因变量 受自变量的影响发生对应变化的量

  4. 例如:家庭收入决定消费支出,收入的变化必然引起消费支出的变化,这两个变量中收入是自变量,而消费支出则是因变量。例如:家庭收入决定消费支出,收入的变化必然引起消费支出的变化,这两个变量中收入是自变量,而消费支出则是因变量。 现象之间的相互关系,可以概括为两种不同的类型: (一)函数关系 (二)相关关系

  5. 指变量之间存在着确定性依存关系。即当一个或一组变量每取一个值时,相应的另一个变量必然有一个确定值与之对应 。 (一) 函数关系 函数关系可以用一个确定的公式,即函数式 或:Y=F(X) 来表示。

  6. 指变量之间存在着非确定性依存关系。即当一个或一组变量每取一个值时,相应的另一个变量可能有多个不同值与之对应 。 (二) 相关关系 例2、根据消费理论,商品需求量Q与商品价格P、居民收入I之间具有相关关系: 相关关系可用统计模型: 或:Y=F(X)+ε 式中,为影响Y的除X外的其他随机因素。

  7. 是两个变量之间存在的相关关系,即一个因变量与一个自变量之间的依存关系。因此也称为一元相关。是两个变量之间存在的相关关系,即一个因变量与一个自变量之间的依存关系。因此也称为一元相关。 也称多元相关,是指三个或三个以上变量之间存在的相关关系,通常涉及一个因变量与两个或更多个自变量,也称多元相关。 单相关 复相关 二、相关关系的种类 (一)按相关关系涉及变量的多少可分为:

  8. 当自变量X值增加(或减少)时,因变量Y值也随之增加(或减少),这样的相关关系就是正相关,也叫同向相关。 当自变量X的值增加(或减少)时,因变量Y的值随之而减少(或增加),这样的相关关系就是负相关,也叫异向相关。 正相关 负相关 (二)、按相关的方向可分为:

  9. 线性正相关

  10. 线性负相关 非线性相关

  11. 当自变量X值每变动一个单位,因变量Y值则随着发生大致均等的变动,这就是直线相关。亦称为简单相关或一元线性相关。 线性相关 当自变量X值每变动一个单位,因变量Y值则随之发生不均等的变化,称为一元非线性相关 。又称为曲线相关。 非线性相关 (三)按相关关系形式可分为:

  12. (四)按相关关系的密切程度分为: 因变量完全随自变量变动而变动,存在着严格的依存关系。即变量间的关系为函数关系。 完全相关 变量之间存在着不严格的依存关系,即因变量的变动除了受自变量变动的影响外,还受其他因素的影响。它是相关关系的主要表现形式。 不完全相关 自变量与因变量彼此独立,互不影响,其数量变化毫无联系。。 完全不相关

  13. 无(不)相关

  14. 三、相关分析与回归分析 (一)相关分析 对现象之间相关关系密切程度的研究,称为相关分析。 相关分析的主要内容包括: (1)确定现象之间有无相互依存关系,并确定是否是相关关系。 (2)确定相关关系的表现形式。

  15. (3)判定相关关系的密切程度和方向。 (二)回归分析 1、回归与回归分析 回归分析是对具有相关关系的变量之间的数量关系形式进行测定,将它们之间的关系用数学表达式描述出来,并据此对因变量进行估计和预测的分析方法。

  16. 平均身高 回归:退回regression 1877年 弗朗西斯•高尔顿爵士 遗传学研究 回归线

  17. 回归分析法。由著名的英国生物学家、统计学家高尔顿(F.Gallton)——达尔文的表弟所创。回归分析法。由著名的英国生物学家、统计学家高尔顿(F.Gallton)——达尔文的表弟所创。 • 早年,高尔顿致力于化学和遗传学领域的研究。 • 他研究父亲们的身高与儿子们的身高之间的关系时,建立了回归分析法。 回归分析法产生的历史

  18. 1889年F.Gallton和他的朋友K.Pearson收集了上千个家庭的身高、臂长和腿长的记录1889年F.Gallton和他的朋友K.Pearson收集了上千个家庭的身高、臂长和腿长的记录 • 企图寻找出儿子们身高与父亲们身高之间关系的具体表现形式 • 下图是根据1078个家庭的调查所作的散点图(略图) 父亲们的身高与儿子们的身高之间关系的研究

  19. 185 180 175 Y 170 165 160 140 150 160 170 180 190 200 X 儿子们身高向着平均身高“回归”,以保持种族的稳定

  20. 从图上虽可看出,个子高的父亲确有生出个子高的儿子的倾向,同样地,个子低的父亲确有生出个子低的儿子的倾向。得到的具体规律如下:从图上虽可看出,个子高的父亲确有生出个子高的儿子的倾向,同样地,个子低的父亲确有生出个子低的儿子的倾向。得到的具体规律如下: • 如此以来,高的伸进了天,低的缩入了地。他百思不得其解,同时又发现某人种的平均身高是相当稳定的。最后得到结论:儿子们的身高回复于全体男子的平均身高,即“回归”——见1889年F.Gallton的论文《普用回归定律》。 • 后人将此种方法普遍用于寻找变量之间的规律

  21. 2、回归分析的类型 (1)根据变量的多少分为: 一元回归 只有一个自变量和一个因变量的回归 多元回归 自变量数目在两个或两个以上 (2)按变量变化的表现形式分为: 从所拟合的回归模型来看,一变量表现为其它变量的线性组合。 线性回归 从所拟合的回归模型来看,一变量表现为其它变量的非线性组合 非线性回归

  22. 3、回归分析的主要内容 (1)利用样本数确定变量之间的数学表达式。 (2)对回归方程、参数估计值进行显著性检验。 (3)根据回归方程对因变量进行估计和预测。

  23. (三)相关分析与回归分析的关系 1、二者之间的联系: • 理论和方法具有一致性; • 无相关就无回归,相关程度越高,回归越好; • 相关系数和回归系数方向一致,可以互相推算。

  24. 2、二者之间的区别: • 两者的任务和目的不同。 相关分析只测定相关程度和方向,回归分析则建立回归模型反映变量间相互关系的具体形式,并根据模型进行预测和控制; • 两者所涉及的变量在性质上的不同。 相关分析中x与y对等,均为随机变量,回归分析中x与y要确定自变量和因变量,只有y为随机变量。

  25. 第二节 相关关系的测度 相关关系的测定 是依据研究者的理论知识和实践经验,对客观现象之间是否存在相关关系,以及何种关系作出判断 定性分析 在定性分析的基础上,通过编制相关表、绘制相关图、计算相关系数与判定系数等方法,来判断现象之间相关的方向、形态及密切程度 定量分析

  26. 一、相关表和相关图 将两个变量伴随变动结果编成一张统计表,即相关表。 (一)相关表 两个变量均不分组而形成的相关表。 1、简单相关表 对变量进行分组而形成的相关表。依两个变量是否同时分组,又分为: 2、分组相关表 单变量分组相关表 只对其中一个变量分组。 单变量分组相关表 对两个变量同时分组。

  27. 两种相关表的适用范围 适用于所观察的样本单位数较少,不需要分组的情况 简单 相关表 适用于所观察的样本单位数较多,标志变异又较复杂,需要分组的情况 分组 相关表

  28. 1、简单相关表 八个同类工业企业的月产量与生产费用

  29. 2、分组相关表 20个同类工业企业固定资产原值与平均每昼夜产量 (百万元) (吨)

  30. (二)相关图 将变量之间的伴随变动绘于坐标图上所形成的统计图。又称散点图,散布图。 相关图 根据未分组资料的原始数据直接绘制的相关图。 简单相关图 分组相关图 根据分组资料绘制的相关图。

  31. y y y y x x x x 相关图的绘制 用直角坐标系的x轴代表自变量,y轴代表因变量,将两个变量间相对应的变量值用坐标点的形式描绘出来,用以表明相关点分布状况的图形。 负 相 关 曲线相关 不 相 关 正 相 关

  32. Y X

  33. 二、相关系数 (一)相关系数的含义 相关系数是测度变量之间相关关系程度的指标。 在直线相关的条件下,用以反映两变量 间线性相关 密切程度的相关系数称为简单相关系数。

  34. (二)简单线性相关系数 若相关系数是依据总体全部数据计算的,称为总体相关系数。记为ρ;若是依据样本数据计算的,则称为样本相关系数,即为r。 其基本算法是英国统计学家皮尔逊所创的乘积动差法,简称积差法。

  35. (三)相关系数的取值范围和意义 相关系数r的取值范围:-1≤r≤1 r>0 为正相关,r < 0 为负相关; |r|=0 表示不存在线性关系; |r|=1 表示完全线性相关;

  36. 0<|r|<1表示存在不同程度线性相关: |r|<0.4 为低度线性相关; 0.4≤ |r| <0.7为显著性线性相关; 0.7≤|r| <1.0为高度显著性线性相关。 (四)相关系数的计算 1、按极差法相关系数公式计算 2、相关系数的简捷计算法 【例】计算工业总产值与能源消耗量之间的相关系数 资料

  37. 结论:工业总产值与能源消耗量之间存在高度的正相关关系,能源消耗量x的变化能够解释工业总产值y变化的95.2﹪。结论:工业总产值与能源消耗量之间存在高度的正相关关系,能源消耗量x的变化能够解释工业总产值y变化的95.2﹪。

  38. 使用相关系数时应注意的问题: • 相关关系不等于因果关系; • 相关系数只度量变量间的线性关系,因此,弱相关不一定表明变量间没有关系; • 极端值可能影响相关系数。 • 注意相关关系成立的数据范围。 • 警惕虚假相关

  39. 第三节 一元线性回归分析 通过一个变量x或一些变量(x1,x2,x3…)的变化解释另一变量y的变化.即根据相关关系的数量表达式(回归方程式)与给定的自变量x,揭示因变量y在数量上的平均变化和求得因变量的预测值的统计分析方法 回归分析 回归:退回regression 反映自变量和因变量之间数学联系的表达式。 回归方程 回归模型 某一类回归方程的总称。

  40. Y X X 自变量(independent variable):解释变量,给定的或可以控制的、用来解释、预测应变量的变量。 因变量(dependent variable):响应变量,由自变量来解释其变化的变量。 Y • • • • • • • •

  41. 回归分析的内容和步骤 1、根据理论和对问题的分析判断, 区分自变量和因变量; 2、设法找出适合的数学方程式(即 回归模型)描述变量间的关系 3、对回归模型进行统计检验; 4、统计检验通过后,利用回归模型,根据解释变量去估计,预测 因变量。

  42. 一、一元线性回归模型 (一)总体回归模型 指根据成对的两个变量的数值,配合直线方程式,根据自变量的变动,来推算因变量发展变动趋势的方法,其模型为: 总体回归模型 ( i=1,2, … ,N)

  43. 模型参数  其中:Yi表示因变量Y在总体中某一个具体的观察值;Xi表示在研究总体中自变量X的具体观察数值;N为总体单位数;α、β是参数,称为回归系数;ui为随机误差项,表示除X以外的其他各种因素对Y的影响,其平均数为0,方差为σ2。 总体一元回归模型可改写成: 假定: E(u)=0 误差项

  44. 总体一元线性回归方程: 对于一个给定的Xi ,将可能有多个不同的Yi与之对应。但是所有可能出现的Yi 值服从一定的总体分布,其波动中心是它的期望值E(Yi)。散布点到该直线的垂直坐标距离即为随机误差项ui : ui=Yi -E(Yi )

  45. (二)样本回归模型 在实际应用中,我们对X和Y所代表的总体往往不可能全面的观察和了解,而只能从中抽取部分资料作为样本,并通过样本提供的信息来认识总体,找出总体回归模型的估计式,其估计式的方程式可写为: 样本回归方程 (i=1,2,… ,n) 其中:a,b分别为α、β的估计量。

  46. 样本的实际观测值 yi与样本回归方程估计值 并不完全相等,而是存在着一定偏差,这一偏差称为残差,用ei表示。 由于抽样的随机性,使样本回归线不可能与总体回归完全重合,从而会出现样本回归函数高估或低估总体回归函数的情况,我们能做的就是设法使样本回归函数尽可能接近总体回归函数,也就是说要使回归方程参数的估计值a、b尽量接近总体真实参数α、β。 ei可作为随机误差项ui的估计,因此样本回归模型 :

  47. 截距 斜率 一元线性回归方程的可能形态 为正 为负 为0 一元线性回归方程的几何意义

  48. (估计的回归方程) 样本一元线性回归方程: 截距 总体一元线性 回归方程: 以样本统计量估计总体参数 斜率(回归系数) 截距a 表示在没有自变量x的影响时,其它各种因素对因变量y的平均影响;回归系数b 表明自变量x每变动一个单位,因变量y平均变动b个单位。

  49. 随机干扰:各种偶然因素、观察误差和其他被忽视因素的影响随机干扰:各种偶然因素、观察误差和其他被忽视因素的影响 X对y的线性影响而形成的系统部分,反映两变量的平均变动关系,即本质特征。

More Related