740 likes | 1.21k Views
第 7 章 相关与 回归分析. 会计学 2011 级 主讲:王红娜. 本章内容. 7.1 相关分析 7.2 一元线性回归分析 7.3 线性回归的显著性检验与回归预测. 本章小结. 实例 : 全球吃死的人比饿死的人 多?. 据世界卫生组织统计,全球肥胖症患者达 3 亿人,其中儿童占 2200 万人, 11 亿人体重过重。肥胖症和体重超常早已不是发达国家的“专利”,已遍及五大洲。目前,全球因”吃”致病乃至死亡的人数已高于因饥饿死亡的人数。 ( 引自 《 光明日报 》 刘军 / 文) 问题 : 肥胖症和体重超常与死亡人数真有显著的数量关系吗 ?
E N D
第7章 相关与回归分析 会计学2011级 主讲:王红娜
本章内容 • 7.1 相关分析 • 7.2 一元线性回归分析 • 7.3 线性回归的显著性检验与回归预测 本章小结
实例:全球吃死的人比饿死的人多? • 据世界卫生组织统计,全球肥胖症患者达3亿人,其中儿童占2200万人,11亿人体重过重。肥胖症和体重超常早已不是发达国家的“专利”,已遍及五大洲。目前,全球因”吃”致病乃至死亡的人数已高于因饥饿死亡的人数。 (引自《光明日报》刘军/文) • 问题: 肥胖症和体重超常与死亡人数真有显著的数量关系吗? • 这些类型的问题可以运用相关分析与回归分析的方法去解决。
7.1教学要求 • 了解变量间的相互关系:函数关系,相关关系 • 理解相关关系的种类 • 单相关、复相关;线性相关、非线性相关;正相关、负相关 • 掌握相关关系的描述方法:相关表,相关图 • 理解总体相关系数与样本相关系数,掌握样本相关系数的计算及其特点 • 掌握相关系数的检验方法 • 掌握Spearman等级相关系数的计算方法
相关关系的概念 相关系数 Spearman等级相关系数 7.1 相关分析 一 二 三 TO:7.2
一、相关关系的概念 1 变量间的相互关系 2 相关关系的种类 3 相关关系的描述
变量间的相互关系 • 确定性的函数关系: • 不确定性的统计关系——相关关系 • 没有关系 • 变量间关系的图形描述: • 坐标图(散点图)
相关关系的例子 • 商品的消费量()与居民收入()之间的关系 • 商品销售额()与广告费支出()之间的关系 • 粮食亩产量()与施肥量() 、降雨量() 、温度()之间的关系 • 收入水平()与受教育程度()之间的关系 • 子女身高()与父亲身高()之间的关系
相关关系的种类 相关关系 自变量的数量 表现形式 方向 密切程度 多元相关 一元相关 线性相关 非线性相关 正相关 负相关 完全相关 零相关 一般相关
一元相关与多元相关 • 一元相关 • 又称简单相关,指两个变量之间的相关关系。 • 如:商品需求量与其价格之间 • 多元相关 • 又称复相关,指三个或三个以上变量之间的相关关系。 • 商品需求量与其价格水平、职工收入水平之间的关系。
线性相关与非线性相关 • 线性相关 • 又称直线相关,指随着一个变量的值的变动,另一个变量的值发生大致相等的变动,因而表现在坐标图上,其散点的分布近似表现为一条直线。 • 如:某种商品的销售量与销售额之间 • 非线性相关 • 又称曲线相关,指随着一个变量的值的变动,另一个变量的值发生不均等的变动,因而表现在坐标图上,其散点的分布近似表现为各种不同形式的曲线。 • 如:商品销售额与流通费用之间
正相关与负相关 • 正相关 • 指两个相关变量变化方向一致。即随着一个变量的值增加,另一个变量的值也随之增加;或随着一个变量的值的减少,另一个变量的值也随之减少。 • 如:产品原材料价格与产品成本之间 • 负相关 • 指两个变量变化方向相反。即随着一个变量的值的增加或减少,另一个变量的值反而随之减少或增加。 • 劳动生产率与产品的成本之间。
从变量相关关系变化的方向看 • 正相关——变量同方向变化 同增同减 (A) • 负相关——变量反方向变化 一增一减 (B) • 从变量相关的程度看 • 完全相关 (B) • 不完全相关 (A) • 不相关 (C) A B C
完全相关、零相关、不完全相关 • 完全相关 • 指一个变量的值可由另一个或另一组变量的值所唯一确定。因而完全相关实际上是函数关系。 • 零相关 • 又称不相关,指两个变量间相互独立,互不影响,二者的数量变化毫无联系。 • 如:在销售价格不变的情况下,某种商品的销售额与销售量之间呈完全相关;而电脑的销售量与烟酒的销售量之间一般是不相关的。
不完全相关 • 指介于完全相关与不相关间的变量关系。表现为某一变量的变化,其数值不仅取决于另一个或另一组变量所取的值,而且还受到其他随机因素的影响。 • 变量间的关系,大量表现为不完全相关。
相关关系的描述 • 相关表 • 是直接根据现象之间的原始数据,将一个变量的若干变量值按从小到大的顺序排列,并将另一个变量的值与之对应排列形成统计表。 • 相关图 • 又称散点图,将两个变量建相对应的变脸用坐标点的形式描绘出来,用以表示相关点分布状况的图形。
例子 • 有10个同类企业的生产性固定资产年平均价值和工业总产值的资料如下表所示。 • 相关表为: 返回7.1目录
二、相关系数 1 总体相关系数 2 样本相关系数 3 相关系数的特点 4 相关系数的测度 5 相关系数的检验
相关系数——总体相关系数 • 对于所研究的总体,表示两个相互联系变量相关程度的总体相关系数为: • 总体相关系数反映总体两个变量和的线性相关程度。 • 特点: • 对于特定的总体来说,和的数值是既定的 • 总体相关系数是客观存在的特定数值。
相关系数——样本相关系数 • 通过和的样本观测值去估计样本相关系数变量 • 和的样本相关系数通常用表示,或简记为。 • 特点: • 样本相关系数是根据从总体中抽取的随机样本的观测值计算出来的,是对总体相关系数的估计,它是个随机变量。
相关系数的特点 • 相关系数的取值在-1与1之间。 • 当时,表明与没有线性相关关系。 • 当时,表明与存在一定的线性相关关系: • 若,表明与为正相关; • 若,表明与为负相关。 • 当时,表明与完全线性相关: • 若,称与完全正相关; • 若,称与完全负相关。
完全正相关 完全负相关 无线性相关 -1.0 -0.5 0 +0.5 +1.0 负相关程度增加 正相关程度增加 相关关系的测度(相关系数取值及其意义) r
相关关系的测度(相关系数计算) • 在研究我国人均消费水平的问题中,把全国人均消费额记为,把人均国民收入记为。我们收集到1981~1993年的样本数据(,),,数据见下表,计算相关系数。
相关关系的测度(计算结果) • 解:根据样本相关系数的计算公式有 • 所以,人均国民收入与人均消费金额之间的相关系数为 0.9987。
使用相关系数的注意事项 • 和都是相互对称的随机变量,所以 • 相关系数只反映变量间的线性相关程度,不能说明非线性相关关系。 • 相关系数不能确定变量的因果关系,也不能说明相关关系具体接近于哪条直线。
相关系数的检验 • 为什么要检验? • 样本相关系数是随抽样而变动的随机变量,相关系数的统计显著性还有待检验。 • 检验的依据: • 如果与都服从正态分布,在总体相关系数的假设下,与样本相关系数有关的统计量服从自由度为的分布:
相关系数的检验方法 • 给定显著性水平,查自由度为的临界值 • 若,表明相关系数在统计上是显著的,应否定而接受的假设; • 反之,若,则不否定的假设。 返回7.1目录
Spearman等级相关系数的定义 Spearman等级相关系数的特性 三、Spearman等级相关系数 01 02
Spearman等级相关系数的定义 • 当变量不满足正态分布要求或不是数量型变量时,简单线性相关系数不宜使用,可以用Spearman等级相关系数作相关性分析。 • 对于样本容量为的变量和,如果和的取值都可以分为个等级,而且样本的个单位分别不重复地属于和的不同等级,即没有两个单位取相同等级,用表示样本单位属于的等级与的等级的级差。Spearman等级相关系数为:
例题分析 某次全国武术表演赛,女子前10名运动员长拳和长兵器两项得分如右表,试求两项目的等级相关系数。
定等级 • 将长拳的成绩从高到低进行排序,长兵器的成绩对应排列 • 成绩相同的,等级相等,等于其排序和的平均值 • 计算等级差 • 计算等级相关系数
Spearman等级相关系数的特性 • Spearman样本等级相关系数的取值范围是: • 时,说明样本等级完全正相关; • 时,样本等级完全负相关; • 时,说明样本等级不相关; • 时,越接近1,正相关程度越高; 时,越接近-1,负相关程度越高。 • 可以证明:Spearman等级相关系数是简单线性相关系数的特例。
相关分析小结 • 相关分析要研究的是变量间的相关方向和程度。对变量作相关分析,将首先采用定性的方法对变量间是否存在依存关系进行判断,如果判明它们之间没有依存关系,就无需作相关分析,否则只能得出错误的结论。 • 在对变量间的相关关系作出定性分析之后,再以图表的形式直观地反映它们之间的相关方向和相关程度,并以相关系数来度量具有线性相关关系的变量间线性相关的密切程度。 返回7.1目录
7.2教学要求 • 理解相关分析与回归分析的区别与联系; • 了解总体回归函数与样本回归函数,掌握二者的表达方式; • 理解利用最小二乘法进行一元线性回归时的5个基本假定;会用最小二乘法进行一元线性回归;掌握总体随机误差项的方差的估计方法; • 理解可决系数的作用,掌握可决系数的计算方法;理解可决系数与相关系数之间的联系与区别。
相关分析与回归分析的联系 总体回归函数与样本回归函数 回归系数的普通最小二乘估计 拟合优度的度量 7.2 一元线性回归分析 一 二 三 四 TO:7.3
一、相关分析与回归分析的联系 • 回归的古典意义 • 高尔顿遗传学的回归概念 父母身高与子女身高的关系: • 无论高个子或低个子的父母,其子女都有向人的平均身高移动或回归的趋势
估计因变量平均值 总体 自变量固定值 样本 • 回归的现代意义: • 一个因变量对若干解释变量(自变量)依存关系的研究 • 回归的目的(实质): • 由已知的或固定的自变量去估计因变量的总体均值
相关与回归分析 回归分析 相关分析 研究变量之间相关关系密切程度的理论与方法 • 研究变量之间关系形式的理论与方法
相关与回归分析的联系 • 二者具有互为补充关系 • 在研究现象之间的相关时,特别是在研究数量标志之间的相关关系时,回归分析和相关分析是密切联系在一起的,是同时并用的。 • 二者存在计算上的联系 • 回归分析和相关分析是非常相近的两种分析技术,所计算的指标不但在符号上存在联系,而且可以互相推算。
相关分析与回归分析的区别 • 二者在关心变量性质上不同 • 回归分析中,必须将变量分为自变量和因变量:因变量是随机变量,自变量可以是随机变量,也可以是非随机的确定变量。相关分析中,变量和都是随机变量,且处于平等的地位。 • 二者的任务和目的不同 • 回归分析要建立适合于变量之间关系的回归方程,可对因变量进行估算和预测。相关分析只反映回归方程所表明变量之间依存关系的密切程度,是不能进行估算和预测的。
二者的使用范围不同 • 回归分析只限于研究数量标志之间或指标之间的数量关系,对于品质标志之间和等级之间的关系是无法研究的。相关分析研究范围比回归分析研究的范围要广泛的多。 • 从研究的范围看,凡是能够进行回归分析的,都能够也必须进行相关分析,而能够进行相关分析的,却不一定能够和不都需要进行回归分析。 返回7.2目录
二、总体回归函数与样本回归函数 • 的条件分布:在取某固定值条件下的分布。 • 当自变量取某一固定值时,的取值并不确定,的不同取值会形成一定的分布,即的条件分布。 • 回归线 • 对于的每一个取值,都有的条件期望与之对应,在坐标图上,的条件期望随而变化的轨迹所形成的直线或曲线即回归线。
回归函数 • 把的条件期望表示为的某种函数:,此函数即回归函数。 • 一元线性回归函数 • 回归函数是线性函数,且只有一个自变量,
总体回归函数(PRF) • 概念 • 将总体因变量的条件期望表现为自变量的某种函数,这个函数称为总体回归函数(简记为PRF)。
表现形式: • 条件期望表现形式 • 个别值表现形式(随机设定形式) • ——随机误差项。对其的理解如下: • 各个值与条件期望的偏差; • 可正可负; • 随机变量; • 代表排除在自变量以外的所有因素对的影响。
样本回归函数(SRF) • 概念 • 的样本观测值的条件均值随自变量而变动的轨迹,称为样本回归线。 • 如果把因变量的样本条件均值表示为自变量的某种函数,这个函数称为样本回归函数(简记为SRF)。
表现形式 或者 • ——残差项或剩余项 • 在概念上类似于总体回归函数中的随机误差 • 回归方程中的斜率是回归系数,表示每变动一单位,亦变动单位。
样本回归函数与总体回归函数的联系 • 样本回归函数的函数形式应与设定的总体回归函数的函数形式一致。 • 和是对总体回归函数参数的估计 • 是对总体条件期望的估计 • 残差在概念上类似于总体回归函数中的随机误差。 • 回归分析的目的: • 用样本回归函数去估计总体回归函数。
样本回归函数与总体回归函数的区别 • 总体回归函数虽然未知,但它是确定的; • 总体回归函数的参数虽未知,但是确定的常数; • 总体回归函数中的是不可直接观测的; • 样本回归线随抽样的变化而变化,可以有许多条。 • 样本回归函数的参数可估计,是随抽样而变化的随机变量。 • 样本回归函数中的是只要估计出样本回归的参数就可以计算的数值。 样本回归线还不是总体回归线,至多只是未知总体回归线的近似表现。 返回7.2目录