1.55k likes | 1.68k Views
第二章 一元线性回归模型. 第一节 相关分析和回归分析 一 . 经济变量之间的相互关系 : 经济变量之间的关系,大体可分为两类,一类是函数关系;另一类是统计相关关系 函数关系是指变量之间存在着完全确定性的依存关系 。例如,当价格不变时,销售量 X 与销售额 Y 之间的关系。 相关关系是指现象之间客观存在的非确定 性数量对应依存关系 。 例如,每亩耕地的施肥量 X 与亩产量 Y 之间的关系 。. 函数关系与相关关系联系. 两者虽有明显区别,但两者之间并无严格的界限,由于存在测量误差等原因,函数关系在实际中往往通过相关关系 表现 出来 ;
E N D
第二章 一元线性回归模型 第一节 相关分析和回归分析 一.经济变量之间的相互关系: 经济变量之间的关系,大体可分为两类,一类是函数关系;另一类是统计相关关系 函数关系是指变量之间存在着完全确定性的依存关系 。例如,当价格不变时,销售量X与销售额Y之间的关系。 相关关系是指现象之间客观存在的非确定性数量对应依存关系 。例如,每亩耕地的施肥量X与亩产量Y之间的关系 。
函数关系与相关关系联系 两者虽有明显区别,但两者之间并无严格的界限,由于存在测量误差等原因,函数关系在实际中往往通过相关关系表现出来; 在研究相关关系时,若要找出现象间数量的内在联系和表现形式,往往又需要借助函数关系的形式来加以描述; 因此,可以说,相关关系是相关分析的研究对象,函数关系是相关分析的工具。
二、相关分析 研究一个变量与另一个(组)变量之间 相关方向和相关密切程度的一种统计分析方 法。 相关分析目的: 明确变量之间有无关系, 确定相关关系的表现形式(曲线与直线), 判定相关关系的方向, 测定相关关系的密切程度等。
(一)、相关关系的分类 1.从变量之间相互关系的方向来看,可以成为正相关与负相关; 2.按相关关系涉及的变量(或因素)的多少,可分为单相关与复相关、偏相关; 3.按变量之间相关关系的表现形式来看,可以分成为直线相关和曲线相关; 4.按相关的程度来分,可以分为不相关,不完全相关和完全相关三类; 函数关系是相关关系的一种特殊情况。
(二)相关关系的度量 在相关分析中,通过绘制相关表和相关图,可以对现象之间存在的相关关系的方向、形式和密切程度作直观的、大致的判断。 1.相关表:将现象之间的相关关系,用表格来反映,这种表称为相关表,分为简单相关表和分组相关表。例如,某农场试验田在七次试验中,获得的小麦产量与施肥量的观察资料 表2-1 施肥量与小麦产量的观察数据
2.相关图: 将变量之的关系,通过图形来表示,这种图形为相关图。又称为散点图,通过相关图,可以大致看出两个变量之间有无相关关系、相关的形态、方向及密切程度。 图2-1相关散点图
3.相关系数 通过线性相关图、表可以粗略地观察两个变量之间相互关系的类型、方向以及相关的密切程度,但无法确切地表明两个变量之间线性相关的程度。 英国著名统计学家卡尔·皮尔逊(Karl Pearson)1890年设计了一个用于测定两个变量之间线性相关程度和相关方向的指标—简单相关系数,也称为Pearson相关系数。 (1)相关系数的定义 (2)相关系数的计算 (3)根据相关系数初步判定变量之间的关系 (4)简单相关系数的缺陷
(1)相关系数的定义 离差 在Ⅰ、Ⅲ象限: (x,y符号相同) 在Ⅱ、Ⅳ象限: (x,y符号相反)
判断 如果所有的观测值落在Ⅰ、Ⅲ象限,离差之积 为正,则X、Y为正相关,如果所有观测值在Ⅱ、Ⅳ象限,离差之积 为负,则X,Y为负相关,如果所有的观测值散落在四个象限内,则正的和负的乘积 趋于互相抵消,其乘积之和将趋于0。 如果所有变量值X和Y与其平均数的离差乘积之和为正,则X和Y之间就是正相关。用符号表示为: 如果所有变量值X和Y与其平均数的离差乘积之和为负,则和之间是负相关。用符号表示为:
缺点: 离差乘积之和 提供了X和Y之间的一个相关度量。但是,这样来度量相关关系,只能表示相关方向,要表示具体相关程度还有缺点: ① 受观测值数目n影响,观测值数目n越多, 越大,相关程度越强; ② 受X,Y计量单位的影响,如果将X和Y的单位改为吨,则X,Y数值就更小,同样观测值,相关度量结果不同。
为了克服第①个缺点 用观测值数目n除∑xy,即 叫做X和Y的协方差, 协方差不仅能直接显示X与Y是正相关还是负相关;而且能反映X与Y两个变量的“共变性”。 Sxy消除了样本单位数多少的影响,但仍然受观测值计量单位的影响;
为了克服第②缺点 给协方差除以X,Y各自的标准差: Sx, Sy 这样便可消除变量计量量单位的影响。 标准差Sx和Sy的作用,在于对X,Y与各自平均数的离差,分别用各自的标准差为尺度,加以标准化,然后再求标准差的协方差,用符号 表示,即: 相关系数定义式
皮尔逊相关系数的最简式 其中:
2.相关系数的计算 积差式
相关系数简捷式 相关系数平均式
4.等级相关系数 也称为斯皮尔曼 (Spearman) 相关系数,用来度量定序变量之间的线性相关关系,就是把有联系的定量变量或定性变量的具体表现按等级次序排列,形成两个定序数列,再测定标志等级与标志等级间的相关程度的一种方法,等级相关法又称顺位相关法. 用rs表示。 式中,n为样本容量,D为序列等级之差,即d=X等级-Y等级 。Spearman相关系数的适用范围较Pearson相关系数要广得多。
(三)相关系数的范围 1.相关系数的绝对值不超过1,即|r|≤1 2.根据相关系数的符号,判定正相关(正比例)r >0、负相关(反比例)r<0. 3.根据相关系数的大小,判定: ①当r= 0时,称为不相关。或者不存在直线相关,但可能存在其他类型的关系。 ②当0 < |r| ≤ 0.3时, 称为微弱相关。 ③当0.3 < |r| ≤ 0.5时,称为低度相关。 ④当0.5 < |r| ≤ 0.8时,称为中度相关。 ⑤当0.8 < |r| < 1时,称为高度相关。 ⑥当 |r| =1,完全相关,即所有散点完全在一条直线上,也就是函数关系。
正相关(我国人均消费函数) X为我国人均国民收入,Y为我国人均消费, 相关系数:0.98 1200 1000 800 Y 600 400 200 0 500 1000 1500 2000 2500 X
负相关 Y与X的相关系数:-0.92
不相关(不排除存在曲线相关) 相关系数为:4.24E-18 60 40 20 0 -20 -40 -60 -60 -40 -20 0 20 40 60 Y X
(四)相关分析的特征 ⑴.两个变量是对等关系,不分彼此,不反映任何自变量和因变量的关系,互换顺序是一样的,是双向的关系。 ⑵. 相关系数的范围是 -1≤r≤1,其值大小反映两变量间相关的密切程度,正负号表示正相关或负相关,其值的大小与尺度无关。 ⑶.两个变量都是随机变量,这也反映对等关系。而且相关关系要以定性分析为前提,不然就会出现“虚假相关”。
(五).简单相关系数的缺陷 (1)只能度量两个变量之间呈线性相关——比例变化的关系,当|r|很小甚至等于0时,不一定表明X与Y之间就不存在其他非线性类型的关系 (2)只能算出一个相关系数;r表明两变量之间的线性关系,只表明协变的存在,不揭示变异的原因,不能确定变量之间的因果关系。 (3)简单相关系数只适用于两个变量之间的相关关系,所以称为简单相关系数若变量为三个或三个以上时,就要用复相关系数计算。
(4)偏相关系数 大千世界中复杂的、多种因素存在相互关联。为了描述其间的关联,这里定义的相关系数虽然比协方差指标优越,但是仍然存在不足之处:它裹胁了其它变量的影响或者它们之间的关系乃是其它变量的变化所致. 要剔除其它变量的影响,只研究指定两个变量的影响,必须再定义偏相关系数——令其它变量保持不变,此时这两个变量的相关系数,称为偏相关系数。
总体相关系数 两个变量X和Y之间真实的线性相关程度是用总体相关系数表示的。总体相关系数为: 式中, 分别是总体X和Y的协方差,X的总体标准差和Y的总体标准差。 由于总体未知,无法计算,我们可以利用样本观测值的相关系数r给出 的一个估计,即样本相关系数r是总体相关系数的估计值。
三、回归分析 回归分析的主要内容: (一).回归的含义及特点 (二).回归分析与相关分析的联系 (三).回归分析的基本概念 1.总体回归函数 2.总体回归模型 3.样本回归函数 4.样本回归模型
(一).回归的含义 回归分析的产生的历史 回归分析法最早由著名的英国生物学家、统计学家高尔登(F.Gallton)——达尔文的表弟所创。早年,加尔顿致力于化学和遗传学领域的研究。 1889年高尔登和他的朋友K.Pearson收集了上千个家庭的身高、臂长和腿长的记录,企图寻找出儿子们身高与父亲们身高之间关系的具体表现形式,在研究父亲们的身高与儿子们的身高之间的关系时,主要是想由此来探讨人口的平均身高具有稳定性的原因,建立了回归分析法。
1.“回归”一词的由来 “回归”——见1889年F.Gallton的论文《普用回归定律》。 他在研究中发现;一群高个子的父亲的子女的平均高度要低于其父辈的平均身高,一群矮个子父亲的子女的平均身高要高于其父辈的平均身高。 或者说,高个子父亲的子女的平均高度与矮个子父亲的子女的平均高度都有“回归”到全体父辈的平均高度的倾向(趋势), 用高尔登的话说,这是“回归到中等”。
2.回归分析的现代含义: 现在回归分析法已远非高尔登的本意,而是研究子女的平均身高如何随着其父亲身高的变化而变化,即研究子女的平均身高对父亲身高的依赖性。并探讨如何根据父亲的身高,来预测和估计子女的平均身高。 对于“父亲身高”的每一水平,相应得到的是“子女身高”的一个分布(这可以通过重复抽样得到) 。而且,随着“父亲身高”的增加,子女的平均身高也在增加,可用一条直线近似地似合这些平均值点。如下图:
儿子们身高向着平均身高“回归”以保持种族的稳定儿子们身高向着平均身高“回归”以保持种族的稳定 185 180 175 Y 170 165 160 140 150 160 170 180 190 200 X 这条直线近似地反映了子女身高对父亲身高的依赖程度,而回归分析所要研究的就是这种依赖性。
再例如 家庭的消费支出与家庭收入有着密切的关系,而回归分析所要研究的就是家庭的平均消费支出如何随着家庭收入水平的变化而变化,以及对应于每一个特定的家庭收入水平,其相应的平均消费支出水平是多少。 回归分析用以找出变量之间关系的具体表现形式,成为探索变量之间关系的最重要方法。
3.回归分析的定义 研究一个变量(被解释变量或因变量)对一个或多个其他变量(解释变量或自变量)的依赖关系,其目的在于根据已知的或固定解释变量的数值,来估计或预测被解释变量的总体平均值。 这个定义归纳起来为两点:一是研究被解释变量对解释变量的依赖关系,采用的方法是配合直线或曲线。二是研究目的是用解释变量的值来预测或估计总体的平均值。
4.回归分析的分类 回归分析是指对具有相关关系的变量,依据其关系的形态,选择一个合适的数学模型(回归方程),用来近似地表示变量间数量平均变化关系的一种统计方法。 按分析变量的多少,可以分为一元回归分析与多元回归分析; 按分析变量间表现形态不同,可以分为线性回归分析与非线性回归分析等。 本章仅讨论只有一个自变量的一元线性回归分析的有关理论与方法。
5.回归分析的特点 ①两个变量之间不是对等关系。即必须根据研究目的,确定其中一个是自变量,另一个是因变量;是单向关系。 ②回归方程反映的是变量间的具体的变动关系,不是抽象系数,在X,Y两个变量中,从方程式看,存在着两个回归式,是两条斜率不同的回归直线,其意义是不同的。其回归系数有正负号,表示两个变量变动的方向,大小表示在单位一定的情况下意义是明确的。 ③回归分析对资料的要求是,因变量是随机变量,而自变量是可控制的变量,是给定的数值。
(二).相关分析与回归分析关系 相关分析是回归分析的基础和前提。如果缺少相关分析,没有从定性上说明现象之间是否具有相关关系,没有对相关关系的密切程度作出判断,就不能进行回归分析,即使勉强进行了回归分析,也是没有意义的。 回归分析是相关分析的深入和继续。仅仅说明现象间具有密切的相关关系是不够的,只有进行了回归分析,拟合了回归方程,才可能进行有关的分析和预测,相关分析才有实际的意义
回归分析和相关分析与因果关系 回归分析是在相关分析和因果关系分析的基础上,去研究解释变量对应变量(被解释变量)的影响。 因果关系是指两个或两个以上变量在行为机制上的依赖性,即指一个(或一组)变量直接影响、决定另一个变量的水平,因果关系确立的前提是必须对经济行为进行定性分析和理论上的思考。 具有因果关系的变量之间一定具有数学上的相关关系,有相关关系的变量之间并不一定具有因果关系,因此,回归分析正是研究具有因果关系的相关关系。
(三).回归分析的基本概念 回归分析是研究一个变量(被解释变量)对一个或多个其它变量(解释变量)的依存关系; 由于统计相关的随机性,回归分析关心的是当一个或多个其它变量(解释变量)取某个确定值(条件)时,与之相关的另一个变量(被解释变量)所有可能出现的对应值的平均值。 例如研究家庭消费支出对家庭可支配收入的依存关系:
例: 60户家庭可支配收入和消费支出情况 每月家庭消 费支出 的条件均值
1.总体回归函数 由散点图可以看出,均值点恰好都落在一条直线上,称这条描述条件均值变化情况的直线为总体回归直线(函数)。 一般地,对应每一个收入水平X,都可以得到一个Y的条件均值,说明E(Y/x)是x的一个函数,用公式表示即为: E(Y/Xi)=f(Xi)(2-10) 称(2-10)式所代表的函数为总体回归函数,常记为PRF(Population Regression Function) PRF描述了总体的平均变化情况。总体回归函数具体取什么函数形式,需要根据实实践经验和经济理论来确定,最简单的是线性总体回归函数。
2.随机扰动项 总体回归函数只是描述了总体变化情况,也就是说,回归直线只是在其它条件保证不变的情况下,代表平均消费和收入之间的精确关系(函数关系) 但就个别家庭来说,其消费支出就不全在这条直线上,而是围绕着这条直线上下波动,与该点的均值产生一个偏差。为了更完善地描述个别家庭消费者支出的变化情况,特引进一个变量 。 (2-11) 偏差ui是一个不可观测的、可正可负的随机变量,在计量经济学中称作随机扰动项(stochastic disturbance)或随机误差项(stochastic error)
3.总体回归模型 引入随机扰动项ui之后,对应每一个可支配收入Xi值就有多个家庭的消费支出Yi值,亦即Yi的值有一个概率分布,而不是一个确定的单一值,所以,其关系表示为: (2-11) 称(2-11)式为总体回归模型( PRM ,Population Regression Model) (2-11)式表明,给定可支配收入水平Xi,个别家庭的消费支出Yi由两部分组成:一部分是 ,即由X的变化所引起的Yi(平均)变化部分,另一部分来自未包括在模型中的诸多随机性因素的综合影响部分。
在计量经济学中,可以这样来解释变量间联系的真实关系,如果其他条件都保持不变,则Y的变化完全可以由X的变化来解释。但是,在实际经济现象中,其他因素不能不保持不变,因此,在函数中引进随机扰动项,用来说明未明显包括在函数中的其他变量的变化。在计量经济学中,可以这样来解释变量间联系的真实关系,如果其他条件都保持不变,则Y的变化完全可以由X的变化来解释。但是,在实际经济现象中,其他因素不能不保持不变,因此,在函数中引进随机扰动项,用来说明未明显包括在函数中的其他变量的变化。 误差的随机性使得Y与X之间呈现出一种随机的因果关系,由于经济变量之间大多数量是不确定的相关关系,因此,用这种形式描述经济关系更加准确。 随机扰动项ui具有非常丰富的内容,起着重要的作用,随机扰动项的性质决定着计量经济方法的选择和使用,因此,将要专门讨论随机误差项的特性。 随机扰动项意义:
4.样本回归函数(SRF) 随机样本(一) 随机样本(二)
4.样本回归函数 为了反映总体的变化情况,我们只能由样本“信息”来估计总体,根据样本资料所做出的,用以估计总体回归函数的函数,就称为样本回归函数,记为SRF(Sample Regression Function)。 显然,样本回归线的函数形式应与总体回归线的函数形式一致。若是总体回归线为 , 则样本回归线可表示为: (2-12) 其中 是样本回归线上与X相对应的值,可视为总体条件均值的估计; 是样本回归函数的截距系数, 是样本回归函数的斜率系数。
5.样本回归模型 由于随机性,实际观测到的被解释变量值,并不完全等于其样本条件均值,也即散点图中,样本点与其样本回归直线之间的距离,叫做剩余项或残差(residual),记作ei,那么: 从概念上讲,ei与ui类似,代表了其他影响Yi随机因素的集合,因此可以看出ui的估计量,从而有 即 (2-13) (2-13)式称为样本回归模型Sample Regression Model,简记为 SRM。
样本回归函数与总体回归函数的关系 进行回归分析的主要目的,就是要根据样本回归模型作出对总体回归模型的估计,在所举家庭收入的例子中,也就是要用 来估计 更确切地,就是根据有可能获得的样本回归函数对总体回归函数做出合理的估计 可是,样本终究不等于总体,样本回归函数SRF几乎总是和总体回归函数PRF存在着差异,这从图2.6可以清楚看出,