高等学校经济学类核心课程

高等学校经济学类核心课程 计量经济学 Econometrics 云南财经大学数量经济系

第二章一元线性回归模型 § 2.1 回归分析概述 § 2.2 一元线性回归模型的参数估计 § 2.3 一元线性回归模型的统计检验 § 2.4 一元线性回归模型的应用：预测 § 2.5 实例：时间序列问题

§2.1 回归分析概述 一、回归分析的基本概念二、总体回归函数三、随机干扰项四、样本回归函数

一、回归分析的基本概念 • 最早由高尔顿引入——给定父母的身高，儿女辈的平均身高趋向于全体人口的平均身高 • 研究一个变量关于另一个（些）变量的依赖关系的方法和理论，目的在于通过后者的已知或设定值，去估计和（或）预测前者的（总体）均值

1、变量间的相互关系 （1）函数关系：确定性现象的变量之间的关系，变量不具有随机性如：（2）统计相关关系：非确定性现象的变量之间的关系，涉及随机变量如：

正相关 线性相关不相关负相关正相关非线性相关不相关负相关 2、相关分析与回归分析 • 变量间的相关关系的可以通过相关分析(correlation analysis)或回归分析(regression analysis)来研究 • 相关分析主要研究随机变量间的相关形式与相关程度 ► 线性相关程度：相关系数 • 测度线性相关 • 两个变量：单相关系数 • 多个变量：复相关系数偏相关系数 • 相关并不意味着因果关系 ► 相关形式

具有相关关系的变量间有时存在因果关系，这时可以通过回归分析研究其间的具体依存关系具有相关关系的变量间有时存在因果关系，这时可以通过回归分析研究其间的具体依存关系 • 回归分析(regression analysis)是研究一个变量关于另一个（些）变量的具体依赖关系的计算方法和理论。 • 前一个变量（结果变量）称为被解释变量（Explained Variable）或因变量（Dependent Variable），记为Y； • 后一个（些）变量（原因变量）称为解释变量（Explanatory Variable）或自变量（Independent Variable），记为Xi。 • 具体依赖关系体现为Y和X的一个关系式：Y＝f(Xi）。其目的在于：通过解释变量Xi的已知或设定值，去估计和(或)预测被解释变量Y的（总体）均值。

3、回归分析构成计量经济学的方法论基础 • 回归分析是经典计量经济学的主要分析方法 • 主要内容包括： • 根据样本观察值对计量经济学模型参数进行估计，求得回归方程； • 对回归方程、参数估计值进行显著性检验 • 利用回归方程进行分析、评价及预测

A1：相关分析和回归分析的联系区别 • 二者都是研究相关关系的方法，并能测度线性依赖程度的大小。相关分析是回归分析的基础。 • 相关分析中变量的地位是对称的，而回归分析中变量是不对称的，具有被解释变量和解释变量之分。 • 相关分析中变量都可以是随机的；而回归分析中，被解释变量是随机的，而解释变量往往被看成是非随机的。 • 相关分析只关注变量的间的相关程度，不关注具体依赖关系；而回归分析更加关注这一具体依赖关系，因而可以通过解释变量的变化来估计和预测被解释变量的变化。

A2：回归分析与因果关系 • 虽然回归分析通常用于研究具有因果关系的变量之间的具体依赖关系，但是回归关系式本身并不一定意味着因果关系 • “一个统计关系式，不管多强也不管多么有启发性，却永远不能确立因果方面的联系；对因果关系的理念，必须来自于统计学以外，最终来自这种或那种理论”——Kendall & Stuart • 回归分析本身实质上只是一种数据分析方法和手段，而非确定因果的逻辑基础或理论

二、总体回归函数（population regression function，PRF） • 描述总体中解释变量X和被解释变量Y的平均值E(Y)之间的变化规律的关系式：E(Y)＝f（Xi） • 回归分析关注的核心

【例2.1】假定一个待研究的经济总体仅包括100户家庭，考察家庭月消费支出Y与家庭月可支配收入X的关系。【例2.1】假定一个待研究的经济总体仅包括100户家庭，考察家庭月消费支出Y与家庭月可支配收入X的关系。

直观观察： （1）对同一收入水平X，不同家庭的消费支出Y不完全相同，说明在给定X的情况下，Y取值的不定性——随机性（2）随着X的增加，Y“平均地”也在增加——统计规律性进一步的分析：（3）由于调查的完备性，我们可以计算给定收入水平X的条件下，消费支出Y的总体（条件）均值，如： E(Y=|X=800）=605。 □这里Y的均值是在给定X的条件下计算的，称之为条件均值（conditional mean）或条件期望（conditional expectation）：E(Y|X=Xi)

3500 3000 每 2500 月消 2000 费 1500 支出 Y 1000 （元） 500 0 500 1000 1500 2000 2500 3000 3500 4000 每月可支配收入X（元）（4）描出散点图发现：随着收入X的增加，消费“平均地说”也在增加，且Y的条件均值均落在一条正斜率的直线上。这条线，我们称为总体回归线（population regression line，PRL）

PRF的定义： ※ 在几何意义上，给定解释变量Xi条件下，被解释变量Yi的条件均值或期望的轨迹称为总体回归线（population regression line），或更一般地称为总体回归曲线（population regression curve）。 ※ 在代数意义上，与总体回归线相应的函数：称为（双变量）总体回归函数（population regression function, PRF）或总体回归方程（Equation）。

总体回归函数（PRF）表明了被解释变量Y的平均状态（总体条件期望）随解释变量X变化的规律总体回归函数（PRF）表明了被解释变量Y的平均状态（总体条件期望）随解释变量X变化的规律 • 其具体函数形式由所考察总体固有的特征决定，基于总体的无法全部可观察性，总体回归函数形式的选择是一个经验的问题，经济理论在这一选择过程中具有基础性地位。 • 从数学角度而言，这一函数在形式上可以是线性或非线性的。例2.1中，居民消费支出可看成是其可支配收入的线性函数: 称为线性总体回归函数。其中，0，1是未知参数，称为回归系数（regression coefficients）。

A1：“线性”的含义 • 对变量为线性——解释变量以一次方的形式出现 • ○ 从几何上看，此时总体回归线是一条直线 • 对参数为线性——回归系数以一次方的形式出现 • ○ 从几何上看，此时总体回归线并不一定是直线

三、总体回归模型与随机干扰项（ population regression model，PRM & stochastic disturbance/error） • 描述总体中解释变量X和被解释变量Y的个体值Yi之间的变化规律：Yi＝f（Xi）＋μi

1、随机干扰项的出现 • 总体回归函数说明在给定的收入水平Xi下，该社区家庭平均的消费支出水平E(Y|Xi）。 • 但对某一个别的家庭，其消费支出Yi可能与该平均水平有偏差。记称i为观察值Yi围绕它的期望值E(Y|Xi)的离差（deviation），是一个不可观测的随机变量，又称为随机干扰项（stochastic disturbance）或随机误差项（stochastic error）。

2、总体回归模型（PRM） • 借助于随机干扰项，个别家庭的消费支出可表达为：称为总体回归函数的随机设定形式，也称为总体回归模型（PRM）。 • 总体回归模型表明：从总体中的个体层次看，被解释变量Yi除了受解释变量的系统性影响（E(Y|X)）外，还受其它因素的随机性影响 • i是这些因素的综合代表。

3、随机干扰项的内容和原因 • 1）在解释变量中被忽略或未知因素的影响； • 2）变量观测值的观测误差的影响； • 3）模型关系的设定误差的影响； • 4）众多细小的影响因素； • 5）变量的内在随机性 • 产生随机误差项的原因： • 1）理论的含糊性； • 2）数据的欠缺； • 3）节省原则。 • 随机误差项主要包括下列因素的影响：

四、样本回归函数（sample regression function，SRF） • 描述样本中解释变量X和被解释变量Y的之间的平均变化规律：Y^i＝f（Xi）

1、样本回归函数（SRF） 问题：能否从样本估计总体回归函数？ • 总体的信息往往无法掌握，因此PRF实际上未知 • 现实的情况只能是在一次观测中得到总体的一个样本，通过样本的信息来估计总体回归函数。例2.2：从例2.1的总体中获得如下一个样本：

做该样本的散点图 • 样本散点图近似于一条直线，这与总体中体现的X和Y的关系是一致的。 • 画一条直线以尽可能地拟合该散点图，由于样本取自总体，可用该线近似地代表总体回归线。 • 该线称为样本回归线（sample regression lines）。记样本回归线的函数形式为：称为样本回归函数（sample regression function，SRF）。

2、 SRF与PRF的关系 • 样本回归函数（SRF）描述了样本所展示的X和Y之间的平均变化联系，这一联系与总体中的联系具有内在一致性。 • 样本回归函数（SRF）是总体回归函数（PRF）的近似替代（估计）。样本回归函数总体回归函数关系

3、样本回归模型（SRM） • 基于样本回归函数所得到的Ŷi与实际观测的Yi之间同样存在着误差，记为ei，有： • ei 称为（样本）残差项或剩余项（residual），代表了其它影响Yi的随机因素的集合 • 同样地，引入ei后，样本回归函数也有如下的随机形式：称为样本回归模型（sample regression model），描述了样本中，从个体层次看，解释变量X与被解释变量Y之间的联系。

4、残差e与误差µ • 误差µ反映了Y的实际观测值与其总体平均值之间的差异，直观上是实际观测值与总体回归直线上的相应值的距离。 • 由于总体均值的未知性， µ具有不可观测性。 • 残差e反映了实际观测值与其估计值之间的差异。直观上，e是实际观测值与样本回归直线上的对应值的距离。 • 在获得了样本回归函数后，利用Ŷi可以得到e的具体值 • 概念上，e与误差项µ 相对应，可以看作是µ的估计。

y 样本回归方程    (x2 , y2) 总体回归方程   µi  误差  残差 (xi , yi)  x

5、回归分析的目的 • 获得一个优良的样本回归函数SRF，作为总体回归函数PRF的估计，描述X和Y之间的变化规律。 • 这就要求：寻求好的方法，构造尽可能好的SRF • 换言之，构造PRF中未知参数的优良估计量

§2.2 一元线性回归模型的参数估计 一、基本假设二、普通最小二乘估计三、最大似然估计四、最小二乘估计的性质五、参数估计量的概率分布及随机干扰项方差的估计

一元线性回归模型的基本形式 i=1,2,…,N • Y 为被解释变量，X 为解释变量，i代表样本点 • 0 与 1 为回归系数，是未知常数，待估计 • 为随机干扰项 • 最简单的回归模型：线性模型，只有一个解释变量X • “线性”的含义： • Y和X之间呈线性 • Y和β之间呈线性

一、基本假设 保障普通最小二乘法（OLS）适用的基本条件

1、基本假设的提出 • 回归分析的主要目的是要通过样本回归函数（模型）SRF尽可能准确地估计总体回归函数（模型）PRF。 • 寻求恰当的估计方法，使是βi的优良估计量——参数估计 • 估计方法有多种，其种最广泛使用的是普通最小二乘法（ordinary least squares, OLS）。为保证参数估计量具有良好的性质，通常对模型提出若干基本假设。 • 严格而言，这些基本假设并非针对模型的，而是针对普通最小二乘法的

2、基本假设的内容 ►假设1：解释变量X是确定性变量，不是随机变量； ►假设2：随机误差项具有零均值、同方差和不序列相关性： E(i)=0 i=1,2, …,N Var (i)=2 i=1,2, …,N Cov(i, j)=0 i≠j i,j= 1,2, …,N ►假设3：随机误差项与解释变量X之间不相关： Cov(Xi, i)=0 i=1,2, …,N ►假设4：服从零均值、同方差、零协方差的正态分布 i~N(0, 2 ) i=1,2, …,N

3、基本假设的意义 • 假设1：模型中只有µ是随机变量，从而Y是与µ具有类似性质的随机变量 • 假设2： • E(µi)=0 →E(Yi)＝β0＋β1Xi • Var(µi)=ó2→ 1）各样本点上，误差项的分布离散程度是相同的 • →2）Yi与µi具有相同的方差： var(Yi)=ó2 • Cov(µI,µj)=0 → 1）各样本点上，随机因素是相互独立的 • →2） Yi, Yj也相互独立：cov(Yi,Yj)=0 • 假设3：解释变量X和随机误差项µ对Y的影响是完全独立的 • 假设4：1）参数估计并不需要，但假设检验和预测需要 • 2） Yi与µi具有相同的分布，只是均值不同

4、暗含假设 ■ 假设5：随着样本容量的无限增加，解释变量X的样本方差趋于一有限常数。即 ■ 假设6：回归模型是正确设定的 • 假设5旨在排除时间序列数据出现持续上升或下降的变量作为解释变量，因为这类数据不仅使大样本统计推断变得无效，而且往往产生所谓的伪回归问题（spurious regression problem）。 • 假设6也被称为模型没有设定偏误（specification error）

二、普通最小二乘估计（OLSE） • 最基本和常用的估计方法 • 估计值与实际观测值的误差平方和最小

1、最小二乘原理 • 给定一组样本观测值（Xi, Yi）（i=1,2,…n）要求样本回归函数尽可能好地拟合这组值。 • 样本回归线上的点与真实观测值的“总体误差”尽可能小，即被解释变量的估计值与真实观测值总体上最为接近。 • 普通最小二乘法（Ordinary least squares, OLS）给出的判断标准是：二者之差的平方和最小

2、最小二乘估计（OLSE） 正规方程组（normal equations）

＃OLSE的离差形式 记上述参数估计量可以写成：称为OLS估计量的离差形式（deviation form）。

＃估计量（estimator）和估计值（estimated value） • 将（2.2.5）式看成β^的一个表达式，则称β^为“估计量”（estimator）。 • 利用具体样本资料，可以计算得到β^的具体数值，这些值称为“估计值”（estimated value）。 • 从估计量的角度看，β^是随机变量，其取值依赖于具体的样本资料

三、最大似然估计（MLE）

1、最大似然法的基本原理 • 最大似然法（Maximum Likelihood，ML），也称最大或然法，是不同于最小二乘法的另一种参数估计方法，是从最大或然原理出发发展起来的其它估计方法的基础。 • 更本质地揭示出通过样本估计总体参数的内在机理 • 基本原理： • 当从模型总体随机抽取n组样本观测值后，最合理的参数估计量应该使得从模型中抽取该n组样本观测值的概率最大。

总体1＃ 联合概率P1 总体2＃联合概率P2 样本 X1,X2,….,Xn …… 联合概率…… 总体k＃联合概率Pk

n个样本观测值同时出现的概率，体现为n个样本观测值的联合概率。n个样本观测值同时出现的概率，体现为n个样本观测值的联合概率。 • 这一联合概率与总体参数有关，由其联合概率函数表达 • 样本观测值的联合概率函数称为变量的似然函数 • 所以，最大似然法是一种通过让似然函数极大化以求得参数估计量的方法

2、似然函数（Likelihood function） • 在满足基本假设条件下，对一元线性回归模型，随机抽取n组样本观测值（Xi, Yi）（i=1,2,…n）。 • 假如模型的参数估计量已经求得，为 • 那么Yi服从如下的正态分布：于是，Y的概率函数为: 因为Yi是相互独立的，所以，所有样本观测值的联合概率，也即似然函数为：

3、对数似然函数 • 将该似然函数极大化，即可求得到模型参数的极大似然估计量。 • 似然函数的极大化与似然函数的对数的极大化是等价的

4、最大似然估计（MLE） 解得模型的参数估计量为：可见，在满足一系列基本假设的情况下，模型参数的最大似然估计量（MLE）与普通最小二乘估计量（OLSE）是相同的。

# 参数估计实例（计算过程） 例2.2.1：在上述家庭可支配收入-消费支出例中，对于所抽出的一组样本数，参数估计的计算可通过下面的表进行。

因此，由该样本估计的回归方程为：

高等学校经济学类核心课程

高等学校经济学类核心课程

Presentation Transcript