1.1k likes | 1.34k Views
第四章 多元线性回归模型. 第一节 多元线性回归模型的概念 在许多实际问题中,我们所研究的因变量的变动可能不仅与一个解释变量有关。因此,有必要考虑线性模型的更一般形式,即多元线性回归模型: t=1,2,…,n 在这个模型中, Y 由 X 1 、 X 2 、 X 3 、 … X K 所解释,有 K+1 个未知参数 β 0 、 β 1 、 β 2 、 … β K 。 这里, “ 斜率 ” β j 的含义是 其它变量不变的情况下 , X j 改变一个单位对因变量所产生的影响。. 例 1 : 其中, Y= 在食品上的总支出 X= 个人可支配收入 P= 食品价格指数
E N D
第一节 多元线性回归模型的概念 • 在许多实际问题中,我们所研究的因变量的变动可能不仅与一个解释变量有关。因此,有必要考虑线性模型的更一般形式,即多元线性回归模型: • t=1,2,…,n • 在这个模型中,Y由X1、X2、X3、… XK所解释,有K+1个未知参数β0、β1、β2、…βK 。 • 这里,“斜率”βj的含义是其它变量不变的情况下,Xj改变一个单位对因变量所产生的影响。
例1: 其中,Y=在食品上的总支出 X=个人可支配收入 P=食品价格指数 用美国1959-1983年的数据,得到如下回归结果(括号中数字为标准误差): Y和X的计量单位为10亿美元 (按1972不变价格计算).
多元线性回归模型中斜率系数的含义 • 上例中斜率系数的含义说明如下: • 价格不变的情况下,个人可支配收入每上升10亿美元(1个billion),食品消费支出增加1.12亿元(0.112个 billion)。 • 收入不变的情况下,价格指数每上升一个点, • 食品消费支出减少7.39亿元(0.739个billion)
例2: • 其中,Ct=消费,Dt=居民可支配收入 • Lt=居民拥有的流动资产水平 • β2的含义是,在流动资产不变的情况下,可支配收入变动一个单位对消费额的影响。这是收入对消费额的直接影响。 • 收入变动对消费额的总影响=直接影响+间接影响。 • (间接影响:收入影响流动资产拥有量影响消费额) • 但在模型中这种间接影响应归因于流动资产,而不是收入,因而,β2只包括收入的直接影响。 • 在下面的模型中: • 这里,β是可支配收入对消费额的总影响,显然β和β2的 • 含义是不同的。
回到一般模型 t=1,2,… ,n 即对于n组观测值,有
其矩阵形式为: 其中
第二节 多元线性回归模型的估计 • 多元线性回归模型的估计与双变量线性模型类似,仍采用OLS法。当然,计算要复杂得多,通常要借助计算机。理论推导需借助矩阵代数。下面给出普通最小二乘法应用于多元线性回归模型的假设条件、估计结果及所得到的估计量的性质。 • 一.假设条件 • (1)E(ut)=0, t=1,2,…,n • (2)E(ui uj)=0, i≠j • (3)E(ut2)=σ2, t=1,2,…,n • (4)Xjt是非随机量, j=1,2, … k t=1,2, … n
除上面4条外,在多个解释变量的情况下,还有两个条件需要满足:除上面4条外,在多个解释变量的情况下,还有两个条件需要满足: • (5)(K+1)< n; • 即观测值的数目要大于待估计的参数的个数 • (要有足够数量的数据来拟合回归线)。 • (6)各解释变量之间不存在严格的线性关系。 • 上述假设条件可用矩阵表示为以下四个条件:
A1. E(u)=0 • A2. • 由于 • 显然, 仅当 • E(ui uj)=0 , i≠j • E(ut2) = σ2, t=1,2,…,n • 这两个条件成立时才成立,因此, 此条件相当前面条件(2), (3)两条,即各期扰动项互不相关,并具有常数方差。
A3. X 是一个非随机元素矩阵。 • A4. Rank(X) = (K+1) < n.------相当于前面 (5) • 、 (6) 两 条 • 即矩阵X的秩 =(K+1)< n • 当然,为了后面区间估计和假设检验的需要,还要加上一条: • A5. ~ ,t=1,2,…n
二.最小二乘估计 • 我们的模型是: • t=1,2,…n • 问题是选择 ,使得残差平方和最小。 • 残差为:
要使残差平方和 为最小,则应有: 我们得到如下K+1个方程(即正规方程):
= 即
三. 最小二乘估计量 的性质 我们的模型为 估计式为 1. 的均值
(由假设3) (由假设1) 即 这表明,OLS估计量 是无偏估计量。
2. 的方差 为求Var( ),我们考虑
不难看出,这是 的方差-协方差矩阵,它是一个(K+1)×(K+1)矩阵,其主对角线上元素为各系数估计量的方差,非主对角线上元素为各系数估计量的协方差。
请注意,我们得到的实际上不仅是 的方差,而且是 一个方差-协方差矩阵,为了反映这一事实,我们用下面的符号表示之: 为方便起见,我们也常用Var( )表示的方差-协方差矩阵,因此上式亦可写作: 需要注意的是,这里 不表示方差向量,而是方差-协方差矩阵。
3. 2的估计 • 与双变量线性模型相似, 2的无偏估计量是 • 分母是 的自由度,这是因为我们在估计 • 的过程中,失去了(K+1)个自由度。 • 4. 高斯-马尔科夫定理 • 对于 以及标准假设条件A1-A4, • 普通最小二乘估计量是最佳线性无偏估计量(BLUE)
我们已在上一段中证明了无偏性,下面证明线性和最小方差性。证明的路子与双变量模型中类似,只不过这里我们采用矩阵和向量的形式。我们已在上一段中证明了无偏性,下面证明线性和最小方差性。证明的路子与双变量模型中类似,只不过这里我们采用矩阵和向量的形式。 • 由OLS估计量 的公式 • 可知, 可表示为一个矩阵和因变量观测值向量 的乘积: • 其中 是一个 (K+1)*n 非随机元素矩阵。 • 因而 是线性估计量。
现设 为 的任意一个线性无偏估计量,即 其中 是一个(K+1)*n非随机元素矩阵。则 显然,若要 为无偏估计量,即 ,只有 , 为(K+1)阶单位矩阵。
的方差为: 我们可将 写成 从而将 的任意线性无偏估计量 与OLS估计量 联系起来。
由 可推出: 即 因而有 由 从而 ,因此上式中间两项为0,我们有
因此 最后的不等号成立是因为 为半正定矩阵。这就证明了OLS估计量 是 的所有线性无偏估计量中方差最小的。至此, 我们证明了高斯-马尔科夫定理。
第三节 拟合优度 • 一.决定系数R2 • 对于双变量线性模型 • Y=α+βX + u • 我们有 • 其中, =残差平方和
对于多元线性模型 我们可用同样的方法定义决定系数: 为方便计算,我们也可以用矩阵形式表示R2
我们有:残差 其中, 残差平方和:
而 将上述结果代入R2的公式,得到: 这就是决定系数 R2 的矩阵形式。
二.修正决定系数: 残差平方和的一个特点是,每当模型增加一个解释变量,并用改变后的模型重新进行估计,残差平方和的值会减小。 由此可以推论,决定系数是一个与解释变量的个数有关的量: 解释变量个数增加 减小 R2增大 也就是说,人们总是可以通过增加模型中解释变量的方法来增大 R2的值。因此,用 R2来作为拟合优度的测度,不是十分令人满意的。 为此,我们定义修正决定系数 (Adjusted)如下:
是经过自由度调整的决定系数,称为修正决定系数。是经过自由度调整的决定系数,称为修正决定系数。 我们有:(1) (2)仅当K=0时,等号成立。即 (3)当K增大时,二者的差异也 随之增大。 (4) 可能出现负值。
三.例子 • 下面我们给出两个简单的数值例子,以帮助理解这两节的内容. • 例1 Yt = 1 + 2X2 t + 3X3 t + u t • 设观测数据为:Y: 3 1 8 3 5 • X2:3 1 5 2 4 • X3:5 4 6 4 6 • 试求各参数的OLS估计值,以及 。 • 解:我们有
例2. 设 n = 20, k = 3, R2 = 0.70 , 求 。 解: 下面改变n的值,看一看 的值如何变化。我们有 若n = 10,则 = 0.55 若n = 5, 则 = - 0.20 由本例可看出, 有可能为负值。 这与R2不同 ( )。
第四节 非线性关系的处理 迄今为止,我们已解决了线性模型的估计问题。但在实际问题中,变量间的关系并非总是线性关系,经济变量间的非线性关系比比皆是。如大家所熟悉的柯布-道格拉斯生产函数: 就是一例。 在这样一些非线性关系中,有些可以通过代数变换变为线性关系处理,另一些则不能。下面我们通过一些例子来讨论这个问题。
一. 线性模型的含义 • 线性模型的基本形式是: • 其特点是可以写成每一个解释变量和一个系数相乘的形式。 • 线性模型的线性包含两重含义: • (1)变量的线性 • 变量以其原型出现在模型之中,而不是以X2或Xβ之类的函数形式出现在模型中。 • (2)参数的线性 • 因变量Y是各参数的线性函数。
二.线性化方法 • 对于线性回归分析,只有第二种类型的线性才是重要的,因为变量的非线性可通过适当的重新定义来解决。例如,对于 • 此方程的变量和参数都是线性的。
参数的非线性是一个严重得多的问题,因为它不能仅凭重定义来处理。可是,如果模型的右端由一系列的Xβ或eβX项相乘,并且扰动项也是乘积形式的,则该模型可通过两边取对数线性化。参数的非线性是一个严重得多的问题,因为它不能仅凭重定义来处理。可是,如果模型的右端由一系列的Xβ或eβX项相乘,并且扰动项也是乘积形式的,则该模型可通过两边取对数线性化。 例如,需求函数 其中,Y=对某商品的需求 X=收入 P=相对价格指数 ν=扰动项 可转换为:
用X,Y,P的数据,我们可得到logY,logX和logP,从而可以用OLS法估计上式。用X,Y,P的数据,我们可得到logY,logX和logP,从而可以用OLS法估计上式。 logX的系数是β的估计值,经济含义是需求的收入弹性,logP的系数将是γ的估计值,即需求的价格弹性。 弹性(elasticity)是一变量变动1%所引起的另一变量变动的百分比。其定义为 本例中, 需求的收入弹性是收入变化1%,价格不变时所引起的商品需求量变动的百分比。 需求的价格弹性是价格变化1%,收入不变时所引起的商品需求量变动的百分比。
三.例子 • 例1 需求函数 • 本章§1中,我们曾给出一个食品支出为因变量,个人可支配收入和食品价格指数为解释变量的线性回归模型例子(例4.1)。现用这三个变量的对数重新估计(采用同样的数据),得到如下结果(括号内数字为标准误差): • 回归结果表明,需求的收入弹性是0.64,需求的价格弹性是-0.48,这两个系数都显著异于0。
例2.柯布-道格拉斯生产函数 • 用柯布和道格拉斯最初使用的数据(美国1899-1922年制造业数据)估计经过线性化变换的模型 • 得到如下结果(括号内数字为标准误差) : • 从上述结果可以看出,产出的资本弹性是0.23,产出的劳动弹性为0.81。
例3.货币需求量与利率之间的关系 • M = a(r - 2)b • 这里,变量非线性和参数非线性并存。 • 对此方程采用对数变换 • logM=loga+blog(r-2) • 令Y=logM, X=log(r-2), β1= loga, β2=b • 则变换后的模型为: • Yt=β1+β2Xt + ut
将OLS法应用于此模型,可求得β1和β2的估计值 ,从而可通过下列两式求出a和b估计值: • 应当指出,在这种情况下,线性模型估计量 • 的性质(如BLUE,正态性等)只适用于变换后的参数估计量 ,而不一定适用于原模型参数的估计量 和 。
例4.上例在确定货币需求量的关系式时,我们实际上给模型加进了一个结束条件。根据理论假设,在某一利率水平上,货币需求量在理论上是无穷大。我们假定这个利率水平为2%。假如不给这一约束条件,而是从给定的数据中估计该利率水平的值,则模型变为:例4.上例在确定货币需求量的关系式时,我们实际上给模型加进了一个结束条件。根据理论假设,在某一利率水平上,货币需求量在理论上是无穷大。我们假定这个利率水平为2%。假如不给这一约束条件,而是从给定的数据中估计该利率水平的值,则模型变为: • M = a(r - c)b • 式中a,b,c均为参数。仍采用对数变换,得到 • log(Mt) = loga + blog(rt - c) + ut t=1,2,…,n • 我们无法将log(rt-c)定义为一个可观测的变量X, 因为这里有一个未知量c。也就是说,此模型无法线性化。在这种情况下,只能用估计非线性模型参数值的方法。