400 likes | 627 Views
第七章 误差序列相关. 本章结构. 第一节 误差序列相关的性质和原因 第二节 误差序列相关的发现和判断 第三节 误差序列相关的克服和处理. 第一节 误差序列相关的性质和原因. 两变量和多元线性回归模型都要求模型的误差项不存在序列相关性,即: 对任意 都成立。 这条假设的含义是误差项是纯粹的微小外来扰动因素,不同期之间相互独立,不包含任何有规律性、趋势性的因素。. 这条假设对线性回归分析也十分重要,最小二乘估计的最小方差性和一致估计,得到残差方差的无偏估计,以及进行各种统计推断等,也都以这条假设为基础。
E N D
本章结构 第一节 误差序列相关的性质和原因 第二节 误差序列相关的发现和判断 第三节 误差序列相关的克服和处理
第一节 误差序列相关的性质和原因 • 两变量和多元线性回归模型都要求模型的误差项不存在序列相关性,即: 对任意 都成立。 • 这条假设的含义是误差项是纯粹的微小外来扰动因素,不同期之间相互独立,不包含任何有规律性、趋势性的因素。
这条假设对线性回归分析也十分重要,最小二乘估计的最小方差性和一致估计,得到残差方差的无偏估计,以及进行各种统计推断等,也都以这条假设为基础。 • 但误差项无序列相关的假设也不是总能成立。由于误差项包含的因素常常有时间趋势,数据处理也会导致不同期数据产生内在联系,因此误差序列往往是有自相关性的。
这种问题称为线性回归模型的“误差序列相关”,表现为:这种问题称为线性回归模型的“误差序列相关”,表现为: 对至少部分 成立。 • 当线性回归模型存在误差序列相关性时,参数估计的有效性和一致性都不成立或无法证明,残差方差和参数估计量方差的估计无法得到,从而各种统计推断和预测分析也同样会遇到困难。
误差序列相关可以有多种不同的情况,其中相邻两期误差项之间的相关性,也就是误差项 受前一期误差项 的影响,称为误差项的“一阶自回归”。 • 一阶自回归可以表示为 ,其中 满足 ,称“一阶自回归系数”, 是均值为0的独立同分布随机变量。
第二节 误差序列相关的发现和判断 • 处理和克服误差序列相关性的基础是判断该问题的存在和类型。 • 对于一阶自回归性,就是要判断一阶自回归系数 的大小和符号的正负性。 • 回归残差序列分析也是发现和检验误差序列相关性的基本方法,残差序列分析包括残差序列图分析和杜宾—瓦森检验 。
一、残差序列图分析 • 以i为横轴,以残差e或e/S为纵轴,画出残差序列的分布图。 • 不存在误差序列相关问题,同时也不存在系统偏差和异方差性的模型,回归残差序列的分布形态应该如图7.1(a)那样,无规律而均匀地分布在横轴上下的一定区域内。
如果模型存在误差序列相关问题,那么残差序列的分布会呈现相应的规律性。如果模型存在误差序列相关问题,那么残差序列的分布会呈现相应的规律性。 • 例如当误差项有一阶正自相关问题时,残差序列的分布形态会出现类似图7.1(b)的情况,因为相邻残差之间的正相关关系会使它们出现相同趋势和符号的机会增大。
如果误差项有一阶负自相关性,那么相邻误差项异号的机会增大,因此残差分布会出现类似图7.1(c)的形态。如果误差项有一阶负自相关性,那么相邻误差项异号的机会增大,因此残差分布会出现类似图7.1(c)的形态。 • 还可以用另一种残差序列图发现误差序列相关问题。以 为横轴,以 为纵轴,用相邻残差项构成坐标 ,然后观察这些坐标的分布情况。
如果这些坐标如图7.2(a)那样均匀地分布在四个象限内,应认为不存在误差序列相关问题。 • 如果坐标分布如图7.2(b)和(c),那么应分别判断有一阶正自相关性和一阶负自相关性,因为(b)图坐标分布落在一、三象限多意味着相邻残差同号的居多,而(c)图坐标分布落在二、四象限多则意味着相邻残差异号居多。
二、杜宾—瓦森检验(DW检验) • DW检验也是一种残差序列分析,因为用于检验的DW统计量是根据回归残差序列计算的。 • DW检验的方法是,首先假设线性回归模型 有一阶自回归问题,即 。 • 然后检验一阶自回归系数 的显著性。如果检验结果是显著的,那么认为误差项有一阶自回归性,否则认为误差项没有一阶自回归性。
要检验一阶自回归系数是否有显著性,首先必须对它的值进行估计。 • 为此我们考察相邻误差项之间的协方差公式。根据 和 的性质有
因此: • 由于模型误差项的数值无法得到,因此的真实值是无法得到的。 • 但可以根据误差项与回归残差的关系,用残差序列构造下列统计量:
作为误差序列一阶自回归系数的估计。 • 更进一步,杜宾和瓦森考虑用已知分布且与 有密切关系的DW统计量 来代替 。
两者之间的关系是: • 因此 =0(无一阶自回归性)对应DW=2, →1(误差项有强正自相关)对应DW→0, →-1(误差项有强负自相关)对应DW→4。
DW的精确分布实际上也不清楚,而且分布情况与解释变量的取值有关。但杜宾和瓦森证明对于解释变量的任意情况,DW统计量有一个上限和一个下限,在一定条件下它们服从 分布。 • 杜宾和瓦森计算了对应显著性水平 和0.01,样本容量 ,解释变量个数 时,判断误差序列存在一阶正自相关性的上下限 和 的临界值表,作为检验的基本工具。
由于正自相关性和负自相关性之间的对称性,实际上只需要有检验正自相关性的方法即可,检验负自相关性时可先作变换 ,然后用检验正自相关性的临界值进行判断。 • 检验误差序列正自相关的前提是DW<2,步骤如下:
设原假设为 : 即误差序列没有一阶自回归性。 • 根据要求的显著性水平 ,模型中解释变量的个数K,以及观察样本容量n,查DW临界值表得到下限、上限两个临界值 和 。 • 若DW> ,接受 ,认为误差项不存在一阶自相关性;若DW< 认为存在一阶正自相关;若 <DW< ,这时不能确定,需作进一步分析。
如果DW>2,则根据检验负自相关性。 • 上述临界值和判断方法也可以总结为如图7.3中的5个判断区域。 负自相关 无法判断 正自相关 无法判断 无自相关
DW检验的缺点 • 首先是它只适用于一阶自回归性的检验,而且在样本数较小或解释变量数较大时不适用; • 其次是当解释变量有随机性(分布滞后模型或联立方程组模型中普遍)时不适用; • 此外是DW检验存在无法判断的DW值区间。
不过,当样本容量n较大而解释变量数K较小时,无法判断的区间也比较小,因此可以通过增加样本容量,换新的样本或修改模型等克服,也可以当作存在误差序列相关加以处理克服无法判断的困难。不过,当样本容量n较大而解释变量数K较小时,无法判断的区间也比较小,因此可以通过增加样本容量,换新的样本或修改模型等克服,也可以当作存在误差序列相关加以处理克服无法判断的困难。 • 例7-1。详见Eviews演示。
第三节 误差序列相关的克服和处理 一、一阶差分法 二、广义差分法 三、柯-奥迭代法 四、杜宾两步法
一、一阶差分法 • 设线性回归模型为 ,而且已经经过检验知 有很强的一阶正自相关性,即 。其中 是均值为0的独立同分布、无自相关性的随机变量。 • 把滞后一期的观测值代入变量关系,得方程
(7-1)式减去(7-2)式得到: • 由于 ,因此有 • 令 为Y的一阶差分, 为X 的一阶差分,则有
因为 ,因此上式近似为 • 用该Y和X的一阶差分模型进行回归分析,可以避免原模型误差序列相关性的困难,得到参数 估计值 。 • 原模型的另一个参数 的估计值,则可以根据 计算。 • 这种克服误差序列相关性的方法称“一阶差分法”。
变量的增长率与一阶差分有密切关系,用变量的增长率进行回归也能起到消除误差项强正自相关性的作用。 • 一阶差分模型在克服误差序列相关性方面的作用有较大的局限,只适用 接近1的一阶正自相关性,而且如果模型没有误差序列相关性、有负自相关性或只轻微正自相关性,运用一阶差分模型反而会导致更强的误差序列相关性。
二、广义差分法 • 设模型为 ,且已知模型的误差项有一阶自相关性,即 其中 • 同样把滞后一期的观测值代入模型,可得 (7-6) • 把(7-5)式减去(7-6)式与 的乘积,可得
我们称 为Y 的“广义差分”, 为X 的“广义差分”。 • 再根据 ,有 • 如果记 ,则有 • 由于 不存在误差序列相关问题,因此用广义差分模型进行回归分析,可以避免原模型的误差序列相关问题。
可以利用模型直接得到 的参数估计值 ,并得到A的估计值 。 • 再利用该估计值得到原模型参数 的估计值 。 • 这种克服误差序列相关问题的参数估计,称“广义差分法”。
广义差分法的缺点 • 首先是差分变换会减少一个样本容量。这通常可以通过对第一组数据作变换后保留的方法解决。 • 另一个问题是假设已知的一阶自回归系数 实际上是无法知道的,只能根据原模型的回归残差序列求其估计值。既然原模型存在误差序列相关,那么回归残差就会受到影响,从而估计值也有偏差。
三、柯-奥迭代法 • “柯-奥迭代法”是克服广义差分法无法得到一阶自回归系数 较准确估计困难的方法。 • 首先对原模型运用普通最小二乘估计,估计参数并计算出回归残差序列,再根据回归残差序列计算 的第一个估计值
这个 的准确程度可能有问题,但它至少可以反映 的大部分情况,用这个 作为估计值进行广义差分法处理,可以消除掉模型的大部分误差序列相关性。 • 作广义差分变换: • 再用 和 进行线性回归分析得到估计值 和 ,并计算相应的回归残差序列。
用 和 的回归残差进行DW检验,如果不存在误差序列相关性问题,说明广义差分已经消除了原模型误差序列相关的影响,把 和 作为原模型两个参数的估计值。 • 如果仍然有误差序列相关性,则可以用新的回归残差序列重新计算 的估计值,再进行广义差分变换和回归,计算相应的回归残差序列……
这样的过程可以反复进行,直到检验结果不存在误差序列相关性。 • 通常迭代一至两次就能实现目标,或 就会收敛。我们把最后得到的一组估计量,作为原模型两个参数的估计。
四、杜宾两步法 • 我们直接从两变量模型的广义差分式 出发。如果我们对该式稍作调整,可得 这是一个带滞后变量的多元线性回归模型,其中 为均值为0的独立同分布随机变量。
因此可直接用最小二乘法估计四个参数 、 、 和 的值。 • 但问题是原模型连 在内只有三个参数,因此通常会导致求解矛盾,无法解出原模型三个参数的估计值。 • 为此只能考虑分步解决问题。
具体方法是只接受上述多元线性回归 的估计值 ,然后利用它对数据进行广义差分变换,再对广义差分模型 进行最小二乘估计,并根据回归结果计算原模型参数的估计 和 。 • 例7-2。详见Eviews演示。