860 likes | 1.09k Views
§ 第 8 章 虚拟变量模型. 一、虚拟变量的基本含义 二、虚拟变量的设置原则 三、虚拟变量作用 四、虚拟变量的引入 五、虚拟变量的特殊应用 六、虚拟被解释变量模型. 一、虚拟变量的基本含义. 许多经济变量是 可以定量度量 的,其取值可用数值表示, 如: 商品需求量、价格、收入、产量等 但也有一些影响经济变量的因素 无法定量度量 , 如: 职业、性别对收入的影响,战争、自然灾害对 GDP 的影响,季节对某些产品(如冷饮)销售的影响等等,反映这些 定性因素 的变量被称为 品质变量 ,这些变量由于各种原因不能计量 。
E N D
§第8章 虚拟变量模型 一、虚拟变量的基本含义 二、虚拟变量的设置原则 三、虚拟变量作用 四、虚拟变量的引入 五、虚拟变量的特殊应用 六、虚拟被解释变量模型
一、虚拟变量的基本含义 • 许多经济变量是可以定量度量的,其取值可用数值表示,如:商品需求量、价格、收入、产量等 • 但也有一些影响经济变量的因素无法定量度量,如:职业、性别对收入的影响,战争、自然灾害对GDP的影响,季节对某些产品(如冷饮)销售的影响等等,反映这些定性因素的变量被称为品质变量 ,这些变量由于各种原因不能计量 。 • 为了在模型中能够反映这些因素的影响,并提高模型的精度,需要将它们“量化”.
这种“量化”通常是通过人为地虚构出来一种特殊的变量来完成的。即根据这些因素的属性类型,构造只取“0”或“1”的人工变量,通常称为虚拟变量(dummy variables),文献中习惯用 表示。 • 例如,反映性别这个属性的虚拟变量可取为: 再如: 一般地,在虚拟变量的设置中:用1表示这种属性或特征存在,用0表示这种属性或特征不存在。或者说,设置虚拟变量时,将比较类型、肯定类型取值为1;而将基础类型、否定类型取值为0。
虚拟变量模型概念: 把包含虚拟变量的模型称为虚拟变量模型(Dummy VariableModel),若仅有解释变量中包含虚拟变量,称为虚拟解释变量模型;若被解释变量是虚拟变量,称为虚拟被解释变量模型,或称为离散选择模型。 一个以性别为虚拟变量考察企业职工薪金的模型: 其中:Yi为企业职工的薪金,Xi为工龄, Di=1,若是男性,Di=0,若是女性。
虚拟变量陷阱(一个例子) • 研究居民住房消费支出 和居民可支配收入 之间的 数量关系。回归模型的设定为: • 现在要考虑城镇居民和农村居民之间的差异,如何办? • 为了对 “城镇居民”、“农村居民”进行区分,分析 各自在住房消费支出 上的差异,设 为城镇; 为农村,则模型为 • (模型有截距,“居民属性”定性变量只有两个相互排斥 的属性状态( ),故只设定一个虚拟变量。)
若对两个相互排斥的属性 “居民属性” ,仍然 引入 个虚拟变量,则有 则模型(1)为 • 则对任一家庭都有: , 即产生完全共线,陷入了“虚拟变量陷阱”。 • “虚拟变量陷阱”的实质是:完全多重共线性。 虚拟变量陷阱
二、虚拟变量的设置原则 虚拟变量的个数须按以下原则确定: 每一定性变量所需的虚拟变量个数要比该定性变量的类别数少1,即如果定性变量有m个类型,只在模型中引入m-1个虚拟变量。 每个虚拟变量定义为: 当第i种属性类型出现时,第i 个虚拟变量取1,其它 虚拟变量皆取0,而当所有 都取0时,则表示出现第 种属性类型。
例:虚拟变量反映季节变动的影响 已知冷饮的销售量Y除受k种定量变量Xk的影响外,还受春、夏、秋、冬四季变化的影响,要考察该四季的影响,只需引入三个虚拟变量即可: 则冷饮销售量的模型为: 在上述模型中,若再引入第四个虚拟变量 则冷饮销售模型变量为: 其矩阵形式为:
如果只取六个观测值,其中春季与夏季取了两次,秋、冬各取到一次观测值,则式中的:如果只取六个观测值,其中春季与夏季取了两次,秋、冬各取到一次观测值,则式中的: 显然,(X,D)中的第1列可表示成后4列的线性组合,从而(X,D)不满秩,参数无法唯一求出。 这就是所谓的“虚拟变量陷阱”,应避免。
三、虚拟变量的作用 1.可以检验和度量用文字所表示的定性因素的影响 例如,为了反映甲、乙两种不同的工艺过程对产 量的影响,可以在生产函数中引入描述甲、乙两 种不同的工艺过程的虚拟变量: 通过对模型中 的显著性检验来确定甲、乙两 种不同的工艺过程是否对产量有显著影响。
2. 可以测量变量在不同时期的影响 • 例如:研究我国国民生产总值Y随时间X而增长的过程,需要考虑反常年份这一特殊因素的影响。若定义 • 则引入虚拟变量的模型为 • 通过对参数 进行 检验,可以检验反常年份对社会总产值有无显著影响,就把受反常年份影响的时期从总过程中区分出来
3. 可以用来处理异常数据的影响。 • 例如,变量Y和X在长期中基本满足线性回归模型的各个假设,但在时刻有一个突发情况,使得Y出现一个k单位的暂时性波动。如果用线性回归模型 分析这两个变量的关系,其误差项的均值是 • 解决的办法是引进一个针对性 的虚拟变量,其定义为 • 新的回归模型为: • 解决了均值非0的问题 其中
四、虚拟变量的引入方式 在计量经济模型中引入虚拟解释变量,一般地有三种方式:加法方式、乘法方式和混合方式。 1.加法方式: 所谓加法方式,即将虚拟变量直接作为一个解释变量引入模型,它同其他解释变量之间是相加的关系。当不同类型模型的斜率相同,截距不相同时,可考虑以加法形式引入虚拟变量。 以加法方式引入虚拟变量时,主要考虑的问题是定性因素的属性和引入虚拟变量的个数。
加法方式分为四种情形讨论: (1)解释变量只有一个定性变量而无定量变量,而且定性变量为两种相互排斥的属性; (2)解释变量分别为一个定性变量(两种属性)和一个定量解释变量; (3)解释变量分别为一个定性变量(两种以上属性)和一个定量解释变量; (4)解释变量分别为两个定性变量(各自分别是两种属性)和一个定量解释变量;
农村 (1)一个两种属性定性解释变量而无定量变量的情形
城市 农村 (2) 一个定性解释变量(两种属性)和一个定量解释变量的情形
几何意义:两个函数有相同的斜率,但有不同的截距几何意义:两个函数有相同的斜率,但有不同的截距 Y X
(3)一个定性解释变量(三种属性)和一个定量解释变量的情形(3)一个定性解释变量(三种属性)和一个定量解释变量的情形 在工资模型中如果我们考虑的是员工的受教育程度,比如可以将员工的分为:高中以下,高中毕业和大学及其以上三种。如果虚拟变量设为 高中以下 其他 高中毕业 其他 大学及其以上 其他
则 假设模型为: 将会出现多重共线性,因此需要去掉一个虚拟变量。 高中 其他 大学及其以上 其他 模型变为: 估计出的回归方程为: 高中以下: 高中: 大学及其以上:
(3)一个定性解释变量(四种属性)和一个定量解释变量的情形(3)一个定性解释变量(四种属性)和一个定量解释变量的情形
四个季节对某些商品的需求量分别为: 模型中系数 、 、 、 分别反映了四、一、二、三、一季度对该商品的平均影响程度,根据这些系数的统计检验就可以判断季度因素对该商品的需求量是否存在着显著影响。
(4)两个定性解释变量(均为两种属性)和一个定量解释变量的情形(4)两个定性解释变量(均为两种属性)和一个定量解释变量的情形 运用OLS得到回归结果,再用t检验讨论因素是否对模型有影响。
男性、农村居民 女性、农村居民 各类型居民香烟消费量分别为:
加法方式引入虚拟变量的一般表达式: 基本分析方法: 条件期望。 加法方式引入虚拟变量的主要作用为: 1.在有定量解释变量的情形下,主要改变方程 截距; 2.在没有定量解释变量的情形下,主要用于方 差分析。
2.乘法方式 基本思想: 以乘法方式引入虚拟变量时,是在所设立的模型 中,将虚拟解释变量与其它解释变量 的乘积,作 为新的解释变量出现在模型中,以达到其调整设模 型斜率系数的目的。或者将模型斜率系数表示为虚 拟变量的函数,以达到相同的目的。 乘法引入方式的特点: (1)截距不变; (2)斜率发生变化;
O 图8-5 农村和城市的文化用品消费 截距不变但斜率发生变化的情形: 例:研究文化用品消费支出Y受收入X、居民身份D的影响,模型形式:
3.混合方式:截距和斜率均发生变化 例: 同样研究消费支出Y 、收入X 、居民身份D 间的影响关系。模型形式:
在计量经济学中,通常引入虚拟变量的方式分为在计量经济学中,通常引入虚拟变量的方式分为 加法方式和乘法方式以及混合方式三种:即 实质:加法方式引入虚拟变量改变的是截距; 乘法方式引入虚拟变量改变的是斜率; 混合方式引入虚拟变量既改变截距又改变斜率 虚拟变量的引入小结:
五、虚拟解释变量特殊应用 所谓特殊应用是指将引入虚拟解释变量 的加法方式、乘法方式进行综合使用。 基本分析方式:仍然是条件期望分析。 本课主要讨论 (1)分段回归分析; (2)交互效应分析; (3)结构变化分析
1.分段回归分析 在经济发生转折时期,可通过建立临界指标的虚拟变量模型来反映数量因素的不同阶段。 例如,进口消费品数量Y主要取决于国民收入X的多少,中国在改革开放前后,Y对X的回归关系明显不同。 这时,可以t*=1979年为转折期,以1979年的国民收入Xt*为临界值,设如下虚拟变量: 则进口消费品的回归模型可建立如下:
Y O X 图8-7 时间分段前后的进口消费品数量 几何意义: 用OLS法得到该模型的回归方程为: 1979年之前,回归模型的斜率为 ; 1979年之前,回归模型的斜率为 ; 若统计检验表明, 显著不为零,则我国居民的消费行为在1979年前后发生了明显改变。
2.交互效应分析 例:是否发展油菜籽生产与是否发展养蜂生产的差异对农副产品总收益的影响研究。模型设定为: (1)式中, 以加法形式引入虚拟变量暗含何假设?
(1) 上式以加法形式引入,暗含的假设为:菜籽生产和养蜂生产是分别独立地影响农副品生产总收益。但是,在发展油菜籽生产时,同时也发展养蜂生产,所取得的农副产品生产总收益,可能会高于不发展养蜂生产的情况。即在是否发展油菜籽生产与养蜂生产的虚拟变量 和 间,很可能存在着一定的交互作用,且这种交互影响对被解释变量农副产品生产收益会有影响。
基本思想:在模型中引入相关的两个变量的乘积基本思想:在模型中引入相关的两个变量的乘积 为了反映交互效应,将(1)变为: 同时发展油菜籽和 养蜂生产: 发展油菜籽生产: 发展养蜂生产: 基础类型: 如何检验交互效应是否存在?
3.结构稳定性分析 • 模型结构的稳定性是指两个不同时期(或不同空间)研究同一性质的问题时所建立的同一形式的回归模型的参数之间有无显著差异,如果存在着差异,则认为模型结构不稳定。 • 在现实经济生活中,往往由于某些重要因素的影响,解释变量和被解释变量之间关系可能会发生结构变化; • 如我国由于经济体制的变化,改革开放前后国民经济总量指标之间的关系都会发生变化;或者研究我国发达地区和不发达地区投资对经济增长的影响,也会因地区不同而产生结构差异等等。 • 这一问题可通过引入乘法形式的虚拟变量来解决
例:以Y为储蓄,X为收入,为反映1992年前后储蓄与收入之间的结构关系有无明显变化,可引入虚拟变量进行检验。设根据两个样本估计的回归模型分别为:例:以Y为储蓄,X为收入,为反映1992年前后储蓄与收入之间的结构关系有无明显变化,可引入虚拟变量进行检验。设根据两个样本估计的回归模型分别为: • 1992年前: Yi=1+ 1 Xi+1i i=1,2…,n1 • 1992年后: Yi= 2 +2Xi+2i i=1,2…,n2 • 设置虚拟变量: • 将样本1和样本2的数据合并,估计以下模型: • 然后利用t检验判断 、 的系数的显著性. 于是有:
则有可能出现下述四种情况中的一种: (1) 1=2,且1 =2,即两个回归相同,说明两个回归模型之间没有显著差异,称为重合回归(Coincident Regressions);模型结构是稳定的. (2) 1 2,但1=2,说明两个回归模型之间的斜率相同,两个回归模型结构的差异仅在其截距,称为平行回归(Parallel Regressions); (3) 1= 2,但12,说明两个回归模型之间的截距相同,两个回归模型结构的差异仅在其斜率,称为汇合回归(Concurrent Regressions); (4) 12,且12,即两个回归完全不同,存在着结构差异称为相异回归(Dissimilar Regressions)。
重合回归:截距斜率均相同 平行回归:截距不同斜率相同 共点回归:截距相同斜率不同 交叉(不同)回归:截距斜率均不同 不同截距、斜率的组合图形
结构变化小结 结构变化的实质是检验所设定的模型在样本期内是否为同一模型。显然,平行回归、共点回归、不同的回归三个模型均不是同一模型。 平行回归模型的假定是斜率保持不变(加法类型,包括方差分析); 共点回归模型的假定是截距保持不变(乘法类型,又被称为协方差分析); 不同的回归的模型的假定是截距、斜率均为变动的(加法、乘法类型的组合)。
邹氏结构变化的检验 • 为了检验两个模型的结构是否相同,可提出原假设:两个回归方程的结构相同,然后看看能否拒绝这个假设,这个检验称为Chow检验. • 设两个样本待检验回归模型为: • 样本1(n1个) • 样本2 (n2个) • 邹检验的基本假定: 将n1与n2个观察值合并,并用以估计以下回归:
检验步骤: (1).假设原假设为真 (2).用OLS对这两个方程分别进行估计,可得到各自的残差平方和 和 ,并求和 计算合并后的模型的残差平方和 (3).统计量: (4).查F分布表,得临界值 (5).结论:F> 的值,则拒绝回归相同的假设,即拒绝结构稳定性假定;另外,若F的P值低,则拒绝结构稳定性假定.
虚拟变量法相比邹至庄检验的优越性: 1.用虚拟变量只需做一个回归。 2.一个回归可以做各种检验。截距检验和斜率检验都可以一次完成。 3.邹至庄检验没有明确告诉是哪一个系数发生变化,而虚拟变量模型则可以很清楚看出这一点。 4.合并后样本容量变大,估计精度也有所提高
六、虚拟被解释变量 被解释变量也可以是定性变量,因此,可以用虚拟变量表示。虚拟被解释变量在日常经济活动中常表现在人们的决策行为上,即对某一问题人们要作出“是”或“否”的回答,如是否购买家用汽车,是否购买人寿保险,企业是否在某个地区投资等。 当被解释变量只取有限个离散值,特别是只取两个值时,所建立的模型被称为离散选择模型。离散选择模型的目的是对被解释变量取值的概率建模,而不是直接预测其取值。常用的模型有线性概率模型和非线性概率模型(包括Logit模型和Probit模型)。
即 条件期望事实上可解释为Y在给定 X下事件(家庭拥有住宅)的条件概率,该线性模型称为线性概率模型 (LPM)
前面假设干扰项服从正态分布。但在线性概率模型中干扰的正态性不成立前面假设干扰项服从正态分布。但在线性概率模型中干扰的正态性不成立
后果 • 虽然u不服从正态分布, • 即对参数的估计不会产生影响,因为OLS估计的无偏性、有效性与u的概率分布无关。 • 但进行检验t、F检验等统计推断时,却要求误差项服从正态分布。 • 根据中心极限定理可知,在大样本情况下二项分布趋近于正态分布,所以这时仍然可以在正态分布假定下进行统计推断。