580 likes | 762 Views
第三章 回归分析概要. 第一节、经典线性回归模型 第二节、普通最小二乘估计和最大似然估计 第三节、假设检验 第四节、置信区间. 第一节 经典线性回归模型. 一、函数关系和统计关系 (一)函数关系是一一对应的确定性关系。(举例见教材) (二)统计关系是不完全一致的对应关系。(举例见教材) 二、理论模型和回归模型 Y=f(X 1,X2,……,Xp) Y=f(X1,X2,…,Xk; ū). 三、随机误差和系统误差
E N D
第三章 回归分析概要 • 第一节、经典线性回归模型 • 第二节、普通最小二乘估计和最大似然估计 • 第三节、假设检验 • 第四节、置信区间
第一节 经典线性回归模型 • 一、函数关系和统计关系 • (一)函数关系是一一对应的确定性关系。(举例见教材) • (二)统计关系是不完全一致的对应关系。(举例见教材) • 二、理论模型和回归模型 • Y=f(X1,X2,……,Xp) • Y=f(X1,X2,…,Xk; ū)
三、随机误差和系统误差 • 1、随机误差:是由随机因素形成的误差。 所谓随机因素,是指那些对被解释变量的作用不显著,其作用方向不稳定(时正时负),在重复试验中,正作用与负作用可以相互抵消的因素。 • 2、系统误差:由系统因素形成的误差。所谓系统因素,是指那些对被解释变量的作用较显著,其作用方向稳定,重复试验也不可能相互抵消的因素。
四、线性回归模型和非线性回归模型 • 分类的标准:回归模型的期望函数关于参数的倒数是否与参数有关。即期望函数的一阶导函数是否仍然是关于参数的函数。如果导函数不是关于参数的函数,即参数是线性的,则称该回归模型是线性回归模型;反之,则称该回归模型是非线性回归模型。
六、经典线性回归模型及其假设条件 • 一、有正确的期望函数。 • 它要求在线性回归模型中没有遗漏任何重要的解释变量,也没有包含任何多余的解释变量。 • 二、被解释变量等于期望函数与随机干扰项之和。 • 三、随机干扰项独立于期望函数。即所有解释变量Xj与随机干扰项u不相关。 • 四、解释变量矩阵X是非随机矩阵,且其秩为列满秩的,即rank(X)=k。
五、随机干扰项服从正态分布。该假设给出了被解释变量的概率分布。五、随机干扰项服从正态分布。该假设给出了被解释变量的概率分布。 • 六、随机干扰项的期望值为0。即: • E(u)=0 • 七、随机干扰项具有方差齐性。即: • 八、随机干扰项相互独立。
第二节 模型参数的估计一、普通最小二乘法(OLS估计) • 通过协方差或相关系数证实变量之间存在关系,仅仅只是知道变量之间线性相关的性质——正(负)相关和相关程度的大小。 • 既然它们之间存在线性关系,接下来必须探求它们之间关系的表现形式是什么? • 最好用数学表达式将这种关系尽可能准确、严谨的表示出来——y=a+bx+u——把它们之间的内在联系挖掘出来。也就是直线中的截距a=?;直线的斜率b=? • 消费支出=基本生存+边际消费倾向×可支配收入+随机扰动
解决问题的思路——可能性 • 寻找变量之间直线关系的方法多多。于是,再接下来则是从众多方法中,寻找一种优良的方法,运用方法去求出线性模型——y=a+bx+u中的截距a=?;直线的斜率b=?正是是本章介绍的最小二乘法。 • 根据该方法所得,即表现变量之间线性关系的直线有些什么特性? • 所得直线可靠吗?怎样衡量所得直线的可靠性? • 最后才是如何运用所得规律——变量的线性关系?
最小二乘法产生的历史 • 最小二乘法最早称为回归分析法。由著名的英国生物学家、统计学家道尔顿(F.Gallton)——达尔文的表弟所创。 • 早年,道尔顿致力于化学和遗传学领域的研究。 • 他研究父亲们的身高与儿子们的身高之间的关系时,建立了回归分析法。
最小二乘法的地位与作用 • 现在回归分析法已远非道尔顿的本意 • 已经成为探索变量之间关系最重要的方法,用以找出变量之间关系的具体表现形式。 • 后来,回归分析法从其方法的数学原理——误差平方和最小(平方乃二乘也)出发,改称为最小二乘法。
父亲们的身高与儿子们的身高之间关系的研究 • 1889年F.Gallton和他的朋友K.Pearson收集了上千个家庭的身高、臂长和腿长的记录 • 企图寻找出儿子们身高与父亲们身高之间关系的具体表现形式 • 下图是根据1078个家庭的调查所作的散点图(略图)
儿子们身高向着平均身高“回归”,以保持种族的稳定儿子们身高向着平均身高“回归”,以保持种族的稳定 185 180 175 Y 170 165 160 140 150 160 170 180 190 200 X
“回归”一词的由来 • 从图上虽可看出,个子高的父亲确有生出个子高的儿子的倾向,同样地,个子低的父亲确有生出个子低的儿子的倾向。得到的具体规律如下: • 如此以来,高的伸进了天,低的缩入了地。他百思不得其解,同时又发现某人种的平均身高是相当稳定的。最后得到结论:儿子们的身高回复于全体男子的平均身高,即“回归”——见1889年F.Gallton的论文《普用回归定律》。 • 后人将此种方法普遍用于寻找变量之间的规律
最小二乘法的思路 • 1.为了精确地描述Y与X之间的关系,必须使用这两个变量的每一对观察值,才不至于以点概面(作到全面)。 • 2.Y与X之间是否是直线关系(协方差或相关系数)?若是,将用一条直线描述它们之间的关系。 • 3.在Y与X的散点图上画出直线的方法很多。 • 任务?——找出一条能够最好地描述Y与X(代表所有点)之间的直线。 • 4.什么是最好?—找出判断“最好”的原则。 • 最好指的是找一条直线使得这些点到该直线的纵向距离的和(平方和)最小。
y 横向距离 纵向距离 距离 A为实际点,B为拟合直线上与之对应的点 x 三种距离
距离是度量实际值与拟合值 是否相符的有效手段 • 点到直线的距离——点到直线的垂直线的长度。 • 横向距离——点沿(平行)X轴方向到直线的距离。 • 纵向距离——点沿(平行)Y轴方向到直线的距离。也就是实际观察点的Y坐标减去根据直线方程计算出来的Y的拟合值。 • 这个差数以后称为误差——残差(剩余)。
最小二乘法的数学原理 • 纵向距离是Y的实际值与拟合值之差,差异大拟合不好,差异小拟合好,所以又称为拟合误差或残差。 • 将所有纵向距离平方后相加,即得误差平方和,“最好”直线就是使误差平方和最小的直线。 • 于是可以运用求极值的原理,将求最好拟合直线问题转换为求误差平方和最小。
关于所得直线方程的结论 • 结论之一: • 由(5)式,得 • 即拟合直线过y和x的平均数点。 • 结论之二: • 由(2)式,得 • 残差与自变量x的乘积和等于0,即两者不相关。
拟合直线的性质 • 1.估计残差和为零 • 2.Y的真实值和拟合值有共同的均值 • 3.估计残差与自变量不相关 • 4.估计残差与拟合值不相关
1.估计残差和为零(Residuals Sum to zero) • 由(1)式直接得此结论无须再证明。并推出残差的平均数也等于零。
2.Y的真实值和拟合值有共同的均值(The actual and fitted values of yi have the same mean)
3.估计残差与自变量不相关(Residuals are unrelated with independent variable)
4.估计残差与拟合值不相关(Residuals are unrelated with fitted value of yi)
自变量与残差不相关 拟合值与残差不相关 残差和=0 注意:这里的残差与随机扰动项不是一个概念。随机扰动项是总体的残差。 平均数相等 关于回归直线性质的总结
问题的提出 • 由最小二乘法所得直线究竟能够对这些点之间的关系加以反映吗? • 对这些点之间的关系或趋势反映到了何种程度? • 于是必须经过某种检验或者找出一个指标,在一定可靠程度下,根据指标值的大小,对拟合的优度进行评价。 • 分四个问题进行讨论:平方和分解、方差分析、拟合优度、拟合优度与简单相关系数的关系。
一、平方和与自由度的分解 • 1、总平方和、回归平方和、残差平方和的定义 • 2、平方和的分解 • 3、自由度的分解
1、总平方和、回归平方和、残差平方和的定义1、总平方和、回归平方和、残差平方和的定义 • TSS度量Y自身的差异程度,RSS度量因变量Y的拟合值自身的差异程度,ESS度量实际值与拟合值之间的差异程度。
平方和分解的意义 • TSS=RSS+ESS • 被解释变量Y总的变动(差异)= • 解释变量X引起的变动(差异) • +除X以外的因素引起的变动(差异) • 如果X引起的变动在Y的总变动中占很大比例,那么X很好地解释了Y;否则,X不能很好地解释Y。
3、自由度的分解 • 总自由度 • dfT=n-1 • 回归自由度 • dfR=1(自变量的个数,k元为k) • 残差自由度 • dfE=n-2 • 自由度分解 • dfT=dfR+dfE
正交分解 平方和分解图
C B A 为什么回归平方和是由X引起的变动
二、方差分析 • 模型:y=a+bx+u ==>LS估计:y^=a^+b^x • H0:b=0 HA:b<>0
关于F检验 • 零假设H0:b=0 备择HA:b<>0 • H0:b=0 <==>RSS中的X不起作用,RSS变动无异于随机变动==> • 分子方差与分母方差是一回事==>F=1 • 如果F显著地大于1,甚至F>F==>小概率事件发生了,根据小概率原理,小概率事件在一次试验中是不可能发生的,于是H0不成立。就不能认为X没有作用。则直线是有意义的。可靠性=1-
三、拟合优度(或称判定系数、决定系数) • 目的:企图构造一个不含单位,可以相互进行比较,而且能直观判断拟合优劣。 • 拟合优度的定义: • 意义:拟合优度越大,自变量对因变量的解释程度越高,自变量引起的变动占总变动的百分比高。观察点在回归直线附近越密集。 • 取值范围:0-1
拟合优度与F统计量之间的联系 • F显著==>拟合优度必然显著