1 / 58

第三章 回归分析概要

第三章 回归分析概要. 第一节、经典线性回归模型 第二节、普通最小二乘估计和最大似然估计 第三节、假设检验 第四节、置信区间. 第一节 经典线性回归模型. 一、函数关系和统计关系 (一)函数关系是一一对应的确定性关系。(举例见教材) (二)统计关系是不完全一致的对应关系。(举例见教材) 二、理论模型和回归模型 Y=f(X 1,X2,……,Xp) Y=f(X1,X2,…,Xk; ū). 三、随机误差和系统误差

cullen
Download Presentation

第三章 回归分析概要

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 第三章 回归分析概要 • 第一节、经典线性回归模型 • 第二节、普通最小二乘估计和最大似然估计 • 第三节、假设检验 • 第四节、置信区间

  2. 第一节 经典线性回归模型 • 一、函数关系和统计关系 • (一)函数关系是一一对应的确定性关系。(举例见教材) • (二)统计关系是不完全一致的对应关系。(举例见教材) • 二、理论模型和回归模型 • Y=f(X1,X2,……,Xp) • Y=f(X1,X2,…,Xk; ū)

  3. 三、随机误差和系统误差 • 1、随机误差:是由随机因素形成的误差。 所谓随机因素,是指那些对被解释变量的作用不显著,其作用方向不稳定(时正时负),在重复试验中,正作用与负作用可以相互抵消的因素。 • 2、系统误差:由系统因素形成的误差。所谓系统因素,是指那些对被解释变量的作用较显著,其作用方向稳定,重复试验也不可能相互抵消的因素。

  4. 四、线性回归模型和非线性回归模型 • 分类的标准:回归模型的期望函数关于参数的倒数是否与参数有关。即期望函数的一阶导函数是否仍然是关于参数的函数。如果导函数不是关于参数的函数,即参数是线性的,则称该回归模型是线性回归模型;反之,则称该回归模型是非线性回归模型。

  5. 五、回归模型的矩阵方法和随机矩阵

  6. 六、经典线性回归模型及其假设条件 • 一、有正确的期望函数。 • 它要求在线性回归模型中没有遗漏任何重要的解释变量,也没有包含任何多余的解释变量。 • 二、被解释变量等于期望函数与随机干扰项之和。 • 三、随机干扰项独立于期望函数。即所有解释变量Xj与随机干扰项u不相关。 • 四、解释变量矩阵X是非随机矩阵,且其秩为列满秩的,即rank(X)=k。

  7. 五、随机干扰项服从正态分布。该假设给出了被解释变量的概率分布。五、随机干扰项服从正态分布。该假设给出了被解释变量的概率分布。 • 六、随机干扰项的期望值为0。即: • E(u)=0 • 七、随机干扰项具有方差齐性。即: • 八、随机干扰项相互独立。

  8. 第二节 模型参数的估计一、普通最小二乘法(OLS估计) • 通过协方差或相关系数证实变量之间存在关系,仅仅只是知道变量之间线性相关的性质——正(负)相关和相关程度的大小。 • 既然它们之间存在线性关系,接下来必须探求它们之间关系的表现形式是什么? • 最好用数学表达式将这种关系尽可能准确、严谨的表示出来——y=a+bx+u——把它们之间的内在联系挖掘出来。也就是直线中的截距a=?;直线的斜率b=? • 消费支出=基本生存+边际消费倾向×可支配收入+随机扰动

  9. 解决问题的思路——可能性 • 寻找变量之间直线关系的方法多多。于是,再接下来则是从众多方法中,寻找一种优良的方法,运用方法去求出线性模型——y=a+bx+u中的截距a=?;直线的斜率b=?正是是本章介绍的最小二乘法。 • 根据该方法所得,即表现变量之间线性关系的直线有些什么特性? • 所得直线可靠吗?怎样衡量所得直线的可靠性? • 最后才是如何运用所得规律——变量的线性关系?

  10. 最小二乘法产生的历史 • 最小二乘法最早称为回归分析法。由著名的英国生物学家、统计学家道尔顿(F.Gallton)——达尔文的表弟所创。 • 早年,道尔顿致力于化学和遗传学领域的研究。 • 他研究父亲们的身高与儿子们的身高之间的关系时,建立了回归分析法。

  11. 最小二乘法的地位与作用 • 现在回归分析法已远非道尔顿的本意 • 已经成为探索变量之间关系最重要的方法,用以找出变量之间关系的具体表现形式。 • 后来,回归分析法从其方法的数学原理——误差平方和最小(平方乃二乘也)出发,改称为最小二乘法。

  12. 父亲们的身高与儿子们的身高之间关系的研究 • 1889年F.Gallton和他的朋友K.Pearson收集了上千个家庭的身高、臂长和腿长的记录 • 企图寻找出儿子们身高与父亲们身高之间关系的具体表现形式 • 下图是根据1078个家庭的调查所作的散点图(略图)

  13. 儿子们身高向着平均身高“回归”,以保持种族的稳定儿子们身高向着平均身高“回归”,以保持种族的稳定 185 180 175 Y 170 165 160 140 150 160 170 180 190 200 X

  14. “回归”一词的由来 • 从图上虽可看出,个子高的父亲确有生出个子高的儿子的倾向,同样地,个子低的父亲确有生出个子低的儿子的倾向。得到的具体规律如下: • 如此以来,高的伸进了天,低的缩入了地。他百思不得其解,同时又发现某人种的平均身高是相当稳定的。最后得到结论:儿子们的身高回复于全体男子的平均身高,即“回归”——见1889年F.Gallton的论文《普用回归定律》。 • 后人将此种方法普遍用于寻找变量之间的规律

  15. 最小二乘法的思路 • 1.为了精确地描述Y与X之间的关系,必须使用这两个变量的每一对观察值,才不至于以点概面(作到全面)。 • 2.Y与X之间是否是直线关系(协方差或相关系数)?若是,将用一条直线描述它们之间的关系。 • 3.在Y与X的散点图上画出直线的方法很多。 • 任务?——找出一条能够最好地描述Y与X(代表所有点)之间的直线。 • 4.什么是最好?—找出判断“最好”的原则。 • 最好指的是找一条直线使得这些点到该直线的纵向距离的和(平方和)最小。

  16. y 横向距离 纵向距离 距离 A为实际点,B为拟合直线上与之对应的点 x 三种距离

  17. 距离是度量实际值与拟合值 是否相符的有效手段 • 点到直线的距离——点到直线的垂直线的长度。 • 横向距离——点沿(平行)X轴方向到直线的距离。 • 纵向距离——点沿(平行)Y轴方向到直线的距离。也就是实际观察点的Y坐标减去根据直线方程计算出来的Y的拟合值。 • 这个差数以后称为误差——残差(剩余)。

  18. 最小二乘法的数学原理 • 纵向距离是Y的实际值与拟合值之差,差异大拟合不好,差异小拟合好,所以又称为拟合误差或残差。 • 将所有纵向距离平方后相加,即得误差平方和,“最好”直线就是使误差平方和最小的直线。 • 于是可以运用求极值的原理,将求最好拟合直线问题转换为求误差平方和最小。

  19. 数学推证过程

  20. 关于所得直线方程的结论 • 结论之一: • 由(5)式,得 • 即拟合直线过y和x的平均数点。 • 结论之二: • 由(2)式,得 • 残差与自变量x的乘积和等于0,即两者不相关。

  21. 拟合直线的性质 • 1.估计残差和为零 • 2.Y的真实值和拟合值有共同的均值 • 3.估计残差与自变量不相关 • 4.估计残差与拟合值不相关

  22. 1.估计残差和为零(Residuals Sum to zero) • 由(1)式直接得此结论无须再证明。并推出残差的平均数也等于零。

  23. 2.Y的真实值和拟合值有共同的均值(The actual and fitted values of yi have the same mean)

  24. 3.估计残差与自变量不相关(Residuals are unrelated with independent variable)

  25. 4.估计残差与拟合值不相关(Residuals are unrelated with fitted value of yi)

  26. 自变量与残差不相关 拟合值与残差不相关 残差和=0 注意:这里的残差与随机扰动项不是一个概念。随机扰动项是总体的残差。 平均数相等 关于回归直线性质的总结

  27. 二、极大似然估计法

  28. 最佳线性无偏估计

  29. 高斯—马尔柯夫定理

  30. 第三节 拟合优度的评价

  31. 问题的提出 • 由最小二乘法所得直线究竟能够对这些点之间的关系加以反映吗? • 对这些点之间的关系或趋势反映到了何种程度? • 于是必须经过某种检验或者找出一个指标,在一定可靠程度下,根据指标值的大小,对拟合的优度进行评价。 • 分四个问题进行讨论:平方和分解、方差分析、拟合优度、拟合优度与简单相关系数的关系。

  32. 一、平方和与自由度的分解 • 1、总平方和、回归平方和、残差平方和的定义 • 2、平方和的分解 • 3、自由度的分解

  33. 1、总平方和、回归平方和、残差平方和的定义1、总平方和、回归平方和、残差平方和的定义 • TSS度量Y自身的差异程度,RSS度量因变量Y的拟合值自身的差异程度,ESS度量实际值与拟合值之间的差异程度。

  34. 2、平方和的分解

  35. 平方和分解的意义 • TSS=RSS+ESS • 被解释变量Y总的变动(差异)= • 解释变量X引起的变动(差异) • +除X以外的因素引起的变动(差异) • 如果X引起的变动在Y的总变动中占很大比例,那么X很好地解释了Y;否则,X不能很好地解释Y。

  36. 3、自由度的分解 • 总自由度 • dfT=n-1 • 回归自由度 • dfR=1(自变量的个数,k元为k) • 残差自由度 • dfE=n-2 • 自由度分解 • dfT=dfR+dfE

  37. 正交分解 平方和分解图

  38. C B A 为什么回归平方和是由X引起的变动

  39. 二、方差分析 • 模型:y=a+bx+u ==>LS估计:y^=a^+b^x • H0:b=0 HA:b<>0

  40. 关于F检验 • 零假设H0:b=0 备择HA:b<>0 • H0:b=0 <==>RSS中的X不起作用,RSS变动无异于随机变动==> • 分子方差与分母方差是一回事==>F=1 • 如果F显著地大于1,甚至F>F==>小概率事件发生了,根据小概率原理,小概率事件在一次试验中是不可能发生的,于是H0不成立。就不能认为X没有作用。则直线是有意义的。可靠性=1- 

  41. 三、拟合优度(或称判定系数、决定系数) • 目的:企图构造一个不含单位,可以相互进行比较,而且能直观判断拟合优劣。 • 拟合优度的定义: • 意义:拟合优度越大,自变量对因变量的解释程度越高,自变量引起的变动占总变动的百分比高。观察点在回归直线附近越密集。 • 取值范围:0-1

  42. 拟合优度与F统计量之间的联系 • F显著==>拟合优度必然显著

More Related