470 likes | 659 Views
第 8 章 相关与回归分析 回归分析广义上的回归分析,同时包括狭义的相关分析与回归分析的全部内容,亦即本章既研究现象间相互依存关系的密切程度,又研究现象之间数量相关的具体形式。. 重点:明确相关关系,函数关系,因果关系,掌握基本的回归分析和预测方法,能应用实际资料构建一元线性回归模型,并借助计算机进行系统分析。 难点:多元线性回归分析和预测方法的准确运用 。. 第 1 节 变量间关系的度量 一、变量间的相互关系. 1 、相关关系 函数关系 ,是指当一个或几个变量取一定的值时,另一个变量有确定值与之相对应的 确定性关系。
E N D
第8章 相关与回归分析回归分析广义上的回归分析,同时包括狭义的相关分析与回归分析的全部内容,亦即本章既研究现象间相互依存关系的密切程度,又研究现象之间数量相关的具体形式。 • 重点:明确相关关系,函数关系,因果关系,掌握基本的回归分析和预测方法,能应用实际资料构建一元线性回归模型,并借助计算机进行系统分析。 • 难点:多元线性回归分析和预测方法的准确运用。
第1节 变量间关系的度量一、变量间的相互关系 • 1、相关关系 • 函数关系,是指当一个或几个变量取一定的值时,另一个变量有确定值与之相对应的 确定性关系。 • 相关关系,是指当一个或几个相互联系的变量取一定数值时,与之相对应的另一变量的值按某种规律在一定的范围内发生不确定性的变化。 2、相关关系的种类 • 正相关和负相关 • 完全相关、不完全相关和完全不相关 • 线性相关和非线性相关 • 单相关和复相关
二、相关关系的描述与测度 • 1、散点图 • 2、相关系数 • 3、相关表
三、相关关系的显著性检验 • 1、提出假设 • 2、确定显著水平 • 3、计算统计量 • 4、比较 • 5、决策
第2节 一元线性回归分析(Simple linear regression)一、一元线性回归模型(简单线性回归模型) 1、简单线性回归模型(Simple linear regression model) • 假定因变量y主要受自变量x的影响,它们之间的简单线性回归模型如下 : • 为参数, 为随机误差项。 • 对于误差项,在回归分析中有如下假设: 1)误差项是随机变量,它的期望值为0。 2)对于所有的 x值,误差项的方差 为常数。 3)误差项之间相互独立,即与一个值相联系的误差对与另一个值相联系的误差没有影响。 4)随机误差项服从正态分布。
2、一元线性回归方程(Simple linear regression equation) • 描述y的均值E(y)与 x的关系的方程叫做回归方程。 由于 所以 • 不难看出,简单线性回归方程的图形是一条直线。这条直线被称为总体回归直线。 是回归直线的截距, 是回归直线的斜率,E(y)是给定某个x的值y的均值或期望值。 • 各实际观测点与总体回归线垂直方向的间隔,就是随机误差项ε,即
3、估计一元线性回归方程(Estimated simple linear regression equation) • 在实践中,参数往往是未知的,需要用样本数据进行估计。根据样本数据拟合的直线,称为样本回归直线。 • 分别为 的估计值,是样本回归直线的截距和斜率。 • 实际观测到的因变量y值,并不完全等于估计值 ,如果用e表示二者之差,则样本回归模型为:
样本回归模型与总体回归模型的区别: 第一,总体回归线是未知的,它只有一条;而样本回归线则是根据样本数据拟合的,可以有若干条样本回归线。 第二,总体回归模型中的β0和β1是未知的参数,表现为常数;而样本回归模型中的b0和b1是随机变量,其数值随样本观测值不同而变动。 第三,总体回归模型中的ε,是y与未知的总体回归线之间的纵向距离,它是不可直接观测的;而样本回归模型中的e,是y与样本回归线之间的纵向距离,可以根据样本观测值计算得出。
二、一元线性回归模型的估计1、回归系数的估计[例1] 假定我们想为某街区内的住宅房地产的销售价格y与评估价值x之间的关系建立一个回归模型,从去年已售出的房地产中随机抽选5所住宅作样本,相应的数据如表所示 。
直线回归分析步骤 • 1、绘制散点图 • 2、计算回归系数(最小二乘法) • 3、作回归直线(在自变量的实测范围内任取两个相距较远的数值 、 ,根据 两点作图。
例2:某乡为了提高小麦产量,经过多次试验,总结出一种小麦基本苗数推算成熟期有效穗数的方法。在5块田上进行对比试验,取得数据如下:例2:某乡为了提高小麦产量,经过多次试验,总结出一种小麦基本苗数推算成熟期有效穗数的方法。在5块田上进行对比试验,取得数据如下:
练习1:某企业上半年产品产量与单位成本数据如表所示。试根据表中数据:(1)绘制散点图;(2)建立回归方程,说明产量每增加1000件,单位成本平均变动如何?(3)作回归直线。练习1:某企业上半年产品产量与单位成本数据如表所示。试根据表中数据:(1)绘制散点图;(2)建立回归方程,说明产量每增加1000件,单位成本平均变动如何?(3)作回归直线。
练习2: 根据Pizza连锁店的学生人数和季度销售收入数据,建立回归直线方程,并预测学生人数为25人时的销售收入。
练习3:以下是采集到的有关女子游泳运动员的身高(英寸)和体重(磅)的数据:a、用身高作自变量,画出散点图b、根据散点图表明两变量之间存在什么关系?c、试着画一条穿过这些数据的直线,来近似身高和体重之间的关系d、求出估计的回归方程e、如果一名运动员的身高是63英寸,你估计她的体重是多少?练习3:以下是采集到的有关女子游泳运动员的身高(英寸)和体重(磅)的数据:a、用身高作自变量,画出散点图b、根据散点图表明两变量之间存在什么关系?c、试着画一条穿过这些数据的直线,来近似身高和体重之间的关系d、求出估计的回归方程e、如果一名运动员的身高是63英寸,你估计她的体重是多少?
2、总体方差的估计 • 根据回归模型及其关于误差项的假定,我们能够得出这样的结论:ε的方差σ2说明了y关于回归直线的方差。由于σ2的值很少知道,而我们知道y关于回归直线的偏差是残差e,因此,残差平方和就是实际观察值关于估计回归直线差异的一种测度。 • 如果以s2表示误差平方的均值,以SSE表示残差平方和,则有: s2=SSE/(n-2) 。它是总体方差的无偏估计量。 • s称为估计标准误差。即: • s越小说明实际观察值与估计回归直线的离差越小,回归直线代表性较好;反之, s越大说明实际观察值与估计回归直线的离差越大,回归直线代表性较差。 • 直接计算s2比较复杂,可采用以下公式:
例3:根据例1数据计算s2和s。 • 解:
三、一元线性回归模型的检验 • 理论检验主要涉及参数估计值的符号和取值区间,如果它们与实质性科学的理论以及人们的实践经验不相符,就说明模型未能很好地解释现实的现象。 • 一级检验又称统计学检验,它是利用统计学中的抽样理论来检验样本回归方程的可靠性,具体又可分为拟合程度评价和显著性检验。 • 二级检验又称经济计量学检验,它是对标准线性回归模型的假定条件能否得到满足进行检验,具体包括序列相关检验、异方差检验等。
1、拟合程度的评价 • 拟合程度,是指样本观察值聚集在估计回归线周围的紧密程度。 • 评价拟合程度最常用的方法是测定系数或判定系数。 • 对于任何观察值y总有: • 得 • 设SST= ,SSR= ,那么: • SST=SSR+SSE • SST为总平方和,SSR为回归平方和,SSE为误差平方和。 • 比率SSR/SST可以用来评价拟合的程度。我们称之为测定系数(或判定系数),用r2表示,显然,0≤r2≤1。
两个变量之间线性相关的强弱可以用相关系数r(Correlation coefficient)度量。 • 相关系数(样本中 x与y的线性关系强度)计算公式如下: • 相关系数的取值范围在-1≤r≤1之间。当r接近于0时,说明x与y之间不相关;当r=1或r=-1时,说明x与y完全相关;当-1<r<1时,说明x与y之间不完全相关。 测定系数与相关系数之间的区别 第一,二者的应用场合不同。当我们只对测量两个变量之间线性关系的强度感兴趣时,采用相关系数;当我们想要确定最小二乘直线模型同数据符合的程度时,应用测定系数。 第二,相关系数仅限定于两个变量之间存在线性关系,而测定系数却可以应用于线性、非线性相关和自变量是两个和两个以上的复相关。
2、显著性检验 • 对于变量x与y之间的线性关系存在与否的问题,可以通过显著性检验进行。 • t检验,就是依据t概率分布所进行的回归显著性检验。F 检验,就是依据F概率分布所进行的回归显著性检验。当只有一个自变量时,F检验与t检验结论相同,但是如果自变量多于一个时,则只能用F检验。 • 对于简单线性回归模型 ,如果x与y之间存在线性关系,一定有β1≠0;若x与y完全无关,那么必定β1=0。因此,为了验证“x与y完全无关”这一假设,应该检验: • H0(零假设): β1=0 H1(替代假设):β1≠0 • 如果数据支持H1,我们将得出x与y之间具有统计上的显著性关系的结论。但是,如果数据拒绝H1,我们将没有足够的证据得出显著性关系存在的结论。
t检验的根据是:统计量t=(b1-β1)/ sb1服从自由度为(n-2)的t分布。若零假设为真,即β1=0,则t= b1/ sb1。如果|t|>tα/2(临界值),则拒绝H0。 对β1的假设检验是建立在b1及其抽样分布基础之上的。b1的抽样分布特征为: b1服从正态分布。 由于σ的值未知,应用其估计值s可以计算 的估计值 如下:
t 检验的一般程序为:(1) 提出假设 H0:β1=0 H1:β1≠0(2) 确定显著水平α(3) 计算统计量t=b1/ sb1(4) 找出临界值tα/2(5) 检验判断 拒绝区为︱t︱>tα/2
例4:以住宅房地产问题为例,检验评估价值与销售价格之间存在线性关系的显著性。例4:以住宅房地产问题为例,检验评估价值与销售价格之间存在线性关系的显著性。 解:假设 H0:β1=0 H1:β1≠0 已知n=5,显著性水平α=0.05。 查t分布表可得:tα/2=t0.025=3.182 检验统计量t= b1/ sb1=2.3/(0.6055/ )=12.01 因为t>tα/2,所以拒绝零假设,得出β1≠0的结论。 因此我们可以得到这样的结论:在0.05的显著性水平下,房地产的评估价值与销售价格之间的确存在线性关系,即前者对后者有显著的影响。
练习4:对来往车辆进行研究,每隔5分钟获得的数据如下表,试进行回归分析,并对回归方程作拟合度及显著性检验。(显著水平为5%)练习4:对来往车辆进行研究,每隔5分钟获得的数据如下表,试进行回归分析,并对回归方程作拟合度及显著性检验。(显著水平为5%)
第3节 一元线性回归模型的估计和预测 • 简单线性回归模型是对 x与y之间的关系假定。运用最小平方法可以得到简单线性估计方程。如果已经得出结论说明方程拟合效果较好、x与y之间线性关系显著,那么,估计回归方程将会有助于估计和预测。 • 回归模型在推断方面的应用有两类: 一是利用模型估计对应特定x值的y的均值,即在x值给定的条件下对大量实验估计y的均值E(y); 二是利用模型预测对应给定x值的y值,即在x值给定的条件下预言某一y的个别值。无论是哪种应用,都将利用最小二乘模型 =b0+b1x 。
1、点估计 • 对于住宅房地产的问题,我们已经求出了估计回归方程 =-2.2+2.3x 。下面我们分别说明已知评估价值为30万美元条件下,E(y)和y的点估计值的推断方法。 • (1)E(y)的点估计量 在最小二乘基础上,这个估计量就是 。 当x=3时, =-2.2+2.3×3=4.7 • 结论:当评估价值为30万美元时,估计所有房地产的平均销售价格为47万美元。 (2)y的点估计值 当x=3时, =-2.2+2.3×3=4.7 • 结论:当某所住宅评估价值为30万美元时,该住宅将以47万美元的价格售出。
2、区间估计 • 最小二乘模型既被用来估计E(y),又被用来预测y,它们的区别就是精度不同。在最小二乘直线分别用在估计量和预测量的情况下,相应的精度用最小二乘直线的重复抽样误差来测量如下: • x固定时,E(y)的估计量的抽样分布的标准差为 • x固定时,y的预测值的预测误差的标准差为 • (1)E(y)的(1-α)置信区间为 • (2)y的(1-α)预测区间为
例5:对于房地产数据,分别就评估价值为30万美元时,求所有住宅平均售价及该住宅售价的95%置信区间。例5:对于房地产数据,分别就评估价值为30万美元时,求所有住宅平均售价及该住宅售价的95%置信区间。 • 解: • 已知 • 即评估价值为30万元时,所有住宅平均售价的95%置信区间为(364500,5755500)美元。 • 即评估价值为30万元的住宅,其售价的95%置信区间为(250300,689700)美元。
练习:有10个同类企业的生产性固定资产年平均价值和工业总产值数据如表所示。根据表中数据,1、拟合直线回归方程2、计算估计标准误差3、进行95%的显著性检验4、当固定资产为1100万元时,对工业总产值作点估计和区间估计。练习:有10个同类企业的生产性固定资产年平均价值和工业总产值数据如表所示。根据表中数据,1、拟合直线回归方程2、计算估计标准误差3、进行95%的显著性检验4、当固定资产为1100万元时,对工业总产值作点估计和区间估计。
第4节 多元线性回归(Multiple Regression)分析 • 一、多元线性回归模型(Multiple regression model) 表达因变量y与若干个不同自变量x1 ,x2 ,x3 ,…,xk之间关系的一般线性模型为: 回归系数表示在其他自变量保持不变的情况下,自变量xi每变动一个单位所引起的因变量y平均变动的数额,也叫偏回归系数。 如果根据样本计算的统计量b0,b1,b2, …,bk为总体参数β0,β1,β2,…,βk的点估计量,那么,我们就得到了 估计多元回归方程(Estimated multiple regression equation) :
二、回归系数的最小二乘估计 • 多元线性回归模型中回归系数的估计同样采用最小二乘法(Least squares method),但是它涉及到较为复杂的计算,当然利用现成的软件包如SAS、SPSS、Excel等,只要将有关数据输入计算机,并指定因变量和相应的自变量,立刻就能得到计算结果。因此,对于从事应用研究的人们来说,更为重要的是对计算机输出的结果作出正确的解释。本节以二元线性回归为重点介绍有关内容。 当根据样本研究二个自变量x1,x2与y的关系时,则有 估计二元回归方程: 求估计回归方程中的参数,可运用标准方程如下: L11b1+L12b2=L1y L12b1+L22b2=L2y
例6:根据表中数据拟合因变量的二元线性回归方程。例6:根据表中数据拟合因变量的二元线性回归方程。
x12 x1x2 x22 x1y x2y 900 2209 625 2601 1600 2601 5476 1296 3481 5776 360 470 425 816 200 969 518 432 767 456 144 100 289 256 25 361 49 144 169 256 2820 5076 2800 9078 3760 8925 12580 4212 8378 16036 1128 1080 1904 2848 470 3325 1190 1404 1846 3376 26565 5413 1793 73665 18571 解:二元线性回归分析计算表(1)
n=10 Σy=1401 Σx1=449 Σx2 =117 =140.1 =44.9 =11.7 =26565-4492/10=6404.9 =5413-449×117/10=159.7 =1793-1172/10=424.1 =73665-449×1401/10=10760.1 =18571-117×1401/10=2179.3 二元线性回归分析计算表(2)
将有关数据代入标准方程: 6404.9b1+159.7b2=10760.1 159.7b1+424.1b2=2179.3 • 解得:b1=1.56 b2=4.55 b0==16.82 • 于是二元线性回归方程为 =16.82+1.56x1+4.55x2 • 这说明:在样本资料范围内,当x2不变时,x1每增加一个单位,y将平均增加1 .56个单位;当x1不变时,x2每增加一个单位,y将平均增加4.55个单位。
三、多元线性回归模型的检验和预测 • 1、拟合程度的评价 • 在多元线性回归分析中,总平方和的分解公式依然成立。为了判断一般线性模型(非一元线性模型)与数据的拟合程度,需要计算一个与r2等价的多重决定系数R2。 • R2测量的是能被模型所说明的那部分变差所占的比重。因此,R2=0意味着完全不能拟合;R2=1意味着完全拟合。R2的取值范围在0≤R2≤1,一般情况下,R2值越大拟合程度越高。 • 更常用的评价指标是修正多重决定系数Ra2
2、显著性检验 • 由离差平方和的分解公式可知,回归模型的总平方和SST等于回归平方和SSR与误差平方和SSE的和。 • 测量线性关系是否显著,其实质就是判断回归平方和与误差平方和之比值的大小。由于回归平方和与误差平方和的数值随观察值的样本容量n和自变量个数(k-1)的不同而变化,因此必须将回归平方和及误差平方和与其各自的自由度联系起来,再进行对比检验。由于这样对比之后的统计量服从F分布,所以,称这种检验方法为F检验。 • F检验的方法和步骤如下: • (1) 假设总体回归方程不显著,即 • H0:β1=β2=…=βk=0 H1:β1,β2,…,βk中至少有一个不为0 • (2) 计算统计量F (3)进行假设检验 • 在给定的显著水平α下,查表得临界值Fα。当F>Fα时,拒绝原假设,即自变量与因变量之间的线性关系显著。
变动原因 平方和 自由度 方差 回归 误差 合计 SSR SSE SST k-1 n-k n-1 SSR/(k-1) SSE/(n-k) 方差分析表 n为样本容量 k为参数个数(回归系数个数)
[练习1]有两个自变量和10组观察值的估计回归方程如下:[练习1]有两个自变量和10组观察值的估计回归方程如下: • 1、解释该方程中的回归系数。 • 2、当 时,估计 的值。
[练习2]已知根据下表数据建立的回归方程是:1、检验因变量与自变量之间关系的显著性(显著水平为0.05)2、 是否显著?(显著水平为0.05)3、 是否显著?(显著水平为0.05)4、计算 ,并评述拟合优度。
3、多元线性回归的估计和预测 • 对线性模型作过显著检验,并认为模型对自变量与因变量之间的线性关系拟合有效,我们就可以利用模型进行估计和预测。其方法同简单线性回归的情况完全相同,即在自变量 x给定的条件下对E(y)进行点估计或区间估计,或在x值给定的条件下构造y的预测区间。 • σ2的估计值s2的计算公式如下: • 式中,n为样本容量 • k为参数个数(回归系数个数) • 在进行多元线性回归预测时应注意的问题,与简单线性回归预测注意的问题相同,即切勿用最小二乘模型作外推预测。
第5节 一元非线性回归分析 • 1、指数回归方程 • 2、抛物线回归方程 • 3、幂函数回归方程 • 4、双曲线回归方程
本章小结 • 函数关系、相关关系 • 一元回归模型、回归方程、估计方程 • 多元回归模型、回归方程、估计方程 • 拟合优度评价 • 显著性检验 • 利用回归方程进行估计和预测