440 likes | 583 Views
《 统计学 》. 第七章 相关与回归分析. 2008.5.16. 《 统计学 》. 第七章 相关与回归分析. 第一节 相关与回归分析的基本概念. 一 、相关关系的种类 二 、相关分析与回归分析 三 、相关图. 一、相关关系的种类. ( 1 )按相关的程度分,有完全相关、不完全相关和不相关。 ( 2 )按相关的性质分,有正相关和负相关。 ( 3 )按相关的形式分,有线性相关和非线性相关。 ( 4 )按影响因素多少分,有单相关和复相关。. 相关性分类. 当一个现象的数量变化完全由另一个现象的数量变化所确定时,称这两种现象的关系为完全相关.
E N D
《统计学》 第七章 相关与回归分析 2008.5.16
《统计学》 第七章 相关与回归分析 第一节 相关与回归分析的基本概念 • 一、相关关系的种类 • 二、相关分析与回归分析 • 三、相关图
一、相关关系的种类 • (1)按相关的程度分,有完全相关、不完全相关和不相关。 • (2)按相关的性质分,有正相关和负相关。 • (3)按相关的形式分,有线性相关和非线性相关。 • (4)按影响因素多少分,有单相关和复相关。
相关性分类 当一个现象的数量变化完全由另一个现象的数量变化所确定时,称这两种现象的关系为完全相关 完全相关 当两个现象彼此互不影响,其数量变化各自独立时,称为不相关现象。 不相关 两个现象之间的关系介于完全相关和不相关之间,称为不完全相关,一般相关现象都是指这种不相关 不完全相关
正相关与负相关 当自变量X值增加,因变量Y值也随之增加,这样的相关关系就是正相关,也叫同向相关。 正相关 当自变量X的值增加时,因变量Y的值随之而减少,这样的相关关系就是负相关,也叫异向相关。 负相关
线性相关与非线性相关 从所拟会的回归模型来看,若一变量表现为其它变量的线性组合,则称变量之间的关系为线性相关 。 线性相关 从所拟会的回归模型来看,若一变量表现为其它变量的非线性组合,则称变量之间的关系为非线性相关 。 非线性相关
单相关、复相关和偏相关 是一个因变量与一个自变量的相关。因此也称为一元相关。 单相关 是一个因变量与两个或更多个自变量之间的相关因此也称为多元相关。 复相关 在某一现象与多种现象相关的场合,假定其他变量不变,专门考察其中两个变量的相关关系称为偏相关 偏相关
二、相关分析与回归分析 • 相关分析是用一个指标来表明现象间依存关系的密切程度。 • 回归分析是用数学模型近似表达变量间的平均变化关系。 • 相关分析可以不必确定变量中哪个是自变量,哪个是因变量,其所涉及的变量都是随机变量。 • 回归分析必须事先确定具有相关关系的变量中哪个为自变量,哪个为因变量。一般地说,回归分析中因变量是随机的,而把自变量作为研究时给定的非随机变量。 • 一定要始终注意把定性分析和定量分析结合起来,在定性分析的基础上开展定量分析。
回归方程及分类 回归方程定义: 由回归分析求出的反映变量之间关系形式的数学表达式,称为回归方程。 回归方程 按变量的多少,回归分析可分为一元回归分析和多元回归分析 按变量之间关系的形式,回归分析可分为线性回归分析和非线性回归分析
相关分析的概念 相关分析: 是研究一个变量(设为y)与其它变量 之间相关密切程度与相关方向的一种统计分析方法。 主要内容包括 (1)确定现象之间有无相关关系,以及相关关系的表现形态。 (2)确定相关关系的密切程度。 (3)确定相关关系的数字模型,并进行参数估计和拟合优度检验。 (4)回归预测,并分析估计标准误差。
相关分析与回归分析的关系 1/2 • 1.相关分析与回归分析的联系: • (1)两者具有互为补充关系。 • 通过回归分析可以求出一个估计的回归方程,用来反映变量之间在数量变化上的联系;相关分析通过计算出来的相关指标,反映在回归方程这种固定联系的形式下变量之间联系的密切程度。仅仅进行回归分析,回归方程的有效性便遭到怀疑,而仅仅进行相关分析,便不能由自变量来推断因变量,两者是不可偏废某一方的。
相关分析与回归分析的联系 2/2 • (2)两者存在计算上的联系。回归分析和相关分析是非常相近的两种分析技术,所计算的指标不但在符号上存在联系,而且可以相互推算。 • 以一元线性相关为例: 或 回归方程为: 则 之间有下面换算公式 :
相关分析与回归分析的区别1/3 • 相关分析与回归分析的区别 : • (1)两者在关心变量性质上的不同。在回归分析中,必须将变量分为自变量和因变量,以便建立回归方程;也必须将变量分为确定性变量和随机变量,以便研究随机变量的分布以及对其进行统计推断。区分变量的性质是回归分析的前提条件,是回归分析中首先要解决的一个问题。
相关分析与回归分析的区别 2/3 • (2)两者的任务和目的不同: • 回归分析是根据现象之间关系的特点,运用一定的办法,建立最适合于变量之间关系的回归方程,而且随着变量的变换,回归方程也会随之改变,回归方程是用来反映变量之间数量的平均变动关系,进而对因变量进行估算或预测。相关分析是通过计算相关指标,用来反映回归方程所表明变量之间依存关系的密切程度,是不能进行估算和预测的。
相关分析与回归分析的区别3/3 • (3)两者的使用范围不同: • 回归分析只限于研究数量标志之间或指标之间的数量关系,对于品质标志之间和等级之间的关系在没有数量化之前是无法研究的。相关分析研究范围比回归分析研究的范围要广泛得多。从研究的范围来看,可以说,凡是能够进行回归分析的,都能够也必须进行相关分析,而能够进行相关分析的,却不一定能够或不都需要进行回归分析,回归分析总需要相关分析的帮助,而相关分析却不一定需要回归分析的帮助,相关分析具有独立性。
三、相关图 • 相关图又称散点图 • 它是以直角坐标系的横轴代表变量X,纵轴代表变量Y,将两个变量间相对应的变量值用坐标点的形式描绘出来,用来反映两变量之间相关关系的图形。根据表7-1的资料绘制的相关图如下:
《统计学概论》 曾五一主编 第七章 相关与回归分析 第二节 简单线性相关与回归分析 • 一、标准的一元线性回归模型 • 二、一元线性回归模型的估计 • 三、一元线性回归模型的检验
2.1 标准的一元线性回归模型 • (一)总体回归函数 Yt=β1+β2Xt+ut (7.2.1) u t是随机误差项,又称随机干扰项,它是一个特殊的随机变量,反映未列入方程式的其他各种因素对Y的影响。 • (二)样本回归函数: t=1,2,... n et称为残差,在概念上,et与总体误差项ut相互对应;n是样本的容量。
总体回归线与随机误差项 Y 。 Yt E(Yt)=β1+β2Xt ut 。 。 。 。 X
样本回归函数与总体回归函数区别 • 总体回归线是未知的,只有一条。样本回归线是根据样本数据拟合的,每抽取一组样本,便可以拟合一条样本回归线。 • 总体回归函数中的β1和β2是未知的参数,表现为常数。而样本回归函数中的 是随机变量,其具体数值随所抽取的样本观测值不同而变动。 • 总体回归函数中的ut是Yt与未知的总体回归线之间的纵向距离,它是不可直接观测的。而样本回归函数中的et是Yt与样本回归线之间的纵向距离,当根据样本观测值拟合出样本回归线之后,可以计算出et的具体数值。
2.2 一元线性回归模型的估计 • (一)回归系数的估计 最小二乘法 设 将Q对求偏导数,并令其等于零,可得: 加以整理后有:
回归系数的最小二乘估计量 • 以上方程组称为正规方程组或标准方程组,式中的n是样本容量。 • 求解这一方程组可得:
(二)总体方差的估计 上式中,分母是自由度,其中n是样本观测值的个数,2是一元线性回归方程中回归系数的个数。在一元线性回归模型中,残差et必须满足 因而失去了两个自由度,所以其自由度为n-2。 S2的正平方根又叫做回归估计的标准误差。 S2= =0; =0
残差平方和计算 • 一般采用以下公式计算残差平方和: 证明:
(三)最小二乘估计量的性质 • 最小二乘估计量是随机变量。 • 在标准假定能够得到满足的条件下,回归系数的最小二乘估计量的期望值等于其真值,即有: E( )=β1E( )=β2 • 其方差为: Var( )= Var( )=
估计量性质的数学证明 • (一)线性估计量 将Yt=β1+β2Xt+ut代入估计量,得: = = = 最小二乘估计量可表现为所要估计的参数的真值与随机误差项的线性组合
推导用的恒等式 • =0 • = Xt • = • 令
最小二乘估计量期望值和方差的推导 • E( )=β2+E(∑wtut) =β2+∑wtE(ut) (根据标准假定4) =β2+∑wt×0 (根据标准假定1) =β2 • Var( )=Var(β2+∑wtut) =E(∑wtut)2 = (根据标准假定4、3) = (根据标准假定2) =
三、一元线性回归模型的检验 • (一) 回归模型检验的种类 回归模型的检验包括理论意义检验、一级检验和二级检验。 • (二)拟合程度的评价 • 总离差平方和的分解 SST=SSR+SSE (7.2.2) SST是总离差平方和;SSR是回归平方和;SSE是残差平方和。 • 可决系数: r2= =1- (7.2.3) • 可决系数的特性
3.4显著性检验 • 1.提出假设。 • 2.确定显著水平α。 • 3.计算回归系数的t值。 = (7.2.4) • 4.确定临界值。 • 双侧检验查t分布表所确定的临界值是(-tα/2)和(tα/2);单侧检验所确定的临界值是(tα)。 • 5.做出判断。
《统计学概论》 曾五一主编 第七章 相关与回归分析 第三节 多元线性相关与回归分析 • 一、标准的多元线性回归模型 • 二、多元线性回归模型的估计 • 三、多元线性回归模型的检验和预测
3.1 标准的多元线性回归模型 • 多元线性回归模型总体回归函数的一般形式 (7.3.1) • 多元线性回归模型的样本回归函数 (7.3.2) • 多元线性回归分析的标准假定除了包括上一节中已经提出的的假定外,还要追加一条假定。这就是回归模型所包含的自变量之间不能具有较强的线性关系。
3.2 多元线性回归模型的估计 • (一)回归系数的估计 • =(X'X)-1X'Y (7.3.3) • (二)总体方差的估计 • S2= (7.3.4) • (三)最小二乘估计量的性质 • 标准的多元线性回归模型中,高斯.马尔可夫定理同样成立。
3.3多元线性回归模型的检验和预测 • (一)拟合程度的评价 • 修正自由度的可决系数(理由)。 =1- (7.3.5) =1- (1-R2) (7.3.6) 式中,n是样本容量;k是模型中回归系数的个数。 • 修正自由度的可决系数 的特点。
(二)显著性检验 • 1.回归系数的显著性检验 t = j=1,2,…,k (7.3.7) 式中, S 是的标准差的估计值。 按下式计算: • S = (7.3.8) • 式中, 是(X'X)-1的第j个对角线元素,S2是随机误差项方差的估计值。(8.63)式的t统计量的原假设是H0:βj=0,因此t的绝对值越大表明βj为0的可能性越小,即表明相应的自变量对因变量的影响是显著的。
2.回归方程的显著性检验 • 具体的方法步骤 • 回归模型方差分析表 • (3)F统计量 F=
《统计学概论》 曾五一主编 第七章 相关与回归分析 第四节 非线性相关与回归分析 • 一、常见的曲线回归 • 二、非线性函数形式的确定 • 确定函数形式的原则 • 实际分析中较常用的几种非线性函数的特点
非线性回归模型 当自变量与因变量存在某种曲线相关关系时,可拟合曲线回归模型。例如: 双曲线: y y x a>0 b>0 x a>0 b<0 y y 指数曲线:y=aebx b<0 b>0 x x
幂函数曲线:y=axb y b>1 b=1 a>0 b>0 b<1 x 理论和经验判断; 曲线模型的判别方法: 观察散点图 曲线模型的确定方法: 通常用变量代换法将曲线转换为直线。按线性模型求解参数,而后再变换为曲线模型。
例如:双曲线模型 指数曲线模型
非线性回归模型的估计 • 几种线性变换方法 • 实际应用时要注意: 第一、比较复杂的非线性函数,需综合利用上述的几种方法。 第二、变换得到的方程式中的变量不允许包含未知的参数。 第三、当变换后的新模型中包含的误差项能够满足标准假定时,新模型中回归系数最小二乘估计量的理想性质才能成立。 第四、严格地说,线性变换方法只是适用于变量为非线性的函数。 第五、 并不是所有的非线性函数都可以通过变换得到与原方程完全等价的线性方程。
哪里有数据, 哪里就有统计!