1 / 78

第 12 章

第 12 章. 简单回归分析 Simple linear regression analysis. 本章内容 第一节 简单线性回归 第二节 线性回归的应用 第三节 残差分析 第四节 非 线性回归. 第一节 简单线性回归. 双变量计量资料: 每个个体有两个变量值 总体: 无限或有限对变量值 样本: 从总体随机抽取的 n 对变量值 ( X 1 ,Y 1 ) , ( X 2 ,Y 2 ) , … , ( X n ,Y n ) 目的: 研究 X 和 Y 的数量关系 方法: 回归与相关 简单、基本 —— 直线回归、直线相关. 历史背景:.

binta
Download Presentation

第 12 章

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 第12章 简单回归分析 Simple linear regression analysis

  2. 本章内容 第一节 简单线性回归 第二节 线性回归的应用 第三节 残差分析 第四节 非线性回归

  3. 第一节 简单线性回归 双变量计量资料:每个个体有两个变量值 总体:无限或有限对变量值 样本:从总体随机抽取的n对变量值 (X1,Y1), (X2,Y2), …, (Xn,Yn) 目的:研究X和Y的数量关系 方法:回归与相关 简单、基本——直线回归、直线相关

  4. 历史背景: 英国人类学家 F.Galton首次在《自然遗传》一书中,提出并阐明了“相关”和“相关系数”两个概念,为相关论奠定了基础。其后,他和英国统计学家 Karl Pearson对上千个家庭的身高、臂长、拃长(伸开大拇指与中指两端的最大长度)做了测量,发现:

  5. 儿子身高(Y,英寸)与父亲身高(X,英寸)存在线性关系: 。 也即高个子父代的子代在成年之后的身高平均来说不是更高,而是稍矮于其父代水平,而矮个子父代的子代的平均身高不是更矮,而是稍高于其父代水平。Galton将这种趋向于种族稳定的现象称之“回归”

  6. “回归”已成为表示变量之间某种数量依存关系的统计学术语,相关并且衍生出“回归方程”“回归系数”等统计学概念。如研究糖尿病人血糖与其胰岛素水平的关系,研究儿童年龄与体重的关系等。“回归”已成为表示变量之间某种数量依存关系的统计学术语,相关并且衍生出“回归方程”“回归系数”等统计学概念。如研究糖尿病人血糖与其胰岛素水平的关系,研究儿童年龄与体重的关系等。

  7. 线性回归的概念及其统计描述

  8. 直线回归的概念 目的:研究应变量Y对自变量X的数量依 存关系。 特点:统计关系。 X值和Y的均数的关系, 不同于一般数学上的X 和Y的函数关系

  9. 为了直观地说明直线回归的概念,以15名健康人凝血酶浓度(X)与凝血时间(Y)数据(表12-1)进行回归分析,得到图12-1所示散点图(scatter plot)

  10. 在定量描述健康人凝血酶浓度(X)与凝血时间(Y)数据的数量上的依存关系时,将凝血酶浓度称为自变量(independent variable),用 X 表示;凝血时间称为应变量(dependent variable),用 Y 表示

  11. 由图12-1可见,凝血时间随凝血酶浓度的增加而减低且呈直线趋势,但并非所有点子恰好全都在一直线上,此与两变量间严格的直线函数关系不同,称为直线回归(linear regression),其方程叫直线回归方程,以区别严格意义的直线方程。回归是回归分析中最基本、最简单的一种,故又称简单回归。

  12. 简单线性回归模型 样本线回归方程 为各X处Y的总体均数的估计。

  13. 1.a 为回归直线在 Y轴上的截距 • a > 0,表示直线与纵轴的交点在原点的上方 • a < 0,则交点在原点的下方 • a = 0,则回归直线通过原点

  14. 2. b为回归系数,即直线的斜率 • b>0,直线从左下方走向右上方,Y 随 X 增大而增大; • b<0,直线从左上方走向右下方,Y 随 X 增大而减小; • b=0,表示直线与 X 轴平行,X 与Y 无直线关系 b 的统计学意义是:X每增加(减)一个单位,Y平均改变b个单位

  15. 回归模型的前提假设 • 线性回归模型的前提条件是: 线性(linear) 独立(independent) 正态(normal) 等方差(equal variance)

  16. 回归参数的估计——最小二乘原则 • 残差(residual)或剩余值,即实测值Y与假定回归线上的估计值 的纵向距离 。 • 求解a、b实际上就是“合理地”找到一条能最好地代表数据点分布趋势的直线。 原则:最小二乘法(least sum of squares),即可保证各实测点至直线的纵向距离的平方和最小

  17. 回归参数的估计方法

  18. 本例:n=15 ΣX=14.7 ΣX2=14.81 ΣY=224 ΣXY=216.7 ΣY2=3368

  19. 解题步骤

  20. 3、计算有关指标的值 4、计算回归系数和截距 5、列出回归方程

  21. 绘制回归直线 此直线必然通过点( , )且与纵坐标轴相交于截距a 。如果散点图没有从坐标系原点开始,可在自变量实测范围内远端取易于读数的 值代入回归方程得到一个点的坐标,连接此点与点( , )也可绘出回归直线。

  22. 总体回归系数β的的统计推断 样本回归系数b的标准误

  23. 回归方程的假设检验 建立样本直线回归方程,只是完成了统计分析中两变量关系的统计描述,研究者还须回答它所来自的总体的直线回归关系是否确实存在,即是否对总体有 ?

  24. 1.方差分析

  25. 残差 Y的离均差,总变异 回归的变异

  26. 数理统计可证明:

  27. 上式用符号表示为 式中

  28. 上述三个平方和,各有其相应的自由度 ,并有如下的关系:

  29. 如果两变量间总体回归关系确实存在,回归的贡献就要大于随机误差,大到何种程度时可以认为具有统计意义,可计算统计量F:如果两变量间总体回归关系确实存在,回归的贡献就要大于随机误差,大到何种程度时可以认为具有统计意义,可计算统计量F:

  30. 式中

  31. t 检验

  32. 检验例12-1数据得到的直线回归方程是否成立?检验例12-1数据得到的直线回归方程是否成立?

  33. (1)方差分析

  34. 方差分析表

  35. (2)t 检验 参数β的意义是:若自变量X增加一个单位,反应变量Y的平均值便增加β

  36. 注意:

  37. 总体回归系数 的可信区间 利用上述对回归系数的t检验,可以得到β的1-α双侧可信区间为

  38. 本例b=-6.9802, 自由度=13,t0.05,13=2.16,Sb=0.78655, 代入公式(12-7)得参数β的95%置信区间为 =(-8.6791 ~ -5.2813)

  39. 第二 节 线性回归的应用(估计和预测)

  40. 反映其抽样误差大小的标准误为

More Related