780 likes | 995 Views
第 12 章. 简单回归分析 Simple linear regression analysis. 本章内容 第一节 简单线性回归 第二节 线性回归的应用 第三节 残差分析 第四节 非 线性回归. 第一节 简单线性回归. 双变量计量资料: 每个个体有两个变量值 总体: 无限或有限对变量值 样本: 从总体随机抽取的 n 对变量值 ( X 1 ,Y 1 ) , ( X 2 ,Y 2 ) , … , ( X n ,Y n ) 目的: 研究 X 和 Y 的数量关系 方法: 回归与相关 简单、基本 —— 直线回归、直线相关. 历史背景:.
E N D
第12章 简单回归分析 Simple linear regression analysis
本章内容 第一节 简单线性回归 第二节 线性回归的应用 第三节 残差分析 第四节 非线性回归
第一节 简单线性回归 双变量计量资料:每个个体有两个变量值 总体:无限或有限对变量值 样本:从总体随机抽取的n对变量值 (X1,Y1), (X2,Y2), …, (Xn,Yn) 目的:研究X和Y的数量关系 方法:回归与相关 简单、基本——直线回归、直线相关
历史背景: 英国人类学家 F.Galton首次在《自然遗传》一书中,提出并阐明了“相关”和“相关系数”两个概念,为相关论奠定了基础。其后,他和英国统计学家 Karl Pearson对上千个家庭的身高、臂长、拃长(伸开大拇指与中指两端的最大长度)做了测量,发现:
儿子身高(Y,英寸)与父亲身高(X,英寸)存在线性关系: 。 也即高个子父代的子代在成年之后的身高平均来说不是更高,而是稍矮于其父代水平,而矮个子父代的子代的平均身高不是更矮,而是稍高于其父代水平。Galton将这种趋向于种族稳定的现象称之“回归”
“回归”已成为表示变量之间某种数量依存关系的统计学术语,相关并且衍生出“回归方程”“回归系数”等统计学概念。如研究糖尿病人血糖与其胰岛素水平的关系,研究儿童年龄与体重的关系等。“回归”已成为表示变量之间某种数量依存关系的统计学术语,相关并且衍生出“回归方程”“回归系数”等统计学概念。如研究糖尿病人血糖与其胰岛素水平的关系,研究儿童年龄与体重的关系等。
直线回归的概念 目的:研究应变量Y对自变量X的数量依 存关系。 特点:统计关系。 X值和Y的均数的关系, 不同于一般数学上的X 和Y的函数关系
为了直观地说明直线回归的概念,以15名健康人凝血酶浓度(X)与凝血时间(Y)数据(表12-1)进行回归分析,得到图12-1所示散点图(scatter plot)
在定量描述健康人凝血酶浓度(X)与凝血时间(Y)数据的数量上的依存关系时,将凝血酶浓度称为自变量(independent variable),用 X 表示;凝血时间称为应变量(dependent variable),用 Y 表示
由图12-1可见,凝血时间随凝血酶浓度的增加而减低且呈直线趋势,但并非所有点子恰好全都在一直线上,此与两变量间严格的直线函数关系不同,称为直线回归(linear regression),其方程叫直线回归方程,以区别严格意义的直线方程。回归是回归分析中最基本、最简单的一种,故又称简单回归。
简单线性回归模型 样本线回归方程 为各X处Y的总体均数的估计。
1.a 为回归直线在 Y轴上的截距 • a > 0,表示直线与纵轴的交点在原点的上方 • a < 0,则交点在原点的下方 • a = 0,则回归直线通过原点
2. b为回归系数,即直线的斜率 • b>0,直线从左下方走向右上方,Y 随 X 增大而增大; • b<0,直线从左上方走向右下方,Y 随 X 增大而减小; • b=0,表示直线与 X 轴平行,X 与Y 无直线关系 b 的统计学意义是:X每增加(减)一个单位,Y平均改变b个单位
回归模型的前提假设 • 线性回归模型的前提条件是: 线性(linear) 独立(independent) 正态(normal) 等方差(equal variance)
回归参数的估计——最小二乘原则 • 残差(residual)或剩余值,即实测值Y与假定回归线上的估计值 的纵向距离 。 • 求解a、b实际上就是“合理地”找到一条能最好地代表数据点分布趋势的直线。 原则:最小二乘法(least sum of squares),即可保证各实测点至直线的纵向距离的平方和最小
3、计算有关指标的值 4、计算回归系数和截距 5、列出回归方程
绘制回归直线 此直线必然通过点( , )且与纵坐标轴相交于截距a 。如果散点图没有从坐标系原点开始,可在自变量实测范围内远端取易于读数的 值代入回归方程得到一个点的坐标,连接此点与点( , )也可绘出回归直线。
总体回归系数β的的统计推断 样本回归系数b的标准误
回归方程的假设检验 建立样本直线回归方程,只是完成了统计分析中两变量关系的统计描述,研究者还须回答它所来自的总体的直线回归关系是否确实存在,即是否对总体有 ?
残差 Y的离均差,总变异 回归的变异
上式用符号表示为 式中
上述三个平方和,各有其相应的自由度 ,并有如下的关系:
如果两变量间总体回归关系确实存在,回归的贡献就要大于随机误差,大到何种程度时可以认为具有统计意义,可计算统计量F:如果两变量间总体回归关系确实存在,回归的贡献就要大于随机误差,大到何种程度时可以认为具有统计意义,可计算统计量F:
检验例12-1数据得到的直线回归方程是否成立?检验例12-1数据得到的直线回归方程是否成立?
(2)t 检验 参数β的意义是:若自变量X增加一个单位,反应变量Y的平均值便增加β
总体回归系数 的可信区间 利用上述对回归系数的t检验,可以得到β的1-α双侧可信区间为
本例b=-6.9802, 自由度=13,t0.05,13=2.16,Sb=0.78655, 代入公式(12-7)得参数β的95%置信区间为 =(-8.6791 ~ -5.2813)