1.35k likes | 1.62k Views
平均数. 标准差. 方差分析. 多重比较. 集中点. 离散程度. 差异显著性. 一个变量 (产量). 品种. 施肥量. 播种密度. 在实际研究中,事物之间的相互关系涉及 两个或两个 以上的变量,只要其中的一个变量变动了,另一个变量也会跟着发生变动,这种关系称为 协变关系 ,具有协变关系的变量称为 协变量 。. 协 变 量. S = π r 2 圆的面积. PV =R T 气体压强. S = a b 长方形面积. 确定的函数关系. 协 变 量. 施肥量与产量. 温度与幼虫孵化. 人类的年龄与血压. 身高与胸围、体重.
E N D
平均数 标准差 方差分析 多重比较 集中点 离散程度 差异显著性 一个变量 (产量) 品种 施肥量 播种密度
在实际研究中,事物之间的相互关系涉及两个或两个以上的变量,只要其中的一个变量变动了,另一个变量也会跟着发生变动,这种关系称为协变关系,具有协变关系的变量称为协变量。在实际研究中,事物之间的相互关系涉及两个或两个以上的变量,只要其中的一个变量变动了,另一个变量也会跟着发生变动,这种关系称为协变关系,具有协变关系的变量称为协变量。
协 变 量 S=πr2 圆的面积 PV=RT 气体压强 S=a b 长方形面积 确定的函数关系
协 变 量 施肥量与产量 温度与幼虫孵化 人类的年龄与血压 身高与胸围、体重 溶液的浓度与OD值 不完全确定的函数关系 (相关关系)
一个变量的变化受另一个变量或几个变量的制约一个变量的变化受另一个变量或几个变量的制约 相 关 变 量 因果关系 动物的生长速度受遗传、营养等影响 子女的身高受父母身高的影响 两个以上变量之间共同受到另外因素的影响 平行关系 人的身高和体重之间的关系 兄弟身高之间的关系
为了确定相关变量之间的关系,首先应该收集一些数据,这些数据应该是成对的,然后在直角坐标系上描述这些点,这一组点集称为散点图。为了确定相关变量之间的关系,首先应该收集一些数据,这些数据应该是成对的,然后在直角坐标系上描述这些点,这一组点集称为散点图。 散点图(scatter diagram)
为了研究父亲与成年儿子身高之间的关系,卡尔.皮尔逊测量了1078对父子的身高。把1078对数字表示在坐标上,如图。用水平轴X上的数代表父亲身高,垂直轴Y上的数代表儿子的身高,1078个点所形成的图形是一个散点图。它的形状象一块橄榄状的云,中间的点密集,边沿的点稀少,其主要部分是一个椭圆。为了研究父亲与成年儿子身高之间的关系,卡尔.皮尔逊测量了1078对父子的身高。把1078对数字表示在坐标上,如图。用水平轴X上的数代表父亲身高,垂直轴Y上的数代表儿子的身高,1078个点所形成的图形是一个散点图。它的形状象一块橄榄状的云,中间的点密集,边沿的点稀少,其主要部分是一个椭圆。
散点图(scatter diagram) 两个变量间关系的性质(正向协同变化或负向协同变化)和程度(关系是否密切) 两个变量间关系的类型(直线型或曲线型) 是否有异常观测值的干扰
4 3 2 1 4 3 2 1 4 3 2 1 1 2 3 4 5 6 1 2 3 4 5 6 1 2 3 4 5 6 正向直线关系 负向直线关系 曲线关系 定性研究
定量研究 回归(regerssion) 相关(correlation)
曲线 变量 直线型 直线型 非直线型 二元 二元 多元
第九章 直线相关与回归分析
直线回归与相关分析 第九章 回归与相关的概念 第一节 直线回归 第二节 直线相关 第三节
第一节:回归与相关的概念 一个变量的变化受另一个变量或几个变量的制约 相 关 变 量 因果关系 回归分析(regression analysis) 两个以上变量之间共同受到另外因素的影响 平行关系 相关分析(correlation analysis)
在生物学中,研究两个变量间的关系,主要是为了探求两变量的内在联系,或从一个变量X(可以是随机变量,也可以是一般的变量),去推测另一个随机变量Y。在生物学中,研究两个变量间的关系,主要是为了探求两变量的内在联系,或从一个变量X(可以是随机变量,也可以是一般的变量),去推测另一个随机变量Y。
因果关系 一个变量的变化受另一个变量或几个变量的制约 x y 施肥量 (可以严格地人为控制) 产量 自变量(independent variable) 因变量(dependent variable) 如果对x的每一个可能的值,都有随机变量y的一个分布相对应,则称随机变量y对变量x存在回归(regression)关系。
相关关系 X身高 Y体重 在大量测量各种身高人群的体重时会发现,虽然在同样身高下,体重并不完全一样。但在每一身高下,都有一个确定的体重分布与之相对应; X体重 Y身高 在大量测量各种体重人群的身高时会发现,虽然在同样体重下,身高并不完全一样。但在每一体重下,都有一个确定的身高分布与之相对应; 身高与体重之间存在相关关系。
第二节:直线回归 Linear Regression 简单回归(Simple Regression) 一、直线回归方程的建立 二、直线回归的数学模型和基本假定 三、直线回归的假设检验 四、直线回归的区间估计
一、直线回归方程的建立 直线回归就是用来描述一个变量如何依赖于另一个变量 温度 天数
^ Y=a+bx 直线回归方程(linear regression equation) 自变量 斜率(slope) 回归系数(regerssion coefficient) 截距(intercept) 回归截距 与x值相对应的依变量y的点估计值
y 0 x b=0 a>0,b>0 a=0 a>0,b<0 a<0,b>0
X Y 平均温度(℃) 历期天数(d ) 11.8 30.1 14.7 17.3 15.6 16.7 16.8 13.6 17.1 11.9 18.8 10.7 19.5 8.3 20.4 6.7 变量1 温度 变量2 天数 收集数据 散点图
40 30 20 天数(天) 10 0 10 12 14 16 18 20 22 (℃) 温度 黏虫孵化历期平均温度与历期天数关系图
回归直线在平面坐标系中的位置取决于a,b的取值。回归直线在平面坐标系中的位置取决于a,b的取值。 y 最小二乘法 (method of least square) 最小
基本性质 为最小值
X Y 平均温度(℃) 历期天数(d ) 11.8 30.1 14.7 17.3 15.6 16.7 16.8 13.6 17.1 11.9 18.8 10.7 19.5 8.3 20.4 6.7
40 30 天数(天) 20 10 0 10 12 14 16 18 20 22 (℃) 温度 11.8-----20.4 用x估计y,存在随机误差,必须根据回归的数学模型对随机误差进行估计,并对回归方程进行检验。 y 误差
二、数学模型和基本假定 y的总体平均数 y 因x引起y的变异 y的随机误差
直线回归的数学模型 (model of linear regression) 总体回归截踞 总体回归系数 随机误差
基本假定 y x是没有误差的固定变量,或其误差可以忽略,而y是随机变量,且有随机误差。 x是的任一值对应着一个y总体,且作正态分布,其平均数μ=α+βx,方差受偶然因素的影响,不因x的变化而改变。 随机误差ε是相互独立的,呈正态分布。
三、直线回归的假设检验 ? 有意义 指导实践 是否真正存在线性关系 回归关系是否显著
一、直线回归的变异来源 y=a+bx y-y y-y y-y y-y y (x,y) 实际值与估计值之差,剩余或残差。 估计值与均值之差,它与回归系数的大小有关。
(三)t检验 检验线性回归系数的显著性,采用t检验法进行。 检验样本回归系数b是否来自β=0的双变量总体,以推断线性回归的显著性。 H0:β=0 HA:β≠0 假 设
依变量 y的平方和,总平方和,SSy,SS总 离回归平方和 Q 回归平方和 U
y的离均差,反映了y的总变异程度,称为y的总平方和。y的离均差,反映了y的总变异程度,称为y的总平方和。 说明未考虑x与y的回归关系时y的变异。
回归平方和 (regression sum of squares) U 反映了由于y与x间存在直线关系所引起的y的变异程度,因x的变异引起y变异的平方和,称为回归平方和。 它反映在y的总变异中由于x与y的直线关系,而使y变异减小的部分,在总平方和中可以用x解释的部分。 U值大,说明回归效果好。
离回归平方和 误差平方和,剩余平方和 (residual sum of squares) Q 误差因素引起的平方和,反映了除去x与y的直线回归关系以外的其余因素使y引起变化的大小。 反映x对y的线性影响之外的一切因素对y的变异的作用,也就是在总平方和中无法用x解释的部分。 在散点图上,各实测点离回归直线越近,Q值越小,说明直线回归的估计误差越小。
依变量 y的平方和,总平方和,SSy,SS总 回归平方和 U 离回归平方和 Q
直线回归分析中,回归自由度等于自变量的个数,只涉及到1个自变量直线回归分析中,回归自由度等于自变量的个数,只涉及到1个自变量 df回归=1 df总=n-1 df离回归=n-2
离回归方差 Q/n-2 离回归标准差 回归估计标准误 剩余标准差
总体回归截踞 总体回归系数 随机误差 α:它是y的本底水平,即x对y没有任何作用时,y的数量表现。 βx:它描述了因变量y的取值改变中,由y与自变量x的线性关系所引起的部分,即可以由x直接估计的部分。 误差:它描述了因变量y的取值改变由x以外的可能与y有关的随机和非随机因素共同引起的部分,即不能由x直接估计的部分。
总体回归截踞 总体回归系数 随机误差 两个变量是否存在线性关系,可采用F检验法进行。 若x与y间不存在直线关系,则总体回归系数β=0; 若x与y间存在直线关系,则总体回归系数β≠0
H0:两变量间无线性关系 HA:两变量间有线性关系 假 设 在无效假设存在下,回归方差与离回归方差的比值服从F分布。 df1= 1 df2= n-2