1.24k likes | 1.36k Views
第五章 地理系统要素间的统计分析方法. 相关分析 回归分析 趋势面分析 逐步回归分析. 第一节 地理要素间的相关分析. 一 . 变量间的关系 —— 函数关系与统计关系 1. 函数关系 是一种确定性的关系,即一个变数的任一变量必受另一变数的一个确定的数值相对应。(如圆周定律). 2 、 统计关系 是一种非确定性的关系,即一个变数的取值受到另一变数的影响,两者之间既有关系,但又不存在完全确定的函数关系。(如身高和体重). 3 、自变量和因变量 因果关系:原因变量为自变量 , 以 X 表示;
E N D
第五章 地理系统要素间的统计分析方法 • 相关分析 • 回归分析 • 趋势面分析 • 逐步回归分析
第一节 地理要素间的相关分析 一.变量间的关系 ——函数关系与统计关系 1.函数关系 是一种确定性的关系,即一个变数的任一变量必受另一变数的一个确定的数值相对应。(如圆周定律)
2、统计关系 是一种非确定性的关系,即一个变数的取值受到另一变数的影响,两者之间既有关系,但又不存在完全确定的函数关系。(如身高和体重)
3、自变量和因变量 因果关系:原因变量为自变量,以X表示; 结果变量为因变量,以Y表示。
相关关系: 如果两个变数并不是原因和结果的关系, 而呈现一种共同变化的特点, 则称这两个变数间存在相关关系。
二. 地理相关的意义 1.相关:两个或两个以上变数间相互关系是否密切。 2.地理相关:应用相关分析方法研究要素间的相互关系和联系强度的一种度量指标。
3.相关的种类 (1)完全相关:因变量严格地随自变量的变化而变化,叫完全相关,也称函数关系。 (2)统计相关:因变量与自变量之间是统计关系 (3)零相关:因变量与自变量之间无规律可循.
三. 地理相关程度的度量方法 (一) 简单直线相关程度的度量 1.一般常用的相关系数(r)计算公式 (1)定义 (5-1) 和 为两要素的平均值
(2)性质 • r<=1且r >=-1。r范围[-1,1] • 大于0时正相关,小于0时负相关。 • r 的绝对值越接近于1,两要素的关系越密切;越接近于0,两要素的关系越不密切。 • r=+1时,完全正相关,r=-1时,完全负相关,r=0,完全无关。
(3)简化 令 公式5.1可简化为
(二)多要素的相关系数矩阵 ---(多个要素两两之间的相关系数) 说明:1. rii=1(i=1,2,…,n); 2. rij= rji(i,j=1,2,...,n).
四.相关系数的显著性检验 步骤: ① 计算相关系数 ② 是在给定的置信水平下,查相关系数检验的临界值表 ③ 比较计算结果和查询的结果 ④ 得出结论 (附:表七给出了相关系数真值ρ=0(即两要素不相关)时样本相关系数的部分临界值rα.)
在上表中,f称为自由度,为f=n-2,n为样本数;上方的A代表不同的置信水平;数值代表不同的置信水平下相关系数的临界值。在上表中,f称为自由度,为f=n-2,n为样本数;上方的A代表不同的置信水平;数值代表不同的置信水平下相关系数的临界值。
例:中国1952~1999年期间的国内总产值(GDP)及其各次产业构成数据如下表所示。试计算GDP与各次产业之间的相关系数。例:中国1952~1999年期间的国内总产值(GDP)及其各次产业构成数据如下表所示。试计算GDP与各次产业之间的相关系数。
解题步骤: ① 将表3.1.1中的数据代入公式(3.1.1)或者(3.1.2)计算,可以得到国内生产总值(GDP)与第一、二、三产业之间的相关系数分别为0.9954,0.9994,0.9989。
② 计算国内生产总值及一、二、三产业之间的相关系数矩阵:
③ 相关系数检验 f=48-2=46,表中没有给出相应的样本数下的临界值,但是在同一显著水平下,随着样本数的增大,临界值减少。 在f=45时,查表得:r0.1=0.2428,r0.05=0.2875,r0.02=0.3384,r0.01=0.3721,r0.001=0.4648。
显然,所有的相关系数均大于r0.001=0.4648,这说明国内生产总值与第一、二、三产业之间不相关的概率只有0.001,即它们之间同向相关的概率高达1-0.001 =0.999,即99.9%.
第二节 地理要素间的回归分析 回归分析的意义和作用: 1.用函数关系来表达相关关系。 2.回归分析是处理变量之间相互关系的一种数理统计方法。
回归分析与相关分析的联系与区别: 联系: 二者都是研究和处理变量之间相互关系的一种数理统计方法 区别: 1.相关分析主要是研究要素(变量)之间联系的密切程度,并没有严格的自变量与因变量之分;而回归分析则主要是研究要素(变量)之间联系的数学表达形式,因而就有自变量与因变量之分. 2.相关分析中所涉及的变量与全是随机变量,而回归分析中因变量是随机变量,自变量可以是随机变量,也可以是非随机的确定变量.通常的回归模型中,我们总是假定是非随机的固定变量. 3.回归分析可由自变量的取值来预测,延长或插补和控制因变量的取值,所以回归分析尚有地理预测的性质.
一.一元线性回归模型 • 定义:假设有两个地理要素(变量)x和y,x为自变量,y为因变量。则一元线性回归模型的基本结构形式为 或 (记 和 分别为参数a与b的拟合值) 1.参数a、b的最小二乘估计 (5-4) (5-5)
①参数a与b的最小二乘拟合原则要求yi与 的误差ei的平方和达到最小,即 ②根据取极值的必要条件,有 即:
③解上述正规方程组,得到参数a与b的拟合值:③解上述正规方程组,得到参数a与b的拟合值:
2.显著性检验 ①方法:F检验法。 ②总的离差平方和:在回归分析中,表示y的n次观测值之间的差异,记为 可以证明 上式中,Q称为误差平方和,或剩余平方和,而 称为回归平方和。
③统计量F ④ F越大,模型的效果越佳。统计量F~F(1,n-2)。在显著水平a下,若F>Fα,则认为回归方程效果在此水平下显著。一般地,当F<F0.10(1,n-2)时,则认为方程效果不明显。
例:中国1952~1999年期间的国内总产值(GDP)及其各次产业构成数据如表所示。试计算GDP与各次产业之间的相关系数并建立回归模型。例:中国1952~1999年期间的国内总产值(GDP)及其各次产业构成数据如表所示。试计算GDP与各次产业之间的相关系数并建立回归模型。
课堂练习: 某种疾病盛发期的早迟和春季温度高低有关。某地连续9年测定3月下旬至4月中旬旬平均温度累积值(x,旬.度)和疾病盛发期(y,以5月10日为0)的关系,得结果于下表。试计算其直线回归方程。
二.一元非线性地理回归模型 1.幂函数型 两个地理要素(变量)之间的幂函数表达式为 ,可以将其转化为直线形式
例如,长白山北麓熔岩台地地貌形态的变化,如下表,即呈幂函数曲线形.例如,长白山北麓熔岩台地地貌形态的变化,如下表,即呈幂函数曲线形.
2.指数函数型 两个地理要素(变量)之间的指数函数表达式为 ,可以将其转化为直线形式
例如,长白山北坡地形高度对年降水量的影响,即按指数率递增,见下表和下图.例如,长白山北坡地形高度对年降水量的影响,即按指数率递增,见下表和下图.
3.对数函数型 两个地理要素(变量)之间的对数函数表达式为 ,可以将其转化为直线形式