640 likes | 701 Views
第六章 地理系统的聚类分析与判别分析. 第一节 地理系统的聚类分析. 聚类分析方法 : 是定量地研究地理事物分类问题和地理分区问题的重要方法。常见的聚类分析方法有系统聚类法、动态聚类法和模糊聚类法等。. 一 . 聚类分析的数据处理. 当分类要素的对象确定之后,在进行聚类分析之前,首先要对聚类要素进行数据处理。 假设有 m 个聚类的对象,每一个聚类对象都有 n 个要素构成。它们所对应的要素数据可用下表给出。. 在聚类分析中,常用的聚类要素的数据处理方法有如下几种 :. ① 总和标准化。分别求出各聚类要素所对应的数据的总和,以各要素的数据除以该要素的数据的总和,即
E N D
第一节 地理系统的聚类分析 聚类分析方法: 是定量地研究地理事物分类问题和地理分区问题的重要方法。常见的聚类分析方法有系统聚类法、动态聚类法和模糊聚类法等。
一. 聚类分析的数据处理 • 当分类要素的对象确定之后,在进行聚类分析之前,首先要对聚类要素进行数据处理。假设有m个聚类的对象,每一个聚类对象都有n个要素构成。它们所对应的要素数据可用下表给出。
在聚类分析中,常用的聚类要素的数据处理方法有如下几种:在聚类分析中,常用的聚类要素的数据处理方法有如下几种: ①总和标准化。分别求出各聚类要素所对应的数据的总和,以各要素的数据除以该要素的数据的总和,即 这种标准化方法所得到的新数据满足
②标准差标准化,即 由这种标准化方法所得到的新数据,各要素的平均值为0,标准差为1,即有
③极大值标准化,即 经过这种标准化所得的新数据,各要素的极大值为1,其余各数值小于1。
④极差的标准化,即 经过这种标准化所得的新数据,各要素的极大值为1,极小值为0,其余的数值均在0与1之间。
例:下表给出了某地区九个农业区的七项指标,它们经过极差标准化处理后,如表3.4.3所示.例:下表给出了某地区九个农业区的七项指标,它们经过极差标准化处理后,如表3.4.3所示. 表3.4.2 某地区九个农业区的七项经济指标数据
二.聚类分析的统计量 (一) 相似系数 相似系数是描述地理数据之间相似程度的一种指标. 1.夹角余弦(cosθ) 设有n个地点,每个地点有m个特征值,如把每个地点的特征值看作是多维空间的一个向量,则两个地点之间的相似程度可用两个向量间夹角的余弦来表示,即:
(二) 距离系数 距离:是事物之间差异性的测度,是系统聚类分析的依据。 常见的距离有 : ① 绝对值距离 ② 欧氏距离 ③ 明科夫斯基距离
④ 切比雪夫距离。当明科夫斯基距 时,有
1.直接聚类法 三.地理系统的聚类方法 • 过程: 先把各个分类对象单独视为一类,然后根据距离最小的原则,依次选出一对分类对象,并成新类。如果其中一个分类对象已归于一类,则把另一个也归入该类;如果一对分类对象正好属于已归的两类,则把这两类并为一类。每一次归并,都划去该对象所在的列与列序相同的行。经过m-1次就可以把全部分类对象归为一类,这样就可以根据归并的先后顺序作出聚类谱系图。
2. 最短距离聚类法 • 定义:最短距离聚类法,是在原来的m×m距离矩阵的非对角元素中找出最短距离dpq,把分类对象Gp和Gq归并为一新类Gr,然后按计算公式 计算原来各类与新类之间的距离,这样就得到一个新的(m-1)阶的距离矩阵;再从新的距离矩阵中选出最小者dij,把Gi和Gj归并成新类;再计算各类与新类的距离,这样一直下去,直至各分类对象被归为一类为止。
步骤: 1.确定计算距离方法,计算出各地点(样品)间距离,列出初始距离矩阵D(0)表,其中每个元素都自成一类,这时Dpq=dpq. 2.在初始距离矩阵D(0)中,选出最短距离,即最小元素Dpq,将Gp类和Gq类合并成一新类Gr, 再计算新类Gr与其它各类间的距离Drk.
3.将D(0)中第p,q行和p,q列删去,加上第r行和第r列.3.将D(0)中第p,q行和p,q列删去,加上第r行和第r列. 4.对D(1)表,按第2,3步方法重复计算,直到所有样品并为一类为止.
例:以我国新疆地区6个地点和4个指标为例,用最短距离法进行聚类分析.例:以我国新疆地区6个地点和4个指标为例,用最短距离法进行聚类分析. 第一步,将原始数据经标准化处理后,以欧氏距离作为分类统计量,得初始距离矩阵D(0),如下表所示.
第二步,在D(0)中,最小元素为D12=0.375,将G1与G2合并成一新类G7, ,然后再计算新类G7与其它各类间的距离.
第三步,作D(1)表.先从D(0)表中删去G1类和G2类所在的行和列中的元素,然后把新计算出来的 G7与其它类间的距离D7,3,D7,4,D7,5填到D(0)中,即成D(1)表.
第四步,在D(1)表中,最小元素为D37=0.483,再将G3与G7合成一新类G8, ,然后再计算新类G8与其它类间的距离.
第五步,作D(2)表.先从D(1)表中删去G3类和G7类所在行与列中的元素,再把新计算出来的D8,4,D8,5和D8,6的值填到D(1)中,即成D(2)表.第五步,作D(2)表.先从D(1)表中删去G3类和G7类所在行与列中的元素,再把新计算出来的D8,4,D8,5和D8,6的值填到D(1)中,即成D(2)表.
第六步,在D(2)表中,最小元素为D45=0.501,再将G4和G5合成一新类G9, ,然后再计算新类G9与其它类间的距离
第七步,作D(3)表,先从D(2)表中删去G4类和G5类所在的行与列中的元素,再把新计算出来的D9,6和D9,8的值填到D(2)中,即成D(3)表.第七步,作D(3)表,先从D(2)表中删去G4类和G5类所在的行与列中的元素,再把新计算出来的D9,6和D9,8的值填到D(2)中,即成D(3)表.
第八步,在D(3)表中,最小元素为D69=0.589,再将G6和G9合成一新类G10, ,然后再计算G10与其它类间的距离
第九步,作D(4)表,先从D(3)表中删去G6类和G9类所在行列中的元素,再把新计算出来的D10,8的值填到D(3)中,即成D(4)表.第九步,作D(4)表,先从D(3)表中删去G6类和G9类所在行列中的元素,再把新计算出来的D10,8的值填到D(3)中,即成D(4)表. 由此表可知,G8类与G10类最后合成一类为G11类,计算过程结束.
第十步,将上述计算结果整理成联结表,然后再绘成聚类图.第十步,将上述计算结果整理成联结表,然后再绘成聚类图. 联结表
由图中可知,新疆地区6个站点可分为两大类:一类为准噶尔盆地类,一类为塔里木盆地类.在准噶尔盆地类中,又分为两个小型:一为哈巴河-阿勒泰型,一为克拉玛依型.在塔里木盆地中,也分为两个小型:一为巴楚-莎车型,一为于田型.这种聚类方式符合该区实际情况.由图中可知,新疆地区6个站点可分为两大类:一类为准噶尔盆地类,一类为塔里木盆地类.在准噶尔盆地类中,又分为两个小型:一为哈巴河-阿勒泰型,一为克拉玛依型.在塔里木盆地中,也分为两个小型:一为巴楚-莎车型,一为于田型.这种聚类方式符合该区实际情况.
3. 最远距离聚类法 • 公式: • 例:对于前面的例子,最远距离聚类法的聚类过程如下: ① 在9×9阶距离矩阵中,非对角元素中最小者是d94=0.51,故首先将第4区与第9区并为一类,记为G10,即G10={G4,G9}。按照公式(3.3.11)分别计算G1,G2,G3,G5,G6,G7,G8与G10之间的距离,得到一个新的8×8阶距离矩阵:
③在第二步中所得到的7×7阶距离矩阵中,非对角线元素中最小者为d28=0.88,故将G2与G8归并为一类,记为G12,即G12={G2,G8}。再按照公式分别计算G1,G3,G6,G10,G11与G12之间的距离,得到一个新的6×6阶距离矩阵如下:③在第二步中所得到的7×7阶距离矩阵中,非对角线元素中最小者为d28=0.88,故将G2与G8归并为一类,记为G12,即G12={G2,G8}。再按照公式分别计算G1,G3,G6,G10,G11与G12之间的距离,得到一个新的6×6阶距离矩阵如下:
④在第三步中所得的6×6阶距离矩阵中,非对角元素中最小者为d3,10=1.23,故将G3与G10归并为一类,记为G13,即G13={G3,G10}={G3,(G4,G9)}。再按照公式计算G1,G6,G11,G12与G13之间的距离,得到一个新的5×5阶距离矩阵如下:④在第三步中所得的6×6阶距离矩阵中,非对角元素中最小者为d3,10=1.23,故将G3与G10归并为一类,记为G13,即G13={G3,G10}={G3,(G4,G9)}。再按照公式计算G1,G6,G11,G12与G13之间的距离,得到一个新的5×5阶距离矩阵如下:
G1 G2 G8 G3 G4 G9 G5 G7 G6 图3.4.3 最远距离聚类谱系图 ⑧将G15与G16归并为一类。此时,各个分类对象均已归并为一类。 综合上述聚类过程,可以作出最远距离聚类谱系图。
最短距离 a1 b1 A B a2 b2 最远距离 图3.4.4 两种不同的空间距离 四. 系统聚类法距离公式的统一表达 • 最短距离和最远距离:可以用一个公式表示--- 用下图表示二者关系:
当α、β、γ三个参数取不同的值时,就形成了不同的聚类方法.当α、β、γ三个参数取不同的值时,就形成了不同的聚类方法. • 系统聚类其他方法的公式 :
五. 系统聚类分析实例 对中国大陆31个省级区域第三产业综合发展水平进行类型划分及差异性程度分析--- • 聚类指标选择 (选取如下7项指标) ① y1——人均GDP,它反映了经济社会发展的总体状况和一般水平; ②y2——人均第三产业增加值,它反映了人均服务产品占有量或服务密度; ③y3——第二产业增加值比重,它反映了工业化水平和产业结构现代化程度;
④y4——第三产业增加值比重,它反映了第三产业的发展程度及其对国民经济的贡献;④y4——第三产业增加值比重,它反映了第三产业的发展程度及其对国民经济的贡献; • y5——第三产业从业人员比重,它反映了第三产业对劳动力的吸纳能力; ⑥y6——第三产业固定资产投资比重,它反映了第三产业的资金投入程度; ⑦y7——城市化水平,它反映了农村人口转化为城市人口的程度及对服务的需求量。
聚类计算(计算过程 ) ①用标准差标准化方法对7项指标的原始数据进行处理。 ② 采用欧氏距离测度31个省(市、区)之间的样本间距离。 ③ 选用组平均法计算类间的距离,并对样本进行归类。 经过上述聚类计算步骤,得到的聚类结果见下图.
样本 Num +---------+---------+---------+---------+---------+ 安徽 12 河南 16 甘肃 28 四川 23 贵州 24 河北 3 山东 15 山西 4 湖北 17 重庆 22 陕西 27 宁夏 30 江西 14 湖南 18 广西 20 云南 25 江苏 10 浙江 11 广东 19 福建 13 辽宁 6 黑龙江 8 吉林 7 新疆 31 内蒙古 5 青海 29 海南 21 西藏 26 北京 1 上海 9 天津 2 图3.4.5 中国31个省级区域第三产业发展水平组平均聚类谱系图
聚类结果分析 当类间距离取为4.0和2.5时,全国各省份被合并成以下几类: ① 上海、北京、天津3直辖市为一类,而上海和北京更接近; ② 西藏、海南为一特殊类;青海、内蒙古、新疆、吉林为一类,其中内蒙古、新疆、吉林合并为一亚类; • 江苏、浙江、广东、福建、辽宁、黑龙江为一类,其中江苏、浙江、广东合并为一亚类; ④ 重庆、陕西、宁夏、江西、湖南、广西为一类,其中重庆、陕西、宁夏和江西、湖南、广西各自为一亚类,云南为一孤立点; ⑤ 河北、山东、山西、湖北为一类; ⑥ 安徽、河南、甘肃、四川、贵州为一类。
第二节 地理系统的判别分析 判别分析与聚类分析的异同: 相同点:都能确定地理类型; 不同点:判别分析兼有判别和分类的两种性质,大以判别为主,判别分析必须事先已知类型为前提;而聚类分析则不必事先已知类型,类型的划分是聚类的结果.
一.判别分析的基本原理 (一)判别分析的作用: 1.对已分好的类型进行合理性检验; 2.判别某地地理类型的归属问题和确定区域界线; 3.评价各要素特征值在判别分析中贡献率的大小.
(二)判别分析的准则: 1.费歇准则 2.贝叶斯准则 (三)判别分析的基本原理 1.两类判别 2.多类判别 3.逐步判别
二.两类地理判别分析 现以我国新疆地区塔城与莎车两地的大风日数和沙暴日数为例,来说明两类判别分析的具体步骤. 1.推求判别函数式 第一步,将原始数据列表,计算各变量(指标)在其组内的累加和、均值和各变量组间的平均数之差,求解出判别函数中的判别系数ck.