1 / 64

第六章 地理系统的聚类分析与判别分析

第六章 地理系统的聚类分析与判别分析. 第一节 地理系统的聚类分析. 聚类分析方法 : 是定量地研究地理事物分类问题和地理分区问题的重要方法。常见的聚类分析方法有系统聚类法、动态聚类法和模糊聚类法等。. 一 . 聚类分析的数据处理. 当分类要素的对象确定之后,在进行聚类分析之前,首先要对聚类要素进行数据处理。 假设有 m 个聚类的对象,每一个聚类对象都有 n 个要素构成。它们所对应的要素数据可用下表给出。. 在聚类分析中,常用的聚类要素的数据处理方法有如下几种 :. ① 总和标准化。分别求出各聚类要素所对应的数据的总和,以各要素的数据除以该要素的数据的总和,即

Download Presentation

第六章 地理系统的聚类分析与判别分析

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 第六章 地理系统的聚类分析与判别分析

  2. 第一节 地理系统的聚类分析 聚类分析方法: 是定量地研究地理事物分类问题和地理分区问题的重要方法。常见的聚类分析方法有系统聚类法、动态聚类法和模糊聚类法等。

  3. 一. 聚类分析的数据处理 • 当分类要素的对象确定之后,在进行聚类分析之前,首先要对聚类要素进行数据处理。假设有m个聚类的对象,每一个聚类对象都有n个要素构成。它们所对应的要素数据可用下表给出。

  4. 在聚类分析中,常用的聚类要素的数据处理方法有如下几种:在聚类分析中,常用的聚类要素的数据处理方法有如下几种: ①总和标准化。分别求出各聚类要素所对应的数据的总和,以各要素的数据除以该要素的数据的总和,即 这种标准化方法所得到的新数据满足

  5. ②标准差标准化,即 由这种标准化方法所得到的新数据,各要素的平均值为0,标准差为1,即有

  6. ③极大值标准化,即 经过这种标准化所得的新数据,各要素的极大值为1,其余各数值小于1。

  7. ④极差的标准化,即 经过这种标准化所得的新数据,各要素的极大值为1,极小值为0,其余的数值均在0与1之间。

  8. 例:下表给出了某地区九个农业区的七项指标,它们经过极差标准化处理后,如表3.4.3所示.例:下表给出了某地区九个农业区的七项指标,它们经过极差标准化处理后,如表3.4.3所示. 表3.4.2 某地区九个农业区的七项经济指标数据

  9. 表3.4.3 极差标准化处理后的数据

  10. 二.聚类分析的统计量 (一) 相似系数 相似系数是描述地理数据之间相似程度的一种指标. 1.夹角余弦(cosθ) 设有n个地点,每个地点有m个特征值,如把每个地点的特征值看作是多维空间的一个向量,则两个地点之间的相似程度可用两个向量间夹角的余弦来表示,即:

  11. 2.相关系数(r)

  12. (二) 距离系数 距离:是事物之间差异性的测度,是系统聚类分析的依据。 常见的距离有 : ① 绝对值距离 ② 欧氏距离 ③ 明科夫斯基距离

  13. ④ 切比雪夫距离。当明科夫斯基距 时,有

  14. 1.直接聚类法 三.地理系统的聚类方法 • 过程: 先把各个分类对象单独视为一类,然后根据距离最小的原则,依次选出一对分类对象,并成新类。如果其中一个分类对象已归于一类,则把另一个也归入该类;如果一对分类对象正好属于已归的两类,则把这两类并为一类。每一次归并,都划去该对象所在的列与列序相同的行。经过m-1次就可以把全部分类对象归为一类,这样就可以根据归并的先后顺序作出聚类谱系图。

  15. 2. 最短距离聚类法 • 定义:最短距离聚类法,是在原来的m×m距离矩阵的非对角元素中找出最短距离dpq,把分类对象Gp和Gq归并为一新类Gr,然后按计算公式 计算原来各类与新类之间的距离,这样就得到一个新的(m-1)阶的距离矩阵;再从新的距离矩阵中选出最小者dij,把Gi和Gj归并成新类;再计算各类与新类的距离,这样一直下去,直至各分类对象被归为一类为止。

  16. 步骤: 1.确定计算距离方法,计算出各地点(样品)间距离,列出初始距离矩阵D(0)表,其中每个元素都自成一类,这时Dpq=dpq. 2.在初始距离矩阵D(0)中,选出最短距离,即最小元素Dpq,将Gp类和Gq类合并成一新类Gr, 再计算新类Gr与其它各类间的距离Drk.

  17. 3.将D(0)中第p,q行和p,q列删去,加上第r行和第r列.3.将D(0)中第p,q行和p,q列删去,加上第r行和第r列. 4.对D(1)表,按第2,3步方法重复计算,直到所有样品并为一类为止.

  18. 例:以我国新疆地区6个地点和4个指标为例,用最短距离法进行聚类分析.例:以我国新疆地区6个地点和4个指标为例,用最短距离法进行聚类分析. 第一步,将原始数据经标准化处理后,以欧氏距离作为分类统计量,得初始距离矩阵D(0),如下表所示.

  19. 第二步,在D(0)中,最小元素为D12=0.375,将G1与G2合并成一新类G7, ,然后再计算新类G7与其它各类间的距离.

  20. 第三步,作D(1)表.先从D(0)表中删去G1类和G2类所在的行和列中的元素,然后把新计算出来的 G7与其它类间的距离D7,3,D7,4,D7,5填到D(0)中,即成D(1)表.

  21. 第四步,在D(1)表中,最小元素为D37=0.483,再将G3与G7合成一新类G8, ,然后再计算新类G8与其它类间的距离.

  22. 第五步,作D(2)表.先从D(1)表中删去G3类和G7类所在行与列中的元素,再把新计算出来的D8,4,D8,5和D8,6的值填到D(1)中,即成D(2)表.第五步,作D(2)表.先从D(1)表中删去G3类和G7类所在行与列中的元素,再把新计算出来的D8,4,D8,5和D8,6的值填到D(1)中,即成D(2)表.

  23. 第六步,在D(2)表中,最小元素为D45=0.501,再将G4和G5合成一新类G9, ,然后再计算新类G9与其它类间的距离

  24. 第七步,作D(3)表,先从D(2)表中删去G4类和G5类所在的行与列中的元素,再把新计算出来的D9,6和D9,8的值填到D(2)中,即成D(3)表.第七步,作D(3)表,先从D(2)表中删去G4类和G5类所在的行与列中的元素,再把新计算出来的D9,6和D9,8的值填到D(2)中,即成D(3)表.

  25. 第八步,在D(3)表中,最小元素为D69=0.589,再将G6和G9合成一新类G10, ,然后再计算G10与其它类间的距离

  26. 第九步,作D(4)表,先从D(3)表中删去G6类和G9类所在行列中的元素,再把新计算出来的D10,8的值填到D(3)中,即成D(4)表.第九步,作D(4)表,先从D(3)表中删去G6类和G9类所在行列中的元素,再把新计算出来的D10,8的值填到D(3)中,即成D(4)表. 由此表可知,G8类与G10类最后合成一类为G11类,计算过程结束.

  27. 第十步,将上述计算结果整理成联结表,然后再绘成聚类图.第十步,将上述计算结果整理成联结表,然后再绘成聚类图. 联结表

  28. 由图中可知,新疆地区6个站点可分为两大类:一类为准噶尔盆地类,一类为塔里木盆地类.在准噶尔盆地类中,又分为两个小型:一为哈巴河-阿勒泰型,一为克拉玛依型.在塔里木盆地中,也分为两个小型:一为巴楚-莎车型,一为于田型.这种聚类方式符合该区实际情况.由图中可知,新疆地区6个站点可分为两大类:一类为准噶尔盆地类,一类为塔里木盆地类.在准噶尔盆地类中,又分为两个小型:一为哈巴河-阿勒泰型,一为克拉玛依型.在塔里木盆地中,也分为两个小型:一为巴楚-莎车型,一为于田型.这种聚类方式符合该区实际情况.

  29. 3. 最远距离聚类法 • 公式: • 例:对于前面的例子,最远距离聚类法的聚类过程如下: ① 在9×9阶距离矩阵中,非对角元素中最小者是d94=0.51,故首先将第4区与第9区并为一类,记为G10,即G10={G4,G9}。按照公式(3.3.11)分别计算G1,G2,G3,G5,G6,G7,G8与G10之间的距离,得到一个新的8×8阶距离矩阵:

  30. ②在第一步所得到的8×8阶距离矩阵中,非对角线元素中最小者为d57=0.83,故将G5与G7归并为一类,记为G11,即G11={G5,G7}。按照公式分别计算G1,G2,G3,G6,G8,G10与G11之间的距离,得到一个新的7×7阶距离矩阵如下:

  31. ③在第二步中所得到的7×7阶距离矩阵中,非对角线元素中最小者为d28=0.88,故将G2与G8归并为一类,记为G12,即G12={G2,G8}。再按照公式分别计算G1,G3,G6,G10,G11与G12之间的距离,得到一个新的6×6阶距离矩阵如下:③在第二步中所得到的7×7阶距离矩阵中,非对角线元素中最小者为d28=0.88,故将G2与G8归并为一类,记为G12,即G12={G2,G8}。再按照公式分别计算G1,G3,G6,G10,G11与G12之间的距离,得到一个新的6×6阶距离矩阵如下:

  32. ④在第三步中所得的6×6阶距离矩阵中,非对角元素中最小者为d3,10=1.23,故将G3与G10归并为一类,记为G13,即G13={G3,G10}={G3,(G4,G9)}。再按照公式计算G1,G6,G11,G12与G13之间的距离,得到一个新的5×5阶距离矩阵如下:④在第三步中所得的6×6阶距离矩阵中,非对角元素中最小者为d3,10=1.23,故将G3与G10归并为一类,记为G13,即G13={G3,G10}={G3,(G4,G9)}。再按照公式计算G1,G6,G11,G12与G13之间的距离,得到一个新的5×5阶距离矩阵如下:

  33. ⑤在第四步所得的5×5阶距离矩阵中,非对角线元素中最小者为d1,12=1.52,故将G1与G12归并为一类,记为G14,即G14={G1,G12}={G1,(G2,G8)}。再按照公式分别计算G6,G11,G13与G14之间的距离,得到一个新的4×4阶距离矩阵如下:

  34. ⑥在第五步所得的4×4阶距离矩阵中,非对角线元素中最小者为d6,11=1.78,故将G6与G11归并为一类,记为G15,即G15={G6,G11}={G6,(G5,G7)}。再按照公式分别计算G13,G14和G15之间的距离,得到:

  35. ⑦在第六步中所得的3×3阶距离矩阵中,非对角线元素中最小者为d13,14=3.10,故将G13与G14归并为一类,记为G16,即G16={G13,G14}={(G3,(G4,G9)),(G1,(G2,G8))}。再按照公式计算G15与G16之间的距离,可得一个新的2×2阶距离矩阵如下:

  36. G1 G2 G8 G3 G4 G9 G5 G7 G6 图3.4.3 最远距离聚类谱系图 ⑧将G15与G16归并为一类。此时,各个分类对象均已归并为一类。 综合上述聚类过程,可以作出最远距离聚类谱系图。

  37. 最短距离 a1 b1 A B a2 b2 最远距离 图3.4.4 两种不同的空间距离 四. 系统聚类法距离公式的统一表达 • 最短距离和最远距离:可以用一个公式表示--- 用下图表示二者关系:

  38. 当α、β、γ三个参数取不同的值时,就形成了不同的聚类方法.当α、β、γ三个参数取不同的值时,就形成了不同的聚类方法. • 系统聚类其他方法的公式 :

  39. 五. 系统聚类分析实例 对中国大陆31个省级区域第三产业综合发展水平进行类型划分及差异性程度分析--- • 聚类指标选择 (选取如下7项指标) ① y1——人均GDP,它反映了经济社会发展的总体状况和一般水平; ②y2——人均第三产业增加值,它反映了人均服务产品占有量或服务密度; ③y3——第二产业增加值比重,它反映了工业化水平和产业结构现代化程度;

  40. ④y4——第三产业增加值比重,它反映了第三产业的发展程度及其对国民经济的贡献;④y4——第三产业增加值比重,它反映了第三产业的发展程度及其对国民经济的贡献; • y5——第三产业从业人员比重,它反映了第三产业对劳动力的吸纳能力; ⑥y6——第三产业固定资产投资比重,它反映了第三产业的资金投入程度; ⑦y7——城市化水平,它反映了农村人口转化为城市人口的程度及对服务的需求量。

  41. 聚类计算(计算过程 ) ①用标准差标准化方法对7项指标的原始数据进行处理。 ② 采用欧氏距离测度31个省(市、区)之间的样本间距离。 ③ 选用组平均法计算类间的距离,并对样本进行归类。 经过上述聚类计算步骤,得到的聚类结果见下图.

  42. 样本 Num +---------+---------+---------+---------+---------+ 安徽 12 河南 16 甘肃 28 四川 23 贵州 24 河北 3 山东 15 山西 4 湖北 17 重庆 22 陕西 27 宁夏 30 江西 14 湖南 18 广西 20 云南 25 江苏 10 浙江 11 广东 19 福建 13 辽宁 6 黑龙江 8 吉林 7 新疆 31 内蒙古 5 青海 29 海南 21 西藏 26 北京 1 上海 9 天津 2 图3.4.5 中国31个省级区域第三产业发展水平组平均聚类谱系图

  43. 聚类结果分析 当类间距离取为4.0和2.5时,全国各省份被合并成以下几类: ① 上海、北京、天津3直辖市为一类,而上海和北京更接近; ② 西藏、海南为一特殊类;青海、内蒙古、新疆、吉林为一类,其中内蒙古、新疆、吉林合并为一亚类; • 江苏、浙江、广东、福建、辽宁、黑龙江为一类,其中江苏、浙江、广东合并为一亚类; ④ 重庆、陕西、宁夏、江西、湖南、广西为一类,其中重庆、陕西、宁夏和江西、湖南、广西各自为一亚类,云南为一孤立点; ⑤ 河北、山东、山西、湖北为一类; ⑥ 安徽、河南、甘肃、四川、贵州为一类。

  44. 第二节 地理系统的判别分析 判别分析与聚类分析的异同: 相同点:都能确定地理类型; 不同点:判别分析兼有判别和分类的两种性质,大以判别为主,判别分析必须事先已知类型为前提;而聚类分析则不必事先已知类型,类型的划分是聚类的结果.

  45. 一.判别分析的基本原理 (一)判别分析的作用: 1.对已分好的类型进行合理性检验; 2.判别某地地理类型的归属问题和确定区域界线; 3.评价各要素特征值在判别分析中贡献率的大小.

  46. (二)判别分析的准则: 1.费歇准则 2.贝叶斯准则 (三)判别分析的基本原理 1.两类判别 2.多类判别 3.逐步判别

  47. 判别能力的显著性检验:

  48. 二.两类地理判别分析 现以我国新疆地区塔城与莎车两地的大风日数和沙暴日数为例,来说明两类判别分析的具体步骤. 1.推求判别函数式 第一步,将原始数据列表,计算各变量(指标)在其组内的累加和、均值和各变量组间的平均数之差,求解出判别函数中的判别系数ck.

More Related