1 / 44

Cluster Analysis

聚类分析 ( 第 2 部分 ). Cluster Analysis. (二)最长距离法 ( complete linkage , furthest neighbor ). B2 A2 * * B1 A1 * * B3 *. 样品间 :欧氏距离 类类间 :两类间样品两两距离最长。即图中样品 A2 和 B3 之间的距离. (三)中间距离法 ( median method ).

tulia
Download Presentation

Cluster Analysis

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 聚类分析(第2部分) Cluster Analysis 统计本科应用多元分析教学

  2. 第四军医大学卫生统计学教研室

  3. 第四军医大学卫生统计学教研室

  4. 第四军医大学卫生统计学教研室

  5. 第四军医大学卫生统计学教研室

  6. 第四军医大学卫生统计学教研室

  7. 第四军医大学卫生统计学教研室

  8. (二)最长距离法(complete linkage,furthest neighbor) B2 A2 * * B1 A1 * * B3 * 样品间:欧氏距离类类间:两类间样品两两距离最长。即图中样品A2和B3之间的距离 第四军医大学卫生统计学教研室

  9. 第四军医大学卫生统计学教研室

  10. 第四军医大学卫生统计学教研室

  11. 第四军医大学卫生统计学教研室

  12. 第四军医大学卫生统计学教研室

  13. 第四军医大学卫生统计学教研室

  14. (三)中间距离法(median method) 最长距离夸大了类间距离,最短距离低估了类间距离。介于两者间的距离即为中间距离 L K M J 第四军医大学卫生统计学教研室

  15. (四)中间距离法的变形——可变法 第四军医大学卫生统计学教研室

  16. (五)类平均法(average linkagebetween group) SPSS作为默认方法,称为 between-groups linkage L K M J 第四军医大学卫生统计学教研室

  17. 第四军医大学卫生统计学教研室

  18. (六)可变类平均法(flexible-beta method) L K M 类平均法的变型 J 第四军医大学卫生统计学教研室

  19. (七)重心法(centroid method) B2 A2 * * B1 A1 * * B3 * 类类间的距离用各自重心间的距离表示 第四军医大学卫生统计学教研室

  20. (八)Ward最小方差法(Ward’ minimum variance method) 先将n个样品各自成一类,然后每次每缩小一类,每缩小一类离差平方和就要增加,选择使离差平方和增加(SSM-SSK-SSL)最小的两类合并,直至所有的样品归为一类为止。 第四军医大学卫生统计学教研室

  21. 第四军医大学卫生统计学教研室

  22. (九)八种系统聚类方法的统一 以上聚类方法的计算步骤完全相同,仅类与类之间的定义不同。Lance和Williams于1967年将其统一为: 第四军医大学卫生统计学教研室

  23. 八种系统聚类法公式的参数 第四军医大学卫生统计学教研室

  24. 系统聚类法的性质 • 单调性 • 中间距离法、重心法不具有单调性 • 空间的浓缩与扩张 不同聚类法作图,横坐标的范围可相差很大。最短距离法与重心法比较浓缩;可变类平均比较扩张;类平均法比较适中。 第四军医大学卫生统计学教研室

  25. 有关问题 • 几种聚类方法获得的结果不一定相同 • 指标聚类采用相似系数,相似系数大或距离小则表示类间关系密切,为了统一,可采用以下公式变换。 第四军医大学卫生统计学教研室

  26. 五、快速聚类法(quick cluster method k-means model )也叫动态聚类、逐步聚类、迭代聚类) 样本量很大,用系统聚类法计算的工作量极大,作出的树状图也十分复杂, 不便于分析 第四军医大学卫生统计学教研室

  27. 原理 • 选择初始凝聚点 • 根据欧氏距离将每个样品归类 • 各类的重心代替初始凝聚点 • 根据欧氏距离将每个样品归类,…… • 直至分类达到稳定 第四军医大学卫生统计学教研室

  28. 初始凝聚点initial cluster seeds;cluster centers • 自动选择 必须给出允许分类的最大个数k(SAS中用MAXCLUSTERS=k(或MAXC=k) ) • 凭经验选择 以初始凝聚点建立一个数据文件,在SAS的FASTCLUS过程的SEED=选择项中输入该数据文件 第四军医大学卫生统计学教研室

  29. 六、变量聚类法 原理与以上聚类法类似, 只是将标准化后的变量视为“个体”,变量间的相关系数描述“个体”间的相似程度。SAS中采用VARCLUS过程。 第四军医大学卫生统计学教研室

  30. 七、小结 • 与判别分析的区别(作用,数据要求?) • 聚类分析是一种探索性技术,对于同一问题,可获得多种结果,解释需要结合专业知识 • 样品量大可采用快速聚类方法 • 变量的形式?距离与相似系数? • 系统聚类常用方法? 第四军医大学卫生统计学教研室

  31. 存在的问题 • 分类数的确定 专业知识 • 聚类方法的选择 试用多种方法,系统聚类与快速聚类相结合 第四军医大学卫生统计学教研室

  32. (一)SPSS聚类分析 八、软件计算与实例分析 第四军医大学卫生统计学教研室

  33. 1.系统聚类 第四军医大学卫生统计学教研室

  34. 指定参与聚类的变量名和样品号 第四军医大学卫生统计学教研室

  35. Statistics 聚类进度表 相似矩阵 样品或变量的分类情况 第四军医大学卫生统计学教研室

  36. Plot 树状结构图 冰柱图 冰柱的方向 第四军医大学卫生统计学教研室

  37. Method 聚类方法 亲疏关系指标 标准化变换 第四军医大学卫生统计学教研室

  38. Method 将分类结果存入数据文件中 第四军医大学卫生统计学教研室

  39. 2. 快速聚类 第四军医大学卫生统计学教研室

  40. 选项 人为固定分类数 ANOVA表,初始凝聚点等 读写凝聚点 第四军医大学卫生统计学教研室

  41. (二)SAS聚类分析 样品聚类:PROC CLUSTER pseudo RSQUARE STD METHOD=(AVE, AVERAGE, CEN, CENTROID, COM, COMPLETE, DEN, DENSITY, EML, FLE, FLEXIBLE, MCQ, MCQUITTY, MED, MEDIAN, SIN, SINGLE, TWO, TWOSTAGE, WAR, WARD); ID national; PROC TREE HORIZONTAL; ID national; 第四军医大学卫生统计学教研室

  42. 变量聚类:PROC VARCLUS CORR CENTROID HIERARCHY MAXC=4; • 快速聚类:PROC FASTCLUS MAXC=4 MAXITER=100 ; ID national; • 资料预处理:PROC ACECLUS ;(ACECLUS (Approximate Covariance Estimation for CLUStering) ) 第四军医大学卫生统计学教研室

  43. 如果要采用非欧式距离,SAS中可用宏程序(%distance)计算。或 变换。 • 数据为距离矩阵形式时,应在Data语句中说明,如“DATA a (TYPE=DISTANCE);”(见p202) 第四军医大学卫生统计学教研室

  44. The EndAuthor: ChuanHua Yu2002.11, Xi’An, Chinayuchua@163.com

More Related