1 / 14

聚类分析

聚类分析. 数学原理:最常见的聚类为系统聚类法, 先将需要聚类的样品或指标各自看成一类,然后确定类和类之间的相似统计量,并选择最接近的两类或若干类合并成一个新类,计算新类和其它各类之间的相似统计量,再选择最接近的两类或若干类合并成一个新类,,直到所有的样品或指标杜合并成一类为止。. 系统聚类法包括类平均法、重心法,最长距离法、最短距离法、密度估计法、最大似然估计法、 ward 离差平方和法。 下面通过一个例子介绍聚类应用 例:从 21 个工厂中抽出同类产品,每个产品测两个指标,欲将各厂的质量情况进行分类. data ex;input x1 x2@@; cards;

Download Presentation

聚类分析

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 聚类分析 • 数学原理:最常见的聚类为系统聚类法, 先将需要聚类的样品或指标各自看成一类,然后确定类和类之间的相似统计量,并选择最接近的两类或若干类合并成一个新类,计算新类和其它各类之间的相似统计量,再选择最接近的两类或若干类合并成一个新类,,直到所有的样品或指标杜合并成一类为止。

  2. 系统聚类法包括类平均法、重心法,最长距离法、最短距离法、密度估计法、最大似然估计法、ward离差平方和法。系统聚类法包括类平均法、重心法,最长距离法、最短距离法、密度估计法、最大似然估计法、ward离差平方和法。 下面通过一个例子介绍聚类应用 例:从21个工厂中抽出同类产品,每个产品测两个指标,欲将各厂的质量情况进行分类

  3. data ex;input x1 x2@@; cards; 0 6 0 5 2 5 2 3 4 4 4 3 5 1 6 2 6 1 7 0 -4 3 -2 2 -3 2 -3 0 -5 2 1 1 0 -1 0 -2 -1 -1 -1 -3 -3 -5 ; proc cluster data=ex method=ward ccc pseudo outtree=tree; proc tree data=tree graphics horizontal; run;

  4. method=ward表示聚类使用ward离差平方和法 • Ccc表示要计算半骗R**2,R**2和ccc立方聚类标准统计量,这三个统计量和下面的伪F和伪t**2统计量,主要用于检验聚类的效果。当把数据从G+1类合并为G类时,半骗R**2统计量说明了本次合并信息的损失程度,统计量大表明损失程度大。 R**2统计量反映类内离差平方和的大小,统计量大表明类内离差平方和小。Ccc统计量的值大说明聚类的效果好。 • Pseudo说明要计算伪F和伪t**2统计量。一般认为,伪F统计量出现峰值时的所对应的分类是较佳的分类选择。当把数据从G+1类合并为G类时,伪t**2统计量的值大,说明不应该合并这两类

  5. 运行结果

  6. 结果分析:从半偏R**2(SPRSQ)的结果可以看出,当样本数据从四类合并为三类时,信息的损失较前面的合并有显著的增加。从R**2统计量的结果可以看出,当样本数据从四类合并为三类时,统计量叫前面的合并显著的较少,这意味着类类平方和在增加,违背了Ward分类原则。从ccc统计量的结果可以看出,最大值对应的类数为4。从四类合并为三类时,伪t**2统计量显著的增加,伪F统计量下降显著,综合各方面的结果,因此分4类最为合适。结果分析:从半偏R**2(SPRSQ)的结果可以看出,当样本数据从四类合并为三类时,信息的损失较前面的合并有显著的增加。从R**2统计量的结果可以看出,当样本数据从四类合并为三类时,统计量叫前面的合并显著的较少,这意味着类类平方和在增加,违背了Ward分类原则。从ccc统计量的结果可以看出,最大值对应的类数为4。从四类合并为三类时,伪t**2统计量显著的增加,伪F统计量下降显著,综合各方面的结果,因此分4类最为合适。

  7. 判别分析 例题:人文发展指数是联合国开发计划署于1990年5月发表的一份<<人类发展报告>>中公布的.数据如下,试通过已知的样品建立判别函数,误判率是多少?并判断待判的归类.

  8. 类别 国家 寿命(X1) 成人识字率%(X2) 调整后GDP(X3) • 1 美国 76 99 5374 • 1 日本 79.5 99 5359 • 1 瑞士 78 99 5372 • 1 阿根廷 72.1 95.9 5242 • 1 阿联酋 73.8 77.7 5370 • 保加利亚 71.2 93 4250 • 2 古巴 75.3 94.9 3412 • 2 巴拉圭 70 91.2 3390 • 2 格鲁吉亚 72.8 99 2300 • 南非 62.9 80.6 3799 • 待判样品 中国 68.5 79.3 1950 • 罗马丽亚 69.9 96.9 2840 • 希腊 77.6 93.8 5233 • 哥伦比亚 69.3 90.3 5159

  9. data ex;input g x1-x3 @@; • cards; • 1 76 99 5374 1 79.5 99 5359 1 78 99 5372 1 72.1 95.9 5242 1 73.8 77.7 53702 71.2 93 4250 2 75.3 94.9 3412 2 70 91.2 3390 2 72.8 99 2300 2 62.9 80.6 3799 • ; • data ex1;input x1-x3 @@; • cards; • 68.5 79.3 1950 69.9 96.9 2840 77.6 93.8 5233 69.3 90.3 5159 • ; • procdiscrim data=ex testdata=ex1 • anova manova simple list testout=ex2; • class g; procprint data=ex2;run; 待判别类别的数据 将判别的结果输出到一个数据文件

  10. 因此Bayes判别函数为 y1=-323.21568+5.79107x1+0.26498x2+0.03407x3 y2=-236.03823+5.14034x1+0.25167x2+0.02533x3

  11. 从上面运行结果得知,两类的误判率均为0 因而得知中国与罗马尼亚归入第二类,希腊与哥伦比亚归入第一类。

More Related