140 likes | 556 Views
聚类分析. 数学原理:最常见的聚类为系统聚类法, 先将需要聚类的样品或指标各自看成一类,然后确定类和类之间的相似统计量,并选择最接近的两类或若干类合并成一个新类,计算新类和其它各类之间的相似统计量,再选择最接近的两类或若干类合并成一个新类,,直到所有的样品或指标杜合并成一类为止。. 系统聚类法包括类平均法、重心法,最长距离法、最短距离法、密度估计法、最大似然估计法、 ward 离差平方和法。 下面通过一个例子介绍聚类应用 例:从 21 个工厂中抽出同类产品,每个产品测两个指标,欲将各厂的质量情况进行分类. data ex;input x1 x2@@; cards;
E N D
聚类分析 • 数学原理:最常见的聚类为系统聚类法, 先将需要聚类的样品或指标各自看成一类,然后确定类和类之间的相似统计量,并选择最接近的两类或若干类合并成一个新类,计算新类和其它各类之间的相似统计量,再选择最接近的两类或若干类合并成一个新类,,直到所有的样品或指标杜合并成一类为止。
系统聚类法包括类平均法、重心法,最长距离法、最短距离法、密度估计法、最大似然估计法、ward离差平方和法。系统聚类法包括类平均法、重心法,最长距离法、最短距离法、密度估计法、最大似然估计法、ward离差平方和法。 下面通过一个例子介绍聚类应用 例:从21个工厂中抽出同类产品,每个产品测两个指标,欲将各厂的质量情况进行分类
data ex;input x1 x2@@; cards; 0 6 0 5 2 5 2 3 4 4 4 3 5 1 6 2 6 1 7 0 -4 3 -2 2 -3 2 -3 0 -5 2 1 1 0 -1 0 -2 -1 -1 -1 -3 -3 -5 ; proc cluster data=ex method=ward ccc pseudo outtree=tree; proc tree data=tree graphics horizontal; run;
method=ward表示聚类使用ward离差平方和法 • Ccc表示要计算半骗R**2,R**2和ccc立方聚类标准统计量,这三个统计量和下面的伪F和伪t**2统计量,主要用于检验聚类的效果。当把数据从G+1类合并为G类时,半骗R**2统计量说明了本次合并信息的损失程度,统计量大表明损失程度大。 R**2统计量反映类内离差平方和的大小,统计量大表明类内离差平方和小。Ccc统计量的值大说明聚类的效果好。 • Pseudo说明要计算伪F和伪t**2统计量。一般认为,伪F统计量出现峰值时的所对应的分类是较佳的分类选择。当把数据从G+1类合并为G类时,伪t**2统计量的值大,说明不应该合并这两类
结果分析:从半偏R**2(SPRSQ)的结果可以看出,当样本数据从四类合并为三类时,信息的损失较前面的合并有显著的增加。从R**2统计量的结果可以看出,当样本数据从四类合并为三类时,统计量叫前面的合并显著的较少,这意味着类类平方和在增加,违背了Ward分类原则。从ccc统计量的结果可以看出,最大值对应的类数为4。从四类合并为三类时,伪t**2统计量显著的增加,伪F统计量下降显著,综合各方面的结果,因此分4类最为合适。结果分析:从半偏R**2(SPRSQ)的结果可以看出,当样本数据从四类合并为三类时,信息的损失较前面的合并有显著的增加。从R**2统计量的结果可以看出,当样本数据从四类合并为三类时,统计量叫前面的合并显著的较少,这意味着类类平方和在增加,违背了Ward分类原则。从ccc统计量的结果可以看出,最大值对应的类数为4。从四类合并为三类时,伪t**2统计量显著的增加,伪F统计量下降显著,综合各方面的结果,因此分4类最为合适。
判别分析 例题:人文发展指数是联合国开发计划署于1990年5月发表的一份<<人类发展报告>>中公布的.数据如下,试通过已知的样品建立判别函数,误判率是多少?并判断待判的归类.
类别 国家 寿命(X1) 成人识字率%(X2) 调整后GDP(X3) • 1 美国 76 99 5374 • 1 日本 79.5 99 5359 • 1 瑞士 78 99 5372 • 1 阿根廷 72.1 95.9 5242 • 1 阿联酋 73.8 77.7 5370 • 保加利亚 71.2 93 4250 • 2 古巴 75.3 94.9 3412 • 2 巴拉圭 70 91.2 3390 • 2 格鲁吉亚 72.8 99 2300 • 南非 62.9 80.6 3799 • 待判样品 中国 68.5 79.3 1950 • 罗马丽亚 69.9 96.9 2840 • 希腊 77.6 93.8 5233 • 哥伦比亚 69.3 90.3 5159
data ex;input g x1-x3 @@; • cards; • 1 76 99 5374 1 79.5 99 5359 1 78 99 5372 1 72.1 95.9 5242 1 73.8 77.7 53702 71.2 93 4250 2 75.3 94.9 3412 2 70 91.2 3390 2 72.8 99 2300 2 62.9 80.6 3799 • ; • data ex1;input x1-x3 @@; • cards; • 68.5 79.3 1950 69.9 96.9 2840 77.6 93.8 5233 69.3 90.3 5159 • ; • procdiscrim data=ex testdata=ex1 • anova manova simple list testout=ex2; • class g; procprint data=ex2;run; 待判别类别的数据 将判别的结果输出到一个数据文件
因此Bayes判别函数为 y1=-323.21568+5.79107x1+0.26498x2+0.03407x3 y2=-236.03823+5.14034x1+0.25167x2+0.02533x3
从上面运行结果得知,两类的误判率均为0 因而得知中国与罗马尼亚归入第二类,希腊与哥伦比亚归入第一类。