830 likes | 1.15k Views
《 模式识别 》 第二章 聚类分析. 余莉. 2.1 聚类的基本概念. 2.1.1 聚类分析的基本思想 Clustering Analysis 据 相似程度 分类 无监督分类 ( Unsupervised ). 似圆度. 2.1 聚类的基本概念. 2.1.2 特征量的类型 物理量 : 直接反映特征的实际物理意义 如 : 长度、重量、速度等。处理前需要离散化。 次序量 : 按某种规则确定的只反映特征的次序 关系或等级 如 : 产品的等级、病症的级或期。已是离散量。
E N D
2.1 聚类的基本概念 • 2.1.1聚类分析的基本思想Clustering Analysis • 据相似程度分类 • 无监督分类(Unsupervised) 似圆度
2.1 聚类的基本概念 2.1.2 特征量的类型 物理量:直接反映特征的实际物理意义如:长度、重量、速度等。处理前需要离散化。 次序量:按某种规则确定的只反映特征的次序 关系或等级如:产品的等级、病症的级或期。已是离散量。 名义量:反映样本的状态特征非数值的,如男性与女性、事物的状态、种类等。需要数值化。这些特征的数值指标既无数量含义,也无次序关系,只是用数字代表各种状态。
2.1 聚类的基本概念 2.1.3 方法的有效性 (1) 特征选取不当或不足使分类无效; (2) 特征选取过多可能有害无益,且增加分析负担。 x2 x2 1 2 1 3 2 x1 x1 (a) (b)
2.1 聚类的基本概念 (3) 特征量纲对聚类结果的影响 年龄 年龄 60 60 30 30 5 10 5 10 财富(十万) 财富(万)
2.1.4聚类准则对聚类结果的影响 2.1 聚类的基本概念 羊,狗,猫,蜥蜴,蛇,麻雀,海鸥,青蛙 蜥蜴,蛇,麻雀,海鸥,金鱼,青蛙 金鱼,鲨鱼 羊,狗,猫, 鲨鱼 (b) 肺的存在 (a)繁衍后代的方式 蜥蜴,蛇,麻雀,海鸥,青蛙 羊,狗,猫,蜥蜴,蛇,麻雀,海鸥, 金鱼,鲨鱼 金鱼 羊,狗,猫, 鲨鱼 青蛙 (d)繁衍后代的方式和是否存在肺 (c) 生存环境
2.1.5 距离测度对聚类结果的影响 2.1 聚类的基本概念 数据的粗聚类是两类,细聚类为4类
2.2 模式相似性测度 2.2.1 距 离 测 度 2.2.2 相 似 测 度 2.2.3 匹 配 测 度
2.2.1 距离测度(差值测度) Distance (or Dissimilarity) Measure 设特征矢量 和 的距离为 则 一般应满足如下公理 (1) (2) (3) (triangular inequality)
(一)距离测度(差值测度) ⑴ 欧氏(Euclidean)距离 ⑵ 绝对值距离(街坊距离或Manhattan距离) (3) 切氏(Chebyshev)距离
(一)距离测度(差值测度) (4) 明氏(Minkowski)距离 (5) Cambera距离(Lance距离、Willims距离) 该距离能克服量纲的影响, 但不能克服分量间的相关性。
(一)距离测度(差值测度) (6)马氏(Mahalanobis)距离 其中 (协方差矩阵的无偏估计) (均值向量的估计) 性质:对一切非奇异线性变换都是不变的。即,具有坐标系比例、旋转、平移不变性,并且从统计意义上尽量去掉了分量间的相关性。
马氏距离具有线性变换不变性 证明:设,有非奇异线性变换: 则
马氏距离的一般定义 设 、 是从期望矢量为 、协方差矩阵为的母体G中抽取的两个样本,则它们间的马氏距离定义为 当 和 是分别来自两个数据集中的样本时,设C是它们的互协方差阵,则它们间的马氏距离定义为 • 当、V、C为单位矩阵时,马氏距离欧氏距离。 • 对于正态分布,等概率密度点轨迹是到均值矢量的马氏距离为常数的点所构成的超椭球面。
例2.1 已知一个二维正态母体G的分布为 求点 和 至均值点 的距离。 解:由题设,可得 从而马氏距离 它们之比达 倍。若用欧氏距离,则算得的距离值相同: 由分布函数知,A、B两点的概率密度分别为
2.2.2 相 似 测 度 重点考虑两矢量的方向是否相近,而忽略矢量长度。 (1) 角度相似系数(夹角余弦)矢量之间的相似性可用它们的夹角余弦来度量 (2) 相关系数数据中心化后的矢量夹角余弦 性质:相关系数具有坐标系平移、旋转、比例不变性。
相关系数具有坐标系平移、旋转、比例变换不变性相关系数具有坐标系平移、旋转、比例变换不变性 证明: (作业) 设,有旋转、平移变换: 其中,R是旋转变换矩阵(即正交矩阵), 是平移矢量。 则有 设,有旋转、平移变换: 其中,R是旋转变换矩阵(即正交矩阵), 是平移矢量。 则有
(3) 指数相关系数 这里假设 和 的维数n相同、概率分布相同。 是第i个分量的方差。 性质:不受量纲变化的影响。
(三) 匹 配 测 度 若特征只有两个状态: 0 => 有此特征;1 => 无此特征。称之为二值特征。 对于给定的二值特征矢量x和y中的某两个相对应的分量xi与yj若xi=1,yj=1 ,则称 xi与yj (1-1)匹配;若xi=1,yj=0,则称 (1-0)匹配;若xi=0,yj=1 ,则称 (0-1)匹配;若xi=0,yj=0,则称 (0-0)匹配。 对于二值n维特征矢量可定义如下相似性测度:
(三) 匹 配 测 度 (1) Tanimoto测度 令 (1-1)匹配的特征数目 (0-1)匹配的特征数目 (1-0)匹配的特征数目 (0-0)匹配的特征数目 注意,这里只考虑(1-1)匹配,而不考虑(0-0)匹配。
(三) 匹 配 测 度 (2) Rao测度 (3) 简单匹配系数 (4) Dice系数 (5) Kulzinsky系数 (1-1)匹配特征数目与特征总数之比 (1-1)匹配+(0-0)匹配/特征总数 只对(1-1)匹配加权 (1-1)匹配/ (1-0)匹配+(0-1)匹配
例 2.2 设 (1) Tanimoto测度 (2) Rao测度 (3) 简单匹配测度 (4) Dice系数 (5) Kulzinsky系数 则
小结 一、影响分类的因数 (1)分类准则;(2)特征量的选择;(3)量纲。 二、模式相似性测度 (一) 距 离 测 度 (1) 欧氏距离 (2) 马氏距离 对坐标系平移、旋转、比例不变。 (二) 相 似 测 度 相关系数 (特征矢量的方向) 对坐标系平移、旋转、比例不变。 (三) 匹 配 测 度 (0-1)匹配系数
2.3 类的定义与类间距离 2.3.1 类的定义类的划分具有人为规定性,这反映在类的定义的选取及参数的选择上。分类结果的优劣最后只能根据实际来评价。 定义1设集合S中任意元素xi与xj间的距离dij有dij h其中h为给定的阈值,称S对于阈值h组成一类。 定义2其中k为S中元素的个数。(类内平均距离)
2.3.1 类的定义 定义3设集合S中任意元素xi与xj间的距离dij有其中k为S中元素的个数,称S对于阈值h,r组成一类。 定义4xiS,xjS,使dij h成立,则称S对于 阈值h组成一类。(最近距离) 定义5若将集合S任意分成两类S1,S2,这两类间的 距离D(S1,S2)h,则称S对于阈值h组成一类。
2.3.2类间距离测度 (一)最近距离 两个聚类k和l之间的最近距离定义为 式中, dij表示 xi k与xj l间的距离。 如果l由p和q两类合并而成,则有递推公式
2.3.2类间距离测度 (二)最远距离 递推公式
2.3.2类间距离测度 (三)中间距离 递推公式
2.3.2类间距离测度 (四)重心距离递推公式 式中 , 和 分别是i和j的重心, i,j=k,l,p,q。
2.3.2类间距离测度 (五) 平均距离 两类p和q间的距离平方定义为这两类元素两两之间的平均平方距离,即设l =p q,类平均距离的递推公式为
2.3.2类间距离测度 (六) 离差平方和法 设类t的重心是 , t的类内离差平方和定义为 设l =p q,则sl要变大。把两类合并所增加的离差平方和定义为两类平方距离,即 ,可以证明 k与l =p q的离差平方和的递推公式
类间距离递推公式 (其中l =p q)
2.3.3 聚类准则函数 评估分类过程或分类结果优劣的准则函数 (一)类内距离准则(误差平方和准则) 加权类内距离准则 式中, 是j内样本间的均方距离。 式中,nj是j中的样本个数, • 适用于各类模式呈团状分布的情况。
2.3.3 聚类准则函数 (二)类间距离准则 对于两类问题 ,可以定义 式中, 是总的样本均值矢量, 加权类间距离准则
(三)基于类内类间距离的准则函数 构造能同时使Jwmin和JBmax的准则函数 类内离差矩阵(Scatter Matrix) 1 3 2 • 总的类内离差矩阵 4 • 类间离差矩阵 5 • 总的离差矩阵
ST =SW + SB (作业) 证明:
(三)基于类内类间距离的准则函数 聚类的基本目标是使 JWB=Tr[SB]max和JWW =Tr[SW]min 因此可定义如下聚类准则函数 Jimax,(i=1,2,3,4) 即,类内越“紧”,类间越“开”,聚类效果越好。
%该函数用于显示二维正态分布的函数图 clear; %X1和X2分别为两个向量 X1=[-5:0.1:5]; X2=[-5:0.1:5]; %Miu为均值向量 Miu=[1,1]'; %E为协方差矩阵 E=[3 0.0;0.0 1.0]; %y为求得的函数值 for i=1:length(X1) for j=1:length(X2) x=[X1(i),X2(j)]'; y(i,j)=exp(-0.5*(x-Miu)'*inv(E)*(x-Miu)); y(i,j)=y(i,j)/((2*pi)*sqrt(det(E))); end end %显示函数值 meshc(X1,X2,y);
2·4 聚类的算法 (1) 简单聚类方法 算法运行中模式的类别及类的中心一旦确定将不会改变。 • (2) 层次聚类法 算法运行中,两类合并为一类,不断重复进行。也称为谱系聚类法。 (3) 动态聚类法 算法运行中,类心不断地修正,各模式的类别的指定也不断地更改。这类方法有—C均值法、ISODATA法等。 40
2·4 聚类的算法--简单聚类方法 根据相似性阈值和最小距离原则 ⒈ 条件及约定 设待分类的模式为 ,选定类内距离门限 。 ⒉ 算法思想 计算模式特征矢量到聚类中心的距离并和门限 比较,决定归属该类或作为新的一类中心。这种算法通常选择欧氏距离。 41
2·4 聚类的算法--简单聚类方法 ⒊ 算法原理步骤 ⑴ 取任意的一个模式特征矢量作为第一个聚类中心。例 如,令 类的中心 。 ⑵ 计算下一个模式特征矢量 到 的距离 。若 ,则建立新的一类 ,其中心 。若 ,则 。 42
⒊ 算法原理步骤 ⑶ 假设已有聚类中心 ,计算尚未确定类别的模式特征矢量 到各聚类中心 的距离 。如果 , 则 作为新的一类 的中心, ; 否则,如果 ,则指判 。检查是否所有的模式都分划完类别,如果都分划完了则结束;否则返到⑶。 2·4 聚类的算法--简单聚类方法 43
算法特点: 这类算法的突出优点是算法简单。但聚类过程中,类的中心一旦确定将不会改变,模式一旦指定类后也不再改变。 从算法的过程可以看出,该算法结果很大程度上依赖于距离门限T的选取及模式参与分类的次序。如果能有先验知识指导门限T的选取,通常可获得较合理的效果。也可考虑设置不同的T和选择不同的次序,最后选择较好的结果进行比较。 2·4 聚类的算法--简单聚类方法 44
2·4 聚类的算法--简单聚类方法 简单聚类图例 45
门限不同 11 6 7 11 6 7 初始中心不同 10 9 8 10 9 8 1 2 3 4 5 1 2 3 4 5 9 10 11 9 10 11 8 7 6 8 7 6 样本顺序不同 1 2 3 4 5 1 2 3 4 5 例2.4.1:初始条件不同的简单聚类结果
2·4 聚类的算法—层次聚类法 按最小距离原则不断进行两类合并 层次聚类法 (Hierarchical Clustering Method) (系统聚类法、 谱系聚类法) ⒈ 条件及约定 设待分类的模式特征矢量为 , 表示第 次合并时的第 类。 ⒉ 算法思想 首先将 N 个模式视作各自成为一类,然后计算类与类之间的距离,选择距离最小的一对合并成一个新类,计算在新的类别分划下各类之间的距离,再将距离最近的两类合并,直至所有模式聚成两类为止。 47
3. 算法原理步骤 (1)初始分类。令 ,每个模式自成一类,即 (2)计算各类间的距离 ,由此生成一个对称的距离 矩阵 , 为类的个数(初始时 )。 2·4 聚类的算法—层次聚类法 48
2·4 聚类的算法—层次聚类法 3. 算法原理步骤 ⑶ 找出前一步求得的矩阵 中的最小元素,设它 是 和 间的距离,将 和 两类合并 成一类,于是产生新的聚类 令 ⑷ 检查类的个数。如果类数 大于2,转至⑵;否则,停止。 49
例2.4.3:如下图所示 • 1、设全部样本分为6类, • 2、作距离矩阵D(0) • 3、求最小元素: • 4、把ω1,ω3合并ω7=(1,3) • ω4,ω6合并ω8=(4,6) • 5、合并的类数没有达到要求 • 作距离矩阵D(1) D(0)