1 / 23

林琛 博士 , 副 教授

聚类. 林琛 博士 , 副 教授. 本讲要点. 聚类概念 聚类方法 划分法: k-means 层次聚类 基于密度的方法: DBScan 聚类的效果评估. 什么是聚类分析. 把对象分成若干个簇 同簇内的对象彼此相似 不同簇内的对象彼此相异 聚类的作用 独立应用 论文作者消歧 可视化 展现微博区域 预处理. 聚类分析的几种方法. 划分方法 将数据对象分为几组 每 组至少包含一个对象 每个 对象属于一组 层次 方法 凝聚:自底向上 分裂:自顶向下 基于密度 的方法 根据邻域中的对象数量聚类. 聚类分析的一般准备. 向量化.

Download Presentation

林琛 博士 , 副 教授

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 聚类 林琛 博士,副教授

  2. 本讲要点 • 聚类概念 • 聚类方法 • 划分法:k-means • 层次聚类 • 基于密度的方法:DBScan • 聚类的效果评估

  3. 什么是聚类分析 • 把对象分成若干个簇 • 同簇内的对象彼此相似 • 不同簇内的对象彼此相异 • 聚类的作用 • 独立应用 • 论文作者消歧 • 可视化 • 展现微博区域 • 预处理

  4. 聚类分析的几种方法 • 划分方法 • 将数据对象分为几组 • 每组至少包含一个对象 • 每个对象属于一组 • 层次方法 • 凝聚:自底向上 • 分裂:自顶向下 • 基于密度的方法 • 根据邻域中的对象数量聚类

  5. 聚类分析的一般准备 向量化 相异度矩阵

  6. 相似度/相异度(Lecture 5) • 明氏距离Minkowski Distance • 曼哈顿距离(城市街区距离):p=1 • 欧式距离 :p=2 • 余弦相似度Cosine Similarity • 皮尔逊积矩相关系数Pearson Correlation • 杰卡德相似度Jaccard Similarity • 编辑距离Edit Distance

  7. K-means方法 将每个对象指派到最相似的簇 更新簇中心(均值) 重复 1.任意选择k个对象作为簇中心 重新指派对象 • 簇中心 • 均值:k-means • 中位数:k-median • 不连续->众数:k-mode 更新簇中心

  8. 停止条件 • 我们希望,同一个簇中的对象是相近的,而不同簇中对象是相异的 • 准则带来问题 • 局部最优 • 球状簇 • 离群点 • 算法带来问题 • 依赖于初始点选择

  9. K-means问题(1) 局部最优 较好的初始点 不好的初始点

  10. K-means问题(2) • 球状簇 • 离群点(噪声)

  11. Step 0 Step 1 Step 2 Step 3 Step 4 agglomerative (AGNES) a a b b a b c d e c c d e d d e e divisive (DIANA) Step 3 Step 2 Step 1 Step 0 Step 4 层次聚类 • 使用相异度矩阵 • 自顶向下或自底向上

  12. 类间距离 单链接Single link: 最小距离 dist(Ki, Kj) = min(tip, tjq) 全链接Complete link: 最大距离dist(Ki, Kj) = max(tip, tjq) 平均Average: 平均距离 dist(Ki, Kj) = avg(tip, tjq) 质心Centroid: 簇质心距离 dist(Ki, Kj) = dist(Ci, Cj) Medoid: dist(Ki, Kj) = dist(Mi, Mj) Medoid: 选择簇中的一个点,到簇内其他点的距离之和最小 X X

  13. 层次聚类问题 • 扩展性 • O(n2),n是数据对象数目 • 不可回溯 • 已经聚类的数据对象不能重新计算

  14. 基于密度的聚类 • 参数 • Eps:点p的半径Eps内范围成为p的Eps-邻域 • MinPts:邻域内数据对象最小数目(p为核心对象) • 直接密度可达 • 如果p在q的Eps邻域内,且q的Eps邻域内至少包含MinPts个对象,则p是q直接密度可达的 • 密度可达 • 如果存在对象链p1,p2,…pn,pi+1是从pi直接密度可达的,则p1是从pn出发密度可达的 • 密度相连 • 如果p和q都是从o出发密度可达的,则p和q是密度相连的

  15. p q o 密度可达和密度相连 MinPts = 5 Eps = 1 cm p p1 q 请指出上图中p是从q出发直接密度可达的吗? 请指出右边两个图中直接密度可达、密度可达、密度相连的点对 p q

  16. Outlier Border Eps = 1cm MinPts = 5 Core DBSCAN: Density-Based Spatial Clustering of Applications with Noise • 算法 • 检查每个点的Eps邻域 • 如果是核心对象,则建立新簇 • 迭代的聚集直接密度可达的对象,合并密度可达簇 • 当不存在新点时,算法结束 • 对参数敏感 • 簇形状不限

  17. DBSCAN: Sensitive to Parameters

  18. 聚类评估 • 聚类评估的天然准则 • 内部准则(聚类算法本身使用的准则) • 高簇内相似度,低簇间相似度 • 一般评估意义不大 • 聚类评估的挑战 • 主观性 • 由于聚类通常作为预处理/后处理的一部分,和应用有关 水果聚类 按种类:苹果/梨子/草莓 按味道:甜/酸/多汁/干 按大小:小/中/大 按季节:春/夏/秋/冬 按产地:热带/温带/寒带 按性质:热性/凉性/温性 命名实体消歧 检索结果聚类

  19. 聚类评估方法 • 直接评估 • 大规模的user study • 几种典型的外部评估准则 • 纯度Purity • 归一化互信息量Normalized mutual information • 约当指数Rand index • F-measure

  20. 聚类评估方法:纯度 • 需要一个分类的基准(benchmark) • 对于每一个簇,指定在簇内出现最多的类别为这个簇的类别 • 计算上述指定的正确率,即正确分类的实例/总数 • 聚类效果好,纯度接近1,否则接近0 结果: Cluster1: x: 5/6 Cluster2:o:4/6 Cluster 3:◇:3/5 取平均:0.71 分类基准:x,o, ◇ 课堂小quiz:评估上图聚类结果的purity

  21. 聚类评估方法:归一化互信息 • 纯度缺点 • 和聚类数目有关,每个实例一个簇,纯度=1 • 引入互信息的概念 • 标准化互信息NMI • 范围[0,1],可以在不同聚类数目比较 互信息经常用于分类的特征选择,量化了特征对于类别的指示程度。 简单的说互信息I(x;y)就是y对于x的信息量增加 I(X;Y)=H(x)-H(x|Y) 分类基准:x,o, ◇ 课堂小quiz:评估上图聚类结果的NMI p(x=1,y=“x”)=5/17, p(x=2,y=“x”)=1/17 p(x=1)=6/17 p(y=“x”)=8/17

  22. 聚类评估方法Rand指数&F-measure • 聚类结果是一系列对实例对的决策 • 其中每一个决策可以是 • TP:把相似对放在了同一个簇里 • TN:把不相似对放在了不同簇里 • FP:把不相似对放在了同一个簇里 • FN:把不相似对放在了不同簇里 • Rand index= (TP+TN)/(TN+TP+FP+FN) • 即精度 • F-measure考虑TP和TN的重要性是不同的 • 通常把相似对分开在不同簇里是更糟糕的决策 β>1

  23. 例子 分类基准:x,o, ◇ 课堂小quiz: 评估上图聚类结果的RI和F-measure 1,计算聚类结果中决策总数(即实例对总数) C172=136 2,计算TP Cluseter 1 “x” C52 Cluseter2 “o” C42 Cluseter3 “x” C22Cluseter3 “◇” C32 =20 3,计算FP Cluseter 1 C62Cluseter2 C62Cluseter3 C52 =40 – TP =20 4,计算TN 136-40-FN=72 5,计算FN “x” 5x1+5x2+1x2=17 “o” 1x4=4 “◇” 1x3=3 =24 6,计算RI 7,计算F-measure(需给定β)

More Related