1 / 56

粗糙集理论与方法

粗糙集理论与方法. 闵帆 副教授 漳州师范学院粒计算重点实验室 砺志楼 404 minfanphd@163.com fjzsroughsets@163.com (作业专用) http://grc.fjzs.edu.cn/~fmin/. 关于本实验室. 祝峰教授 覆盖粗糙集开拓人物 新西兰奥克兰大学获博士学位 闽江学者 周忠眉教授 浙大博士 博士生、硕士生. 实验室主页. 关于我. 2003 年于电子科技大学获博士学位 2004 年开始独立指导硕士研究生 2008-2009 至美国 Vermont 大学访问 2010 年随祝峰教授调至本校

Download Presentation

粗糙集理论与方法

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 粗糙集理论与方法 闵帆 副教授 漳州师范学院粒计算重点实验室 砺志楼404 minfanphd@163.com fjzsroughsets@163.com(作业专用) http://grc.fjzs.edu.cn/~fmin/

  2. 关于本实验室 • 祝峰教授 • 覆盖粗糙集开拓人物 • 新西兰奥克兰大学获博士学位 • 闽江学者 • 周忠眉教授 • 浙大博士 • 博士生、硕士生

  3. 实验室主页

  4. 关于我 • 2003年于电子科技大学获博士学位 • 2004年开始独立指导硕士研究生 • 2008-2009至美国Vermont大学访问 • 2010年随祝峰教授调至本校 • 发表论文35篇,多数为国际刊物与会议 • 欢迎报考!

  5. 我的主页

  6. 关于你们 • 电本 • 教技 • 社体 • 财务 • 园艺 • …… • 中本高 • 编辑 • 对外 • 英本 • 数本非 • 物本

  7. 关于本课程 • 粗糙集理论与方法是数据挖掘的分支 • 数据挖掘不仅仅是计算机专业人士玩的游戏 • 任何人都可以从本课程中受益,包括 • 基本概念的掌握 • 几个软件的使用 • 思维模式的训练

  8. 考核方式 • 课堂交流 • 作业 • 小论文

  9. Any questions?

  10. Let’s begin!

  11. 数据挖掘的应用 • …… • 搜索引擎 • 网上商品推荐 • 基因序列分析 • 医疗诊断 • 水文预测 • 博彩系统 • 股票分析

  12. DM与KDD • 数据挖掘(data mining, DM) 就是从存放在数据库,数据仓库或其他信息库中的大量的数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。 • Knowledge discovery from database (KDD)可以认为是DM的另一个说法。它更强调数据是存放在数据库中的。

  13. 作业1 • 上网搜索“什么是数据挖掘”,并写200字以上的体会。发送至作业邮箱 fjzsroughsets@163.com 需要注明学号、姓名、作业次数, 如100601248_李明_第1-3次作业

  14. 数据库表Weather

  15. 问题 • 有多少种可能的组合? • 试比较记录No. 1与No. 2,可得到什么结论? • 试比较记录No. 5与No. 6,可得到什么结论?

  16. 第一章 决策树 令Play为决策属性,以 Outlook -> Temperature -> Humidity -> Windy 的顺序构造一棵决策树

  17. 决策树 Outlook Sunny Overcast Rain P Temperature Temperature Cool Mild Hot Cool Mild Humidity N P Humidity Humidity Normal High Normal High Normal P P N Windy Windy False True False True P N P N

  18. 课堂练习 • 以Temperature -> Outlook -> Windy -> Humidity 与 Humidity -> Windy -> Temperature -> Outlook 的顺序各构造一棵决策树

  19. 问题 • 不同的顺序导致决策树的大小是否相同? • 不同的决策树进行分类的效果是否相同? • 试构造一个新实例,它导致分类结果不同。

  20. 讨论 • 决策树越大越好还是越小越好? • Occam’s razor(上网搜索) • 复杂的模型导致过度拟合,简单模型则有更好的归纳能力

  21. 课堂练习 • 构造一棵最小的决策树,不同的分支可用不同属性

  22. 最小决策树 Outlook Sunny Overcast Rain P Humidity Windy False True High Normal P N N P

  23. ID3算法 • Step 1. 选择合适的属性,使其信息增益最大; • Step 2. 根据该属性将数据分成几个子集; • Step 3. 针对各子集重复以上步骤,直到所有子集是“纯” 的,或者没有属性可用。

  24. 信息增益计算方法 • 选择属性时不需要计算I(p, n),因为对于不同属性该值相同

  25. Congratulations! • 你已经掌握了数据挖掘最重要的算法!

  26. 作业2 • Weka的安装与使用 • 下载JDK, Weka • 安装 • 运行Weka,测试数据集Weather.nomimal

  27. 运行选项 • Classifier: trees -> Id3 • Test option: Using training set

  28. 结果 outlook = sunny | humidity = high: no | humidity = normal: yes outlook = overcast: yes outlook = rainy | windy = TRUE: no | windy = FALSE: yes

  29. Woooo! • 你已经能用决策树来分析自己的数据! • 问题:分析的效果如何?

  30. 训练与测试 • 用一部分数据来训练分类器(决策树) • 另外的数据来测试该分类器的效果

  31. iris.nominal.arff运行结果 • Test option: Percentage split 60% === Confusion Matrix === a b c <-- classified as 12 0 0 | a = Iris-setosa 0 11 2 | b = Iris-versicolor 0 0 10 | c = Iris-virginica

  32. 连续属性值 • 用C4.5(J48) • 选择合适的断点(离散化)

  33. iris.arff运行结果(树) 66%训练,其余测试 petalwidth <= 0.6: Iris-setosa (50.0) petalwidth > 0.6 | petalwidth <= 1.7 | | petallength <= 4.9: Iris-versicolor (48.0/1.0) | | petallength > 4.9 | | | petalwidth <= 1.5: Iris-virginica (3.0) | | | petalwidth > 1.5: Iris-versicolor (3.0/1.0) | petalwidth > 1.7: Iris-virginica (46.0/1.0)

  34. iris.arff运行结果(准确率) === Confusion Matrix === a b c <-- classified as 15 0 0 | a = Iris-setosa 0 19 0 | b = Iris-versicolor 0 2 15 | c = Iris-virginica

  35. 作业3 • 专业数据分析 • 构造你所学专业数据 • 用ID3或C4.5分析 • 上传源数据与运行结果

  36. 参考文献 [1] J.R. Quinlan, Induction of Decision Trees, Machine learning 1: 81-106, 1986 (被引用次数9054)

  37. 第二章 属性约简与属性值约简 • 属性约简是粗糙集的一个重要问题 • 动机 • 删除冗余属性以加快学习速度,提高分类器精度(多数属性约简工作的目标) • 减少数据获取的代价,即测试代价(闵帆的最新研究重点)

  38. 决策表的属性约简 • 在Weather决策表中,哪些属性去掉后,不影响分类器(如决策树)的生成?

  39. 数据库表Weather

  40. 删除Windy

  41. 删除Humidity

  42. 删除Temperature • ?

  43. 删除Outlook • ?

  44. 讨论 • 哪些属性可以被约简? • 有哪些约简? • {Outlook, Humidity, Windy} • {Outlook, Temperature, Windy} • 可否有多个属性被同时约简?

  45. 最小约简 • 属性数量最少的约简被称为最小约简 • Zoo有33个约简,最小的有5个属性,最多的有7个 • { a2, a3, a5, a7, a12 } • { a0, a2, a5, a7, a10, a12 } • { a0, a2, a5, a6, a9, a11, a12 } • { a0, a2, a5, a7, a11, a12 } • ......

  46. 最小测试代价约简 • 假设各属性的测试代价如下: • 哪个约简为最小代价约简?

  47. 问题 • 为什么要找最小约简? • 为什么要找最小测试代价约简? • 两个问题有什么关系?

  48. 核属性 • 包含在所有约简中的属性 • 本例中为{Outlook, Windy}

  49. 属性值约简 • 把某属性值设为“不关心”,用*表示

  50. 获得的特殊决策表 • 把某属性值设为“不关心”,用*表示

More Related