570 likes | 760 Views
粗糙集理论与方法. 闵帆 副教授 漳州师范学院粒计算重点实验室 砺志楼 404 minfanphd@163.com fjzsroughsets@163.com (作业专用) http://grc.fjzs.edu.cn/~fmin/. 关于本实验室. 祝峰教授 覆盖粗糙集开拓人物 新西兰奥克兰大学获博士学位 闽江学者 周忠眉教授 浙大博士 博士生、硕士生. 实验室主页. 关于我. 2003 年于电子科技大学获博士学位 2004 年开始独立指导硕士研究生 2008-2009 至美国 Vermont 大学访问 2010 年随祝峰教授调至本校
E N D
粗糙集理论与方法 闵帆 副教授 漳州师范学院粒计算重点实验室 砺志楼404 minfanphd@163.com fjzsroughsets@163.com(作业专用) http://grc.fjzs.edu.cn/~fmin/
关于本实验室 • 祝峰教授 • 覆盖粗糙集开拓人物 • 新西兰奥克兰大学获博士学位 • 闽江学者 • 周忠眉教授 • 浙大博士 • 博士生、硕士生
关于我 • 2003年于电子科技大学获博士学位 • 2004年开始独立指导硕士研究生 • 2008-2009至美国Vermont大学访问 • 2010年随祝峰教授调至本校 • 发表论文35篇,多数为国际刊物与会议 • 欢迎报考!
关于你们 • 电本 • 教技 • 社体 • 财务 • 园艺 • …… • 中本高 • 编辑 • 对外 • 英本 • 数本非 • 物本
关于本课程 • 粗糙集理论与方法是数据挖掘的分支 • 数据挖掘不仅仅是计算机专业人士玩的游戏 • 任何人都可以从本课程中受益,包括 • 基本概念的掌握 • 几个软件的使用 • 思维模式的训练
考核方式 • 课堂交流 • 作业 • 小论文
数据挖掘的应用 • …… • 搜索引擎 • 网上商品推荐 • 基因序列分析 • 医疗诊断 • 水文预测 • 博彩系统 • 股票分析
DM与KDD • 数据挖掘(data mining, DM) 就是从存放在数据库,数据仓库或其他信息库中的大量的数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。 • Knowledge discovery from database (KDD)可以认为是DM的另一个说法。它更强调数据是存放在数据库中的。
作业1 • 上网搜索“什么是数据挖掘”,并写200字以上的体会。发送至作业邮箱 fjzsroughsets@163.com 需要注明学号、姓名、作业次数, 如100601248_李明_第1-3次作业
问题 • 有多少种可能的组合? • 试比较记录No. 1与No. 2,可得到什么结论? • 试比较记录No. 5与No. 6,可得到什么结论?
第一章 决策树 令Play为决策属性,以 Outlook -> Temperature -> Humidity -> Windy 的顺序构造一棵决策树
决策树 Outlook Sunny Overcast Rain P Temperature Temperature Cool Mild Hot Cool Mild Humidity N P Humidity Humidity Normal High Normal High Normal P P N Windy Windy False True False True P N P N
课堂练习 • 以Temperature -> Outlook -> Windy -> Humidity 与 Humidity -> Windy -> Temperature -> Outlook 的顺序各构造一棵决策树
问题 • 不同的顺序导致决策树的大小是否相同? • 不同的决策树进行分类的效果是否相同? • 试构造一个新实例,它导致分类结果不同。
讨论 • 决策树越大越好还是越小越好? • Occam’s razor(上网搜索) • 复杂的模型导致过度拟合,简单模型则有更好的归纳能力
课堂练习 • 构造一棵最小的决策树,不同的分支可用不同属性
最小决策树 Outlook Sunny Overcast Rain P Humidity Windy False True High Normal P N N P
ID3算法 • Step 1. 选择合适的属性,使其信息增益最大; • Step 2. 根据该属性将数据分成几个子集; • Step 3. 针对各子集重复以上步骤,直到所有子集是“纯” 的,或者没有属性可用。
信息增益计算方法 • 选择属性时不需要计算I(p, n),因为对于不同属性该值相同
Congratulations! • 你已经掌握了数据挖掘最重要的算法!
作业2 • Weka的安装与使用 • 下载JDK, Weka • 安装 • 运行Weka,测试数据集Weather.nomimal
运行选项 • Classifier: trees -> Id3 • Test option: Using training set
结果 outlook = sunny | humidity = high: no | humidity = normal: yes outlook = overcast: yes outlook = rainy | windy = TRUE: no | windy = FALSE: yes
Woooo! • 你已经能用决策树来分析自己的数据! • 问题:分析的效果如何?
训练与测试 • 用一部分数据来训练分类器(决策树) • 另外的数据来测试该分类器的效果
iris.nominal.arff运行结果 • Test option: Percentage split 60% === Confusion Matrix === a b c <-- classified as 12 0 0 | a = Iris-setosa 0 11 2 | b = Iris-versicolor 0 0 10 | c = Iris-virginica
连续属性值 • 用C4.5(J48) • 选择合适的断点(离散化)
iris.arff运行结果(树) 66%训练,其余测试 petalwidth <= 0.6: Iris-setosa (50.0) petalwidth > 0.6 | petalwidth <= 1.7 | | petallength <= 4.9: Iris-versicolor (48.0/1.0) | | petallength > 4.9 | | | petalwidth <= 1.5: Iris-virginica (3.0) | | | petalwidth > 1.5: Iris-versicolor (3.0/1.0) | petalwidth > 1.7: Iris-virginica (46.0/1.0)
iris.arff运行结果(准确率) === Confusion Matrix === a b c <-- classified as 15 0 0 | a = Iris-setosa 0 19 0 | b = Iris-versicolor 0 2 15 | c = Iris-virginica
作业3 • 专业数据分析 • 构造你所学专业数据 • 用ID3或C4.5分析 • 上传源数据与运行结果
参考文献 [1] J.R. Quinlan, Induction of Decision Trees, Machine learning 1: 81-106, 1986 (被引用次数9054)
第二章 属性约简与属性值约简 • 属性约简是粗糙集的一个重要问题 • 动机 • 删除冗余属性以加快学习速度,提高分类器精度(多数属性约简工作的目标) • 减少数据获取的代价,即测试代价(闵帆的最新研究重点)
决策表的属性约简 • 在Weather决策表中,哪些属性去掉后,不影响分类器(如决策树)的生成?
删除Temperature • ?
删除Outlook • ?
讨论 • 哪些属性可以被约简? • 有哪些约简? • {Outlook, Humidity, Windy} • {Outlook, Temperature, Windy} • 可否有多个属性被同时约简?
最小约简 • 属性数量最少的约简被称为最小约简 • Zoo有33个约简,最小的有5个属性,最多的有7个 • { a2, a3, a5, a7, a12 } • { a0, a2, a5, a7, a10, a12 } • { a0, a2, a5, a6, a9, a11, a12 } • { a0, a2, a5, a7, a11, a12 } • ......
最小测试代价约简 • 假设各属性的测试代价如下: • 哪个约简为最小代价约简?
问题 • 为什么要找最小约简? • 为什么要找最小测试代价约简? • 两个问题有什么关系?
核属性 • 包含在所有约简中的属性 • 本例中为{Outlook, Windy}
属性值约简 • 把某属性值设为“不关心”,用*表示
获得的特殊决策表 • 把某属性值设为“不关心”,用*表示