540 likes | 993 Views
高级人工智能. 第十三章 知识发现 (二) 史忠植 中国科学院计算技术所. 主要内容. 研究背景 MSMiner 体系结构 元数据 数据仓库平台 数据采掘集成工具. 典型的知识发现系统. SAS 公司的 SAS Enterprise Miner IBM 公司的 Intelligent Miner Solution 公司的 Clementine 加拿大 Simon Fraser Univ. 的 DBMiner 中科院计算技术研究所的 MSMiner 等. 知识发现工具 SAS.
E N D
高级人工智能 第十三章 知识发现(二) 史忠植 中国科学院计算技术所 史忠植 高级人工智能
主要内容 • 研究背景 • MSMiner体系结构 • 元数据 • 数据仓库平台 • 数据采掘集成工具 史忠植 高级人工智能
典型的知识发现系统 • SAS公司的SAS Enterprise Miner • IBM公司的Intelligent Miner • Solution公司的Clementine • 加拿大Simon Fraser Univ.的DBMiner • 中科院计算技术研究所的MSMiner • 等 史忠植 高级人工智能
知识发现工具SAS SAS公司的SAS Enterprise Miner是一种通用的数据挖掘工具。通过收集分析各种统计资料和客户购买模式,SAS Enterprise Miner可以帮助您发现业务的趋势,解释已知的事实,预测未来的结果,并识别出完成任务所需的关键因素,以实现增加收入、降低成本。 史忠植 高级人工智能
知识发现工具SAS • SAS Enterprise Miner提供"抽样-探索-转换-建模-评估"(SEMMA)的处理流程。数据挖掘算法有: • ·聚类分析,SOM/KOHONEN神经网络分类算法 • ·关联模式/序列模式分析 • ·多元回归模型 • ·决策树模型(C45, CHAID, CART) • ·神经网络模型(MLP, RBF) • ·SAS/STAT,SAS/ETS等模块提供的统计分析模型和时间序列分析模型也可嵌入其中。 史忠植 高级人工智能
知识发现工具Intelligent Miner IBM公司的Intelligent Miner具有典型数据集自动生成、关联发现、序列规律发现、概念性分类和可视化显示等功能。它可以自动实现数据选择、数据转换、数据发掘和结果显示。若有必要,对结果数据集还可以重复这一过程,直至得到满意结果为止。 史忠植 高级人工智能
知识发现工具Clementine Solution公司的Clementine 提供了一个可视化的快速建立模型的环境。它由数据获取(Data Access)、探查(Investigate)、整理(Manipulation)、建模(Modeling)和报告(Reporting)等部分组成。都使用一些有效、易用的按钮表示,用户只需用鼠标将这些组件连接起来建立一个数据流,可视化的界面使得数据挖掘更加直观交互,从而可以将用户的商业知识在每一步中更好的利用。 史忠植 高级人工智能
数据挖掘工具: 公用系统 • MLC++ • Matlab • Weka 史忠植 高级人工智能
知识发现工具MSMiner 中科院计算技术研究所智能信息处理开放实验室开发的MSMiner是一种多策略知识发现平台,能够提供快捷有效的数据挖掘解决方案,提供多种知识发现方法。 MSMiner具有下列特点: .基于数据仓库和新型的元数据管理按照主题创建数据仓库,并通过元数据进行管理和维护。 .数据的抽取、转换、装载等预处理方便,支持OLAP查询。 史忠植 高级人工智能
MSMiner的特点 • 提供决策树、支持向量机、粗糙集、模糊聚类、基于范例推理、统计方法、神经计算等多种数据挖掘算法,支持特征抽取、分类、聚类、预测、关联规则发现、统计分析等数据挖掘功能,并支持高层次的决策分析功能。 • 实现了可视化的任务编辑环境,以及功能强大的任务处理引擎,能够快捷有效地实现各种数据转换和数据挖掘任务。 • 可扩展性好。转换规则和挖掘算法是封装的、模块化的,系统提供了一个开放的、灵活通用的接口,使用户能够加入新的规则和算法。 • 容易进行二次开发。 史忠植 高级人工智能
数据仓库: 特征 • 面向主题 • 集成性 • 稳定性 • 随时间变化 史忠植 高级人工智能
数据仓库: OLAP • ROLAP: Relational OLAP • MOLAP: Multidimensional OLAP • HOLAP: Hybrid OLAP 史忠植 高级人工智能
数据挖掘和数据仓库的结合 • 数据仓库为数据挖掘提供经良好处理的数据源 • 数据挖掘为数据仓库提供深层数据分析手段 史忠植 高级人工智能
MSMiner体系结构 设计目标: 提供快捷有效的数据挖掘解决方案。 设计要求: • 开放性 • 可扩展性 • 效率 • 易用性 史忠植 高级人工智能
MSMiner体系结构 元数据模块 数据采掘集成工具 执行数据采掘任务 编辑数据采掘任务 数据仓库 OLE DB for ODBC 主题组织 数据抽取和集成 数据仓库管理器 客户端 服务器端 MSMiner体系结构示意图 OLAP 可视化 史忠植 高级人工智能
元数据的内容 • 关于外部数据源的 • 关于内部数据的(包括数据库、表、字段的信息) • 关于数据仓库的(包括事实表、维表、立方以及其它的中间表) • 关于用户信息的 • 数据采掘算法(包括算法的参数信息) • 关于采掘任务的(包括采掘步骤、每个步骤的所用的参数) 史忠植 高级人工智能
元数据:元数据库 史忠植 高级人工智能
元数据:元数据对象模型 设计思路 • 一致性 • 完备性 • 易维护性 史忠植 高级人工智能
元数据的结构 元数据是 • 层次的 • 嵌套的 • 封装的 • 互相联系的 • 采用面向对象的方法 共有60多个类 史忠植 高级人工智能
数据仓库平台:结构 数据采掘集成工具 元 数 据 OLAP及可视化工具 数据仓库 主题1 主题2 主题n ... 数据抽取、清洗、聚集、转换 外部数据 MSMiner数据仓库结构示意图 史忠植 高级人工智能
数据仓库平台:数据抽取和集成 • 数据的简单抽取和集成 • 数据的复杂处理 • 面向数据挖掘的数据预处理 史忠植 高级人工智能
数据抽取和集成: MSETL • MSETL系统作为MSMiner数据挖掘平台的一个重要组成部分,主要完成从业务数据源到分析数据源的转换功能。具体包括从异质业务数据源中抽取需要的数据,对这些数据进行多种预处理,把经过处理后的数据装载入指定数据仓库/数据库 史忠植 高级人工智能
数据抽取和集成: MSETL 用户界面 (ETL转换函数和ETL任务)逻辑处理 元数据管理 数据库服务器 史忠植 高级人工智能
数据抽取和集成: MSETL • 支持多种数据源和目的数据库 • 良好的可扩充性 • 高效率的调度执行功能 • 增量更新功能 史忠植 高级人工智能
数据抽取和集成: MSETL 史忠植 高级人工智能
数据抽取和集成: MSETL 史忠植 高级人工智能
数据仓库平台:数据仓库建模 产品维表 产品号 产品名称 产品目录 客户维表 事实表 客户号 客户名称 客户地址 产品号 客户号 订单号 时间标识 地区名称 产品数量 总价 订货维表 订单号 订货日期 时间维表 时间标识 月 季度 年 地区维表 地区名称 省别 星型模型 史忠植 高级人工智能
OLAP • MOLAP, ROLAP, HOLAP • OLAP 的操作 • Slice (切片) • Dice (切块) • Roll up (上卷) • Drill down (下钻) • Pivot (旋转) • OLAP方案采用了自主开发的 OLAP Server 史忠植 高级人工智能
数据立方体 史忠植 高级人工智能
数据仓库平台:OLAP的实现 史忠植 高级人工智能
数据挖掘集成工具:结构 算法管理 元数据 任务模型库、算法描述 任务编辑 任务规划 和执行 算法库 数据仓库平台 数据挖掘集成工具结构示意图 史忠植 高级人工智能
数据挖掘集成工具:数据挖掘任务模型 DMTask = (V, R) V = {x | x ∈StepObjects} R = {<x, y> | P(x, y) ∧ x, y∈V} Step3 Step1 Step2 Step5 Step4 史忠植 高级人工智能
数据挖掘集成工具:数据挖掘任务模型 步骤对象BNF语法定义: <StepObject> ::= <Attribute_List>;<Method_List> <Attribute_List> ::= [<Attribute>|<Attribute>;<Attribute_List>] <Attribute> ::= <Name>,<Value> <Method_List> ::= [<Method>|<Method>;<Method_List>] <Method> ::= <Name>,<Script> <Name> ::= [<char>|<string>] <Value> ::= [<char>|<string>|<integer>|<float>] <Script> ::= <DML_Sentence>* 史忠植 高级人工智能
数据挖掘集成工具:编辑任务模型 • 任务向导 史忠植 高级人工智能
数据挖掘集成工具:编辑任务模型 • 任务编辑图板 史忠植 高级人工智能
数据挖掘集成工具:处理任务模型 人机界面 规划器 主控模块 解释器 缓存 函数库 黑板 任务模型库 数据采掘任务处理引擎的结构 史忠植 高级人工智能
数据挖掘集成工具:处理任务模型 S3 S1 S5 S2 S4 任务规划和解释执行 S1 - S2 - S3 - S4 - S5 史忠植 高级人工智能
数据挖掘集成工具:DML语言 DML函数 • 人机交互和控制台输入/输出 • 数值计算 • 字符串处理 • 图形、图表展示 • 文件操作 • 数据库访问 • 网络通讯 • 对象访问 • 消息处理和流程控制 • 黑板操作 • 外部功能调用 • 其它辅助功能 史忠植 高级人工智能
数据挖掘集成工具:内嵌 • 决策树 • SOM神经网络 • 粗糙集 • 关联规则 史忠植 高级人工智能
决策树 史忠植 高级人工智能
知识约简 • 知识约简——在保持知识库的分类或决策能力不变的条件下,删除其中不相关或不重要知识 • 冗余知识——资源的浪费;干扰人们作出正确而简洁的决策 • Rough Set——把那些无法确认的个体都归属于边界线区域,而这种边界线区域被定义为上近似集和下近似集之差集(Z.Pawlak ) • 知识约简是粗糙集的核心内容之一 史忠植 高级人工智能
Rough Set约简 史忠植 高级人工智能
数据挖掘集成工具:外联 • BP神经网络 • 统计分析 • 模糊聚类 • 超曲面分类 • SVM • 贝叶斯网络 • 基于范例推理(CBR) • 隐马尔科夫模型(HMM) 史忠植 高级人工智能
BP用于预测 史忠植 高级人工智能
统计工具 • 线性回归模型——一元线性回归、多元线性回归、逐步回归 • 非线性回归模型——二次曲线、三次曲线、指数曲线、幂指数曲线、生产函数等模型 • 确定型时间序列模型——指数平滑法、趋势移动平均法(水平趋势、线性趋势和二次曲线趋势)、成长曲线模型(Compertz曲线、Logistic曲线和修正指数曲线 )、季节指数法 • 随机型时间序列模型(自回归-移动平均模型ARMA) • 相关分析 史忠植 高级人工智能
自回归移动平均( ARMA) 史忠植 高级人工智能
模糊聚类 • 基于传递闭包的模糊聚类——计算模糊相似矩阵的传递闭包,从而获得传递闭包法的模糊聚类 • 基于摄动的模糊聚类——参数系相似矩阵的最优模糊等价阵及其等价标准型获得失真最小的模糊聚类 史忠植 高级人工智能
数据挖掘集成工具:可扩展算法库 • 算法注册 史忠植 高级人工智能
MSMiner的应用:计算机选案 决策树选案 数据汇总表 定义样本模板 执行选案 样本数据表 选案规则 训练样本数据 选案结果分析 税务稽查计算机选案系统功能结构 史忠植 高级人工智能
MSMiner的应用:计算机选案 挖 掘 结 果: 史忠植 高级人工智能