第 1 章数据挖掘综述

第1章数据挖掘综述 • 1.1数据挖掘的研究历史和现状 • 1.2数据挖掘定义 • 1.3数据挖掘研究内容 • 1.4数据挖掘系统工作原理第1章数据挖掘综述

1.1数据挖掘的研究历史和现状 数据挖掘演变的过程 • 电子数据处理的初期，人们试图通过某些方法来实现自动决策支持，机器学习成为人们关心的焦点。 • 神经网络技术形成和发展，人们将注意力转向知识工程，直接给计算机输入已被代码化的规则。 • 80年代人们在新的神经网络理论指导下，又回到机器学习方法上，并将其成果应用于处理大型商业数据库。 • 随着数据库技术的发展及数据库管理系统的广泛应用，数据挖掘概念从商业角度被开发出来。第1章数据挖掘综述

数据进化的阶段 表1-1 数据进化的四个阶段第1章数据挖掘综述

发现知识（KDD） • 1989年举行的第十一届国际联合人工智能学术会议上首次出现知识（KDD）一词。 • 目前为止，由美国人工智能协会主办的KDD国际研讨会已经召开8次，研究重点逐渐从发现方法转向系统应用，注重多种发现策略和技术的集成，以及多种学科之间的相互渗透。 • 并行计算、计算机网络和信息工程等其他领域的国际学会、学刊也把数据挖掘和知识发现列为专题和专刊讨论。 • 与国外相比，国内对DMKD的研究稍晚，尚未形成整体力量。 1993年国家自然科学基金首次支持该领域的研究项目。目前，国内的许多科研单位和高等院校竞相开展知识发现的基础理论及其应用研究。第1章数据挖掘综述

1.2数据挖掘定义 1.2.1 技术角度的定义数据挖掘（Data Mining）就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。这个定义包括好几层含义： • 数据源必须是真实的、大量的、含噪声的； • 发现的是用户感兴趣的知识； • 发现的知识要可接受、可理解、可运用； • 并不要求发现放之四海皆准的知识，仅支持特定的发现问题。第1章数据挖掘综述

其中何谓知识？ • 从广义上理解，数据、信息也是知识的表现形式，但是人们把概念、规则、模式、规律和约束等看作知识，原始数据可以是结构化的、半结构化的，甚至是分布在网络上的异构型数据。 • 发现知识的方法可以是数学的、非数学的、演绎的、归纳的。发现的知识可以被用于信息管理、查询优化、决策支持和过程控制以及数据自身的维护。这里所说的知识发现，是相对的，是有特定前提和约束条件，面向特定领域的，同时还要能够易于被用户理解。最好能用自然语言表达所发现的结果。第1章数据挖掘综述

1.2.2商业角度的定义 • 数据挖掘是一种新的商业信息处理技术，其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理，从中提取辅助商业决策的关键性数据。 • 数据挖掘是一类深层次的数据分析方法。现在，由于各行业业务自动化的实现，商业领域由于纯机会的（Opportunistic）商业运作而产生大量的业务数据，经过深层分析，获得有利于商业运作、有竞争力的信息。 • 数据挖掘可以描述为：一种按企业既定业务目标，对大量的企业数据进行探索和分析，揭示隐藏的、未知的或验证已知的规律性，并进一步将其模型化的先进有效的方法。第1章数据挖掘综述

1.2.3 数据挖掘与传统分析方法的区别 • 数据挖掘与传统的数据分析的本质区别是：数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先前未知、有效和可实用三个特征。 • 数据挖掘是要发现那些不能靠直觉发现的信息或知识，甚至是违背直觉的信息或知识，挖掘出的信息越是出乎意料，就可能越有价值。第1章数据挖掘综述

1.2.4 数据挖掘和数据仓库 • 大部分情况下，数据挖掘都要先把数据从数据仓库中拿到数据挖掘库或数据集市中（见图1-1）。图1-1 数据挖掘从数据库中得出如果数据在导入数据仓库时已经清理过，很可能在做数据挖掘时就没必要再清理一次，而且所有的数据不一致的问题都已经被解决了。第1章数据挖掘综述

数据仓库 • 建立一个巨大的数据仓库，把各个不同源的数据统一在一起，解决所有的数据冲突问题，然后把所有的数据导到一个数据仓库内，是一项巨大的工程。图1-2 数据挖掘从事物数据库中得出第1章数据挖掘综述

1.2.5 数据挖掘和在线分析处理（OLAP） • OLAP是决策支持领域的一部分。 • OLAP分析是建立一系列的假设，然后通过OLAP来证实或推翻这些假设来最终得到自己的结论，本质是演绎推理的过程。 • 数据挖掘和OLAP具有一定的互补性。第1章数据挖掘综述

1.2.6 数据挖掘、机器学习和统计 • 数据挖掘利用了人工智能（AI）和统计分析的进步所带来的好处。这两门学科都致力于模式发现和预测。 • 数据挖掘不是为了替代传统的统计分析技术，而是统计分析方法学的延伸和扩展。 • 一些新兴的技术同样在知识发现领域取得了很好的效果，如神经元网络和决策树，在足够多的数据和计算能力下，几乎不用人的关照自动就能完成许多有价值的功能。第1章数据挖掘综述

1.2.7 软硬件发展对数据挖掘的影响 • 计算机性能价格比的巨大进步使数据挖掘这件事情成为可能的关键。 • 基于并行系统的数据库管理系统也给数据挖掘技术的应用带来了便利第1章数据挖掘综述

1.3数据挖掘研究内容 • 基础理论、 • 发现算法、 • 数据仓库、 • 可视化技术、 • 定性定量互换模型、 • 知识表示方法、 • 发现知识的维护和再利用、 • 半结构化和非结构化数据中的知识发现以及网上数据挖掘等。第1章数据挖掘综述

1.3.1数据挖掘所发现的知识 1．广义知识（Generalization）广义知识指类别特征的概括性描述知识。 2．关联知识（Association）它反映一个事件和其他事件之间依赖或关联的知识。 3．分类知识（Classification＆Clustering）它反映同类事物共同性质的特征型知识和不同事物之间的差异型特征知识。 4．预测型知识（Prediction）它根据时间序列型数据，由历史的和当前的数据去推测未来的数据。 5．偏差型知识（Deviation）它是对差异和极端特例的描述，用来揭示事物偏离常规的异常现象。第1章数据挖掘综述

1.3.2数据挖掘的功能 • 数据挖掘通过预测未来趋势及行为，做出前摄的、基于知识的决策。目标是从数据库中发现隐含的、有意义的知识。数据挖掘主要有以下5类功能： • 自动预测趋势和行为 • 关联分析 • 聚类分析 • 概念描述 • 偏差检测第1章数据挖掘综述

1.3.3数据挖掘常用技术 1.3.3.1人工神经网络神经网络常用于两类问题：分类和回归。在结构上，可以把一个神经网络划分为输入层、输出层和隐含层图1-3 一个神经网络输入层的每个节点对应一个个的预测变量。输出层的节点对应目标变量，可有多个。在输入层和输出层之间是隐含层（对神经网络使用者来说不可见），隐含层的层数和每层节点的个数决定了神经网络的复杂度。第1章数据挖掘综述

人工神经网络 如图1-4中节点4输出到节点6的值可通过下式计算得到 • 除输入层的节点外，神经网络的每个节点都与它前面的很多节点（称为此节点的输入节点）连接在一起，每个连接对应一个权重Wxy，此节点的值由通过它的所有输入节点的值与对应连接权重乘积的和作为一个函数的输入得到。图1-4 带权重Wxy的神经元网络第1章数据挖掘综述

神经网络设计 • 决定神经网络拓扑结构（或体系结构）的是隐含层及其所含节点的个数，以及节点之间的连接方式。 • 最常用的是前向传播式神经网络用前向传播得到输出值，如果发生错误，则用回馈法进行学习。当把训练集中的每一条记录都运行过一遍之后，我们称完成一个训练周期。要完成神经网络的训练可能需要很多个训练周期。训练完成之后得到的神经网络就是在通过训练集发现的模型，描述了训练集中响应变量受预测变量影响的变化规律。第1章数据挖掘综述

人工神经网络 • 训练过度的“模型”对训练集会有很高的准确率，而一旦离开训练集应用到其他数据，很可能准确度急剧下降。为了防止这种训练过度的情况，必须知道在什么时候要停止训练。 • 图1-5中的曲线可以帮我们理解为什么利用测试集能防止训练过度的出现。在图1-5中可以看到训练集和测试集的错误率在一开始都随着训练周期的增加不断降低，而测试集的错误率在达到一个谷底后反而开始上升，这个开始上升的时刻就是应该停止训练的时刻。第1章数据挖掘综述

人工神经网络 图1-5 神经网络在训练周期增加时准确度的变化第1章数据挖掘综述

使用神经网络时需要注意: • 神经网络很难解释，目前还没有能对神经网络做出显而易见解释的方法学。 • 神经网络会学习过度，在训练神经网络时一定要恰当的使用一些能严格衡量神经网络的方法，如前面提到的测试集方法和交叉验证法等。 • 除非问题非常简单，训练一个神经网络可能需要相当可观的时间才能完成。 • 建立神经网络需要做的数据准备工作量很大。要想得到准确度高的模型必须认真的进行数据清洗、整理、转换、选择等工作。第1章数据挖掘综述

1.3.3.2支持向量机 • 支持向量机以严格的统计学理论为基础，可以不依赖于设计者的经验。它与神经网络的学习方法相比，具有以下特点: • 支持向量机是基于结构风险最小化(SRM)原则，保证学习机器具有良好的泛化能力。 • 解决了算法复杂度与输入向量密切相关的问题。 • 通过引用核函数，将输入空间中的非线性问题映射到高维特征空间中在高维空间中构造线性函数判别第1章数据挖掘综述

支持向量机的特点 • 支持向量机以统计学理论为基础，主要针对小样本情况，且最优解是基于有限的样本信息，而不是样本数趋于无穷大时的最优解。 • 算法可最终转化为凸优化问题,因而可保证算法的全局最优性，避免了神经网络无法解决的局部最小问题。 • 支持向量机有严格的理论和数学基础，避免了神经网络实现中的经验成分。第1章数据挖掘综述

1.3.3.3决策树 决策树提供了一种展示类似在什么条件下会得到什么值这类规则的方法比如，在贷款申请中，如何对申请的风险大小做出判断？ • 图1-6是为了解决这个问题而建立的一棵决策树，从中可以看到决策树的基本组成部分：决策节点、分支和叶子。决策树的每个节点子节点的个数与决策树在用的算法有关。决策树每个节点有两个分支，这种树称为二叉树。允许节点含有多于两个子节点的树称为多叉树。第1章数据挖掘综述

本例中根节点是“收入>￥40,000”，对此问题的不同回答产了了“是”和“否”两个分支。本例中根节点是“收入>￥40,000”，对此问题的不同回答产了了“是”和“否”两个分支。决策树图1-6 一棵简单的决策树第1章数据挖掘综述

决策树 假如负责借贷的银行官员利用上面这棵决策树来决定支持哪些贷款和拒绝哪些贷款，他可以:用贷款申请表来运行这棵决策树，判断风险的大小。“年收入>￥40,00”和“高负债”的用户被认为是“高风险”;“收入<￥40,000”但“工作时间>5年”的申请，则被认为“低风险”而建议贷款给他/她。第1章数据挖掘综述

决策树 • 数据挖掘中决策树是一种经常要用到的技术，可用于分析数据，同样也可用来作预测。常用的算法有CHAID、 CART、 Quest 和C5.0。 BACON发现行星的运转周期随着距太阳的距离增加而增加，为求出它们之间的比例关系，它便分别构成，，等数据项，并进行检查。结果发现：在这种知识发现方法中，关键是新数据项如何产生，BACON系统提供了新数据项的产生方法。第1章数据挖掘综述

1．数据驱动知识发现方法 例如要发现开普勒定律，即行星绕太阳转动的周期与其相距太阳的距离之间存在常数。训练数据如表1-2的前4列所示。表1-2 开普勒定律的训练实例 1.3.3.4知识发现方法第1章数据挖掘综述

知识发现方法 2．数据关系的抽取典型的关系抽取方法有以下4种： • 依赖关系分析 • 分类 • 概念描述 • 偏差检测第1章数据挖掘综述

1.3.3.5粗糙集方法 1．信息的不确定性和含糊性 • （1）数据动态变化。 • （2）噪声。 • （3）数据不完整。 • （4）冗余信息。 • （5）数据稀疏。第1章数据挖掘综述

粗糙集理论 2．粗糙集的定义粗糙集（rough set）理论是由Pawlak于1982年提出的，是处理上述信息的不确定性和含糊性的有力工具。下面结合关系数据库中的实例来介绍粗糙集的概念。在关系数据库系统中，信息系统模型用二维表格表示，如表1-3所示。第1章数据挖掘综述

粗糙集理论 表1-3 关系数据库实例第1章数据挖掘综述

对于以上信息系统，也可以用集合论的方法表示 即用一个二元式S=(U, A)来表示,U为记录集合,U={R1,R2,..R5};A为属性的集合,A=(a1,a2,a3,a4)。在这个信息系统中，只看某些属性，一些记录（个体）是无法区分的，即不同的个体在被考虑的属性集上有相同的值例如，只考虑属性集(a1,a2,a3),则U中的个体和是无法区分的。因此，中的任何一个属性子集都可对进行分类。粗糙集理论第1章数据挖掘综述

粗糙集理论 【定义1.1】在信息系统中，对于一个属性子集，定义二元关系为不分明关系（或称等价关系）。即如果元素和属于集合，并且如果只考虑属性集，和无法区分，则与的这种关系可以表示为，称个体与在中的属性上具有等价关系。【定义1.2】设有信息系统，是的子集，是的子集，是上的等价关系，（其中）是按等价关系得到的包含的等价类，称为 -基本集。用属性集对进行划分，即获得的是一个等价类集。第1章数据挖掘综述

将子集的下近似集和上近似集 分别定义如下: 粗糙集理论由定义1.2可知，是所有元素都都包含在中的，上关于的等价类的联合；而是有元素包含在中的。显然关于上的近似集中的元素数，大于或等于关于的下近似集中的元素数。第1章数据挖掘综述

粗糙集理论 以表1-3所示的信息系统为例令则第1章数据挖掘综述

粗糙集理论 【定义1.3】关于的边界区域为如果 , 则称集合为上可定义集合；否则，称为上不可定义集合，或称粗糙集。 3．含糊性与不确定性的表示粗糙集理论提供了处理含糊性和不确定性的工具。根据这一理论，可以考察某一概念（论域中的子集）在一个近似空间（属性子集）中的含糊性。第1章数据挖掘综述

粗糙集理论 【定义1.4】含糊性系数即等于中的元素数与中的元素数之比。显然，是一个 [0 1] 区间的数值当，即为 1 时，概念是清晰的；越小，概念越含糊。第1章数据挖掘综述

粗糙集理论 如在表1-3的例子中，个体的任意一个子集关于性别这个属性来说概念上可能是含糊的，如集合而这种论域子集关于属性子集的概念上的含糊性可以通过定义1.4来计算。在粗糙集理论中，元素隶属于粗糙集的程度用隶属度函数来描述。如果元素在中，其隶属度函数值为；如果在边界区域，为；如果不在中，为。第1章数据挖掘综述

粗糙集理论 4．应用由于粗糙集理论能够描述数据库中的含糊性和不确定性问题，因此为数据采掘和知识发现提供了有效的工具。这种理论在信息系统中属性依赖关系的发掘，冗余的消除以及概念的获取中具有很大的应用价值。第1章数据挖掘综述

粗糙集理论 1.3.3.6模糊集方法：利用模糊集合理论对实际问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类分析。 1.3.3.7遗传算法：基于进化理论，并采用遗传结合、遗传变异、以及自然选择等设计方法的优化技术。 1.3.3.8近邻算法：将数据集合中每个记录进行分类的方法。 1.3.3.9规则推导：从统计意义上对数据中的“如果－那么” 规则进行寻找和推导. 1.3.3.10覆盖正例排斥反例方法：利用覆盖所有正例、排斥所有反例的思想来寻找规则。 1.3.3.11统计分析方法：利用统计学原理对数据库中的信息进行分析。第1章数据挖掘综述

1.3.4数据挖掘中的数据仓库 • 数据仓库与数据采掘之间有非常密切的关系。将数据采掘扩充到它的数据仓库系统环境中，可以增强用户的决策支持能力。用户从数据仓库中采掘信息时的方式： • 验证驱动数据采掘：较低层次上的由用户制导的被动方式。验证型采掘的策略是，用户首先提出自己的假设，然后利用各种工具通过递归的检索查询以验证或否定自己的假设。 • 发现驱动数据采掘：高层次上的主动式自动发现方法。发现型的采掘策略是，机器自动地从大量数据中发现未知的、有用的模式。第1章数据挖掘综述

1.3.4.1数据仓库的定义 对于数据仓库的概念可以从两个层次予以理解： • 数据仓库用于支持决策，面向分析型数据处理，它不同于企业现有的操作型数据库 • 数据仓库是对多个异构的数据源有效集成，集成后按照主题进行了重组，并包含历史数据，而且存放在数据仓库中的数据一般不再修改。第1章数据挖掘综述

数据仓库的特点 • （1）面向主题 • （2）集成的 • （3）相对稳定的 • （4）反映历史变化企业数据仓库的建设，是以现有企业业务系统和大量业务数据的积累为基础。把信息加以整理归纳和重组，并及时提供给相应的管理决策人员，是数据仓库的根本任务。因此，从产业界的角度看，数据仓库建设是一个工程，是一个过程。第1章数据挖掘综述

数据仓库系统体系结构 图1-7 数据仓库系统体系结构第1章数据挖掘综述

数据仓库系统 如上图1-7所示，整个数据仓库系统是包含四个层次的体系结构： • （1）数据源 • （2）数据的存储与管理 • （3）OLAP服务器 • （4）前端工具第1章数据挖掘综述

1.3.4.2建立高效数据仓库的关键问题 • （1）逐步建立、及时应用 • （2）注重易用性和可管理性 • （3）发挥工具的作用 • （4）高度的伸缩性 • （5）开放的运行平台 • （6）存储管理问题第1章数据挖掘综述

1.4数据挖掘系统工作原理1.4.1 数据挖掘系统结构图1-8 数据挖掘与其他学科的关系第1章数据挖掘综述

数据挖掘系统 数据挖掘是指从大量数据中提取或“挖掘”知识。该术语实际上有点用词不当。注意，从矿石或砂子挖掘黄金称作黄金挖掘，而不是砂石挖掘。因此，数据挖掘应当更正确地命名为“从数据中挖掘知识”，遗憾的是这个词有点长。 “知识挖掘”是一个较短的术语，但不能反映从大量数据中挖掘。毕竟，挖掘是一个很生动的术语，它抓住了从大量的、未加工的材料中发现少量宝贵金块这一过程的特点，如图1-9所示。第1章数据挖掘综述

第 1 章 数据挖掘综述