数据挖掘 101

数据挖掘101 联合研究中心谢弘一

数据挖掘名词的来源 • 1960年代：Data Fishing • 1980年代末期：Database Mining (Rakesh Agrawal)然而，Database Mining一词已被HNC公司注册，为避免侵权，这群学者改用Data Mining，泛指不需事前假设，以找寻资料规则的演算处理。 • 1991年：Data Mining一字是由Usama Fayyad于1991时，首次于他的博士论文中发表。 2/

数据挖掘的起源 • 数据挖掘的开创者，Usama Fayyad，出生于突尼西亚的电脑科学家，1987年就读密西根大学时硕士班时，参加General Motors的暑期工作，目的为编译大量维修资料库。Fayyad希望找出一个方法，协助维修人员能够根据汽车的型式、引擎容量等，询问资料库一些问题，并且能够迅速地得到一个适当的回应。然而，由于资料库中存放了数十亿笔的记录，人类的能力无法进行所有的资料处理，因此他设计出一种辨识模式的演算法，并成为他在1991年所发表的博士论文。 • 离开密西根后，Fayyad加入了NASA的喷射推进实验室，将他发展的演算法应用于太空探测、地质研究等工作上均展现了非常惊人的潜力，最后连美国军方也开始应用这样的技术来增强雷达解读与辨识资料的能力。由于许多领域皆表现出高度的兴趣，Fayyad与同事在1995年召开首次的KDD国际研讨会，当时参加人数为500人左右，为原先预期人数的两倍，而在2000年所举办的研讨会之参与人数已达到950人(MIT Technology Review, 2001)。几年下来，已成为 Data Mining 界的年度盛会了。 • Data Mining最早是被应用在天文学上，藉由机器学习、类型辨识及统计等技术，在短短4小时内所发现的行星胜过20多位天文学家4年的研究成果。 3/

为何要使用数据挖掘？ • 过去人们将资料藉由人力分析与解释方式转换成知识，随传统资料处理逐渐转成电子型式，资料探勘的发展就已悄悄地进行。拜科技进步所赐，电脑及储存媒体等硬体与软体之价格不断下降，电脑的运算速度也不断的提升，再加上交易资料不断累积，庞大的资料量已难单纯使用人脑加以理解与想象。资料的成长，除资料栏位数目的增加，也包含了资料笔数的成长(Fayyad & Stolorz, 1997)。 • 人类分析及想象较高维度资料之能力有限，此时常用的解决方案即是将高维度的资料给予转换为较低之维度，然后再于此简化的资料集合中进行分析。然而，将高维度资料转换为人脑可处理之低维度，存在相当大的风险，因其极可能扭曲或忽略原本资料间的关系；大量的资料，更是难以单纯使用传统人工方式加以整理。藉由电脑强大的运算能力与各学科的专业知识，能够以有效率方式，从现存高维度资料中，萃取内隐难见，而深具价值的资讯。 4/

资料来源：“Data mining and KDD: Promise and challenges,” by U. Fayyad & P. Stolorz, 1997, Future Generation Computer Systems, 13, 99-115. 5/

(一) 了解应用领域与相关先验知识，并从顾客观点出发，确认KDD程序之目标。(一) 了解应用领域与相关先验知识，并从顾客观点出发，确认KDD程序之目标。 • (二) 建立目标资料集合(target data set)：选择欲执行探索任务之资料集合，或是资料样本或变数之子集合。 • (三) 进行资料清理(data cleaning)及预处理(preprocessing)，包括处理资料噪音、搜集建立模型之必要资讯、决定处理遗漏值之准则……等。 • (四) 资料减量(data reduction)及投射(projection)：藉由维度缩减(dimensionality reduction)或转换方式，找出可忠实呈现任务目标之有用特征。 • (五) 依步骤(一)目标，确认适当资料探勘方法，如分类、回归、群集……等。 • (六) 选择资料探勘之演算法及工具，进行探索性分析、假设与模型建构，以了解模型和参数是否适当。 • (七) 资料探勘：从树状图、分类规则、回归……中找寻有趣的模式。 • (八) 解释探勘所得模式，包括将抽出模式视觉化(visualization)或将套用所得模式后的资料视觉化。必要时需重复前述七项步骤。 • (九) 运用探索到的知识：包括直接使用该知识、将该知识与其他系统整合，或以书面方式提供给对该知识有兴趣之单位，以作为未来决策之参考。 6/

数据挖掘的功能 Fayyad and Stolorz (1997)将数据挖掘依技术分为五种基本方法： • 预测模式(Predictive Modeling) • 群集(Clustering) • 统计摘要模式(Data Summarization) • 相依模式(Dependency Modeling) • 变化与误差侦测(Change and Deviation Detection) 7/

预测模式 • 预测模式的目标即基于资料库中其他栏位的变数，希望预测出某(些)栏位值。预测模式可进一步依前述被预测变数之特性区分为两类，若被预测之变数为数值(numeric)性质者，即属于回归(regression)问题；反之，若被预测变数为类别(categorical)性质者，则属于分类问题。此类模式的做法通常为给定某一些变数的值做为输入栏位，然后利用这些变数的资讯推测出预测变数最可能出现的结果。例如，给定顾客最近购买金额、购买频率与金额，以及其他相关的顾客属性资料，而预测出该顾客是否会流失(分类问题)，或是预测顾客下次的购买金额(回归问题)。 8/

群集 • 如同分割(segmentation)的动作，群集并没有一个特定的预测栏位，而是希望把资料集合切割成不同子集合(subset)，被归在同一个子集合中的资料间，彼此存在相似的属性。与分类问题最大的差别在于，当我们进行群集分析时，事先可能不知道合适之子集合个数。 9/

统计摘要模式 • 统计摘要模式的目标为简化萃取出的模式。一般而言，进行统计摘要可有两种不同的角度：第一种为从资料的水平(cases)与垂直(fields)方向呈现资料。若从资料的水平角度或是垂直角度进行摘要，可以得知某个子集合的摘要讯息，例如产生某子集合的充分统计量或是逻辑条件；另一个角度为预测各栏位间的彼此关连(relations between fields)，其中有一个常见的应用即为关联规则(association rules)。关联系指某些值的组合会伴随着其他组合值出现而发生的频率与其必然性，例如购物篮分析，「尿布→啤酒，支持度5%，信赖度75%」，即表示75%的顾客进行尿布的购买时，也会同时购买啤酒，而其发生机率占所有顾客比率的5%。 10/

相依模式 • 若深悉资料的组成，通常可以获得资料内部的因果结构。相依模式主要用来描述变数之间相依程度的显著情形，可分成结构性(structured)层级和量化(quantitative)层级，利用图形或数字方式了解变数间的互动情形。 11/

变化与误差侦测 • 变化与误差侦测可以辨别出资料集中的资料值从过去衡量值或是基准值所出现的显著改变。一旦发现了偏向的情形，进一步的分析可以找出此一偏离的状况是由资料的噪音(即杂乱的资料)或是其他原因所引起。 12/

由于资料探勘技术备受重视，其应用领域亦因此日益广泛，目前已包含金融、保险、商业、行销、法律、科学等；申言之，只要该产业拥有具分析价值与分析需求的资料仓储或资料库，即可利用资料探勘之方法与技术进行有目的之探掘分析。由于资料探勘技术备受重视，其应用领域亦因此日益广泛，目前已包含金融、保险、商业、行销、法律、科学等；申言之，只要该产业拥有具分析价值与分析需求的资料仓储或资料库，即可利用资料探勘之方法与技术进行有目的之探掘分析。 13/

数据挖掘简介 • 数据挖掘：从数据中挖掘知识 14/

数据挖掘的定义 • Extracting knowledge from large amount of data. -Jiawei Han • … is the exploration and analysis, by automatic or semi-automatic means, of large quantities of data in order to discover meaningful patterns and rules. -J.A. Michael Berry • … is the process of automatically discovering useful information in large data repositories. - Tan et al., (2006) 15/

你不能不知的十大创新技术 • 根据TECHNOLOGY REVIEW杂志（麻省理工学院2002年1月出刊）提出改变未来的十大创新技术 • 机器与人脑的界面 • 塑料晶体管 • 数据挖掘(Data mining) • 数字权利管理 • 生物测定学(Biometrics) • 语言识别处理 • 微光学技术(Microphotonics) • 解开程序代码(Untangling code) • 机器人设计 • 微应用流体学(Microfluidics) 16/

Business Understanding Data Understanding Data Preparation Data Deployment Modeling Evaluation CRISP-DM六个阶段 17/

常用的Data Mining及统计学习方法-1 • Binary Classifier (二元分类) • Numeric Predictor (数值预测) • Time Series (时间序列) • C&R TREE (分类回归树) • Quick Unbiased Efficient Statistical Tree (QUEST决策树模型) • CHAID (分类树) • Decision List (决策树列表) • Regression (线性回归分析) • PCA/Factor (主成分分析) • Neural Net (类神经网路) • C5.0 (决策树) • Feature Selection (特征选取) • Discriminant Analysis (鉴别分析) • Logistic (罗吉斯回归) • Generalize Linear Model (广义线性模型) • Cox Regression

常用的Data Mining及统计学习方法-2 • Support Vector Machine (SVM支持向量机) • Bayes Net (贝氏分类器) • SLRM (自我学习反应模型) • GRI关联 • Apriori关联 • CARMA关联(连续交易) • Sequence Clusterc序列关联 • K-Means (K-Means分群) • Kohonen (自我组织化) • Two-Step (二阶段) • Anomaly (异常检测) • Random Forests (随机森林) • ICA (独立成分分析) • Multivariate adaptive regression spline (MARS多元适应性回归平滑) • Pmml(预测模型标记语言) • Boosting

Business Knowledge Data Mining OLAP Reports(动态& Ad hoc) Reports(静态) Easy Difficult 使用容易度 Data Mining的商业价值商业价值数据源:Microsoft Taiwan

Data Mining在各产业的应用 • 金融服务业客户贡献度分析、信用评分、风险评估、客户区隔、交叉营销等。 • 保险业顾客贡献度分析、信用评分、风险评估、客户区隔、交叉营销、客户流失分析和诈欺侦测等。 • 电信业顾客贡献度分析、信用评分、客户区隔、交叉营销、客户流失分析、销售预测和诈欺侦测等。

Data Mining在各产业的应用 • 制造业客户贡献度分析、质量管理、营销绩效分析、生产分析和存货分析等。 • 零售业客户忠诚度、客户区隔、购物篮分析、定价分析、交叉营销和销售预测等。 • 生物科技、医疗保健、航天空业、环境、法律等

数据挖掘无处不在

Thanks for your listening! 24/

数据挖掘 101

数据挖掘 101

Presentation Transcript