Data Mining & SPSS Modeler

Data Mining & SPSS Modeler

Day 1 数据挖掘简介 1.1 数据挖掘概念

1.1 数据挖掘概念 数据挖掘概念数据挖掘定义：用已验证的方法从大量数据中发掘出可采取行动的内在知识，从而改善企业运营。 • 业务中的数据量呈现指数增长（GB/小时） • 传统技术难以从这些大量数据中发现有价值的规律 • 数据挖掘可以帮助我们从大量数据中发现有价值的规律运营 • 预测与分类 • 聚类 • 关联分析 • 序列分析 • 异常监测 • 时间序列

1.1 数据挖掘概念 预测和分类有目标的对事物进行分类预测，如：客户流失预测、吸毒人员复吸预测、营销活动响应预测等。教育程度非大学毕业大学毕业收入低收入高收入

1.1 数据挖掘概念 聚类分析聚类分析是根据数据本身结构特征对数据点进行分类的方法。实质是按照彼此距离的远近将数据分为若干个类别，以使得类别内数据的“差异性”尽可能小(即“同质性”尽可能大)，类别间“差异性”尽可能大。低收入高收入学生 Group n Group 1 矮文书代垫贸易高 Group 2 Group 3

1.1 数据挖掘概念 关联分析关联模式挖掘旨在从大量的数据当中发现特征之间或数据之间的相互依赖关系。这种存在于给定数据集中的频繁出现的关联模式，又称为关联规则。后项(Consequent) 前项(Antecedent) 蔬菜鲜鱼耳机? 内存? 红酒? 啤酒? • Buying Pattern 后项(Consequent) 前项(Antecedent) 配饰手机前提(1) & 前提(2) & … & 前提(m) 结论 Antecedents Consequent

1.1 数据挖掘概念 序列相关分析确定事件发生的序列，如：网页点击序列相关性分析、产品购买序列相关性分析等。 • Pattern 规则 • 应用例子邮件 Main 金融证券 Model 1 邮件目录（Mail Directory）上设有金融服务连接以及广告活动邮件 cafe 邮件 cafe Model 2 邮件目录上设有café广告 Main 免费论坛邮件免费论坛 Model 3 首页目录上设有论坛连接 Community 广告以及活动游戏广告以及活动 Model 4 Community以及游戏目录上设有banner

高低高高 1.1 数据挖掘概念异常分析从正常群体中筛选出异常个体/行为，如：信用卡盗刷、欺诈监测等。客户年龄 8 5 6 4 3 单笔刷卡金额 1 2 7 客户职业 8

1.1 数据挖掘概念 时间序列分析基于事物发展的延续性和随机性预测事物未来的发展，如：交通流量预测、销售量预测、使用量预测等。时间

Day 1 数据挖掘简介 1.2 数据挖掘应用

1.2 数据挖掘应用 应用领域数据挖掘越来越多的应用到了各个领域中，主要包括与客户关系管理相关的模型、与风险控制相关的模型、与生产销售预测相关的模型等。 • 顾客细分&扼要描述 • 流失顾客 Scoring模型 CRM 模型 • 市场活动反应模型 • 商品推荐模型 • 产品生产需要预测模型 • 收入推算模型预测模型 • 销售预测模型 • 网络浏览量预测模型 • 贷款拖欠管理模型 • 新加入/流失顾客Scoring模型 • 揭发保险欺诈模型 • 信用评价模型数据挖掘金融模型 • Risk 管理模型 • 早期预警模型 • 揭发欺诈模型 • 质量保证(Warranty) 分析模型 Risk 管理模型 • 商圈分析 • 统计质量管理模型 • 生物学相关模型 • LTV (Life Time Value) 其它统计模型

1.2 数据挖掘应用 制造业制造业数据挖掘应用主题电子产品Cross-selling, Up-selling 关于轿车产品的需求预测不良钢铁制造工艺的预测轮胎质量管理库存最优化分析轿车质量保证（Warranty）分析产品收益性分析轿车顾客的细分&扼要描述 … …

1.2 数据挖掘应用 制造业-示例-炼油公司的生产需求预测 01 问题 03 02 原因分析原因分析决策 • 把握未来3个月石油产品的生产量, 降低石油库存, 稳定生产量. • 利用SPSS的时间序列模型, 建立模型，准确地预测未来3个月生产量，进行需求预测!! • 汽油&柴油的话，预测模型的误差率是2~3% ，几乎准确，然后将此发送给工厂需求预测概要系统画面 • 影响因素: 价格, 气象等 • Intervention : IMF, 911恐怖事件等 • 销售/需求Data • 多种预测模型 • 选择最优模型拟定销售计划需求预测

1.2 数据挖掘应用 金融业金融业数据挖掘应用主题各保险种类死亡率差异损失早期预警系统银行顾客收益性 &终生价值管理金融商品的 Cross-selling, Up-selling 银行贷款信用评价& 放款限额揭发保费申请欺诈(FDS) 银行顾客细分& 扼要描述保险新顾客的吸引&维护管理保险Underwriting List管理 … …

1.2 数据挖掘应用 金融业-示例-保险公司客户细分 01 问题 03 02 原因分析原因分析决策 • 谁是我们公司的顾客? • 如何分辨对公司收益有贡献的顾客和对公司收益无贡献的顾客？ • 对公司全体顾客的交易信息进行分析，利用SPSS的CLTV和RFM 方法算出顾客等级, 按各等级对顾客特性进行把握!! • 考虑不同等级顾客的特性，可以开展市场活动，增加优秀顾客!! 顾客细分概要系统画面公司顾客 VIPGold VIP Silver CLV (未来价值) 优秀顾客 • 对顾客进行细分，确定目标顾客&概要描述顾客细分长期维护顾客收入/财产(潜在价值) 一般顾客(提供一般服务) Life Stage (生活方式)

1.2 数据挖掘应用 金融业-示例-银行潜力客户挖掘&客户流失预测 01 问题 03 02 原因分析原因分析决策 • 难道没有吸引新顾客, 顾客流失前进行管理的有效市场战略吗? • SPSS神经网分析可以利用过去加入存款商品的顾客信息和最近解约后流失的顾客，从而掌握原因!! • 新顾客是参加工作没有太久的职场新人群体!! • 贷款金额比重高的顾客存款流失率会变高，对这群人可以提供什么产品呢? 有流失可能性顾客的预测模型潜力顾客预测模型新加入/流失Scoring 模型概要系统画面 • 顾客基本信息 • 相关销售信息 • 加入其它公司的信息 • 流失顾客信息等加入可能性分数/等级 ex) 78.5分(位于前24%组) 流失/解约可能性分数/等级 ex) 85.8分(位于前18%组)

1.2 数据挖掘应用 零售业零售业数据挖掘应用主题化妆品二次销售分析 (Re-selling) 大型超市二次销售分析 (Cross/Up-selling) 网络Shopping Mall 库存最优化分析会员顾客细分&扼要描述百货店商品相关性分析连锁卖场相关分析大型超市产品的需求预测网店活动反应预测分析 … …

1.2 数据挖掘应用 零售业-示例-电子商务网站产品交叉销售 01 问题 03 02 原因分析原因分析决策 • 顾客在购买某商品的同时, 还会购买什么产品呢? 我们推荐什么产品时会增加公司收益呢? • 利用Mining分析方法，掌握同一顾客所购买的商品!! • SPSS解决方案能简单地掌握商品间的购买周期从而把握再购买的时间点!! • 陈列在所购买商品附近的，可以作为交叉销售的商品!! • 对于过了购买周期后的顾客可以提供优惠券!! 关联推荐模型概要系统画面 • 内衣6种 Set 商品推荐 • 通过商品推荐系统推荐/提供购买可能性高的商品信息 • 翻皮靴子 • 访问网站

1.2 数据挖掘应用 零售业-示例-服装公司营销活动响应预测 01 问题 03 02 原因分析原因分析决策 • 对何种特性的顾客进行市场活动, 我们的顾客对e-MAIL &SMS 会积极响应吗? • 借助于SPSS Mining模型，使用顾客的年龄, 学历, 职业, 购买经历等多种信息，分析顾客特性，预测市场活动的反应!! • 对年轻顾客使用‘积分活动’，则比其他顾客的购买率高很多!! 市场活动响应预测模型概要系统画面 • 用活动响应预测模型，计算出活动对象的先后顺序 • 优秀顾客维护活动 • 打折活动 • 积分活动 • 季节新产品宣传活动 • 防止睡眠顾客的活动…

1.2 数据挖掘应用 通信业通信行业数据挖掘应用主题使用手机的顾客细分&特征描述现存顾客收益性 &终生管理以手机顾客的倾向为基础，进行内容推荐分析服务质量&商品生命周期分析防止移动通信公司顾客流失无线网络上网流量分析手机上商品的Up-selling 移动通信新顾客的维护 … …

1.2 数据挖掘应用 通信业-示例-客户交叉销售 01 问题 03 02 原因分析原因分析决策 • 我们公司最近有很多网络、通信内容方面的服务!!!与Needs相吻合,能有效地推荐商品的办法是什么? • 商品和顾客数都很大的情况下也可以很简单地向购买可能性高的顾客推荐相关性高的商品!! • SPSS的Collaborative Filtering是利用顾客倾向，将类似顾客进行分组，从而可以差别化地进行推荐商品!! ② ① Ⅱ Ⅲ MOVIE MUSIC 顾客分类模型开发群集模型开发市场 I APP Gain Chart Rule Description 顾客倾向模型开发功能&可行性评价 L I F E 推荐内容推荐模型概要预测模型结果

1.2 数据挖掘应用 通信业-示例-通信公司网络流量分析 01 问题 03 02 原因分析原因分析决策 • 通过预测流量，适当地对服务器进行分配/增加，从而顺利地解决问题!! • 近来由于智能手机而发生的服务速度&付费系统的流量超负荷，顾客怨声四起，能否最大限度降低怨声? • 把握增加服务器的时机, 保证系统容量不负荷，使用SPSS预测模型进行预测，进行监控!! CDMA 流量预测模型概要系统画面 W-CDMA 流量超载流量预测最优流量处理

1.2 数据挖掘应用 政府/公共领域政府/公共领域数据挖掘应用主题各种犯罪事件相关的安全性分析探查个人/企业的偷税漏税情况通过预测交通量来设置停车场交通事故原因分析高速公路交通量预测经济指标的预测收集统计信息，预防各种灾难旅游景点人数预测 … …

1.2 数据挖掘应用 政府/公共领域-示例-交通事故原因分析 01 问题 03 02 原因分析原因分析决策 • 用SPSS Decision模型来预测具有什么驾驶习惯的人易多次发生交通事故!! • 降低交通事故政策 • 有什么方案可以降低交通事故? • 告诉肇事司机造成事故原因的驾驶方式, 对其进行j教育，防止事故发生!! 生成建模所要用的数据需要时可以再建模仔细调查驾驶经历搜查信息+ 个人信息生成预测模型执行数据挖掘建模安全度预测模型概要系统画面司机从事者过去的交通事故信息

建模Segment 按各收费关卡按各入口/出口按气象条件 1.2 数据挖掘应用政府/公共领域-示例-高速公路交通流量预测 01 问题基本时间序列模型完善特殊事项的模型 03 02 原因分析原因分析决策 • 用SPSS 预测解决方案分析各时间段收费站的通行量数据，预测本次通行量和所需时间!! • 考虑所预测的各时间段通行量，从而有效地运营入口/出口收费关卡!! • 每个时间段，应该打开几个入口/出口收费站? • 主要的城市间需要多长时间? 异常值/缺失值完善节日年头年尾节日前后完善模型特殊时间段/特殊天气节日也按异常值处理公休日年休假完善模型交通量预测模型概要系统画面时间序列(Time Series) 建模分析者经验特殊时间段完善模型完善模型天气完善模型 ARIMA / 指数平滑/ AR 等多种时间序列模型中，选择最优模型完善模型完善模型完善模型

1.2 数据挖掘应用 其他领域其它领域(医院, 航空公司, 广告公司, 学校等)数据挖掘应用主题审查医疗保险申请航空公司销售&需求预测顾客收益性&终生价值管理疾病关联分析旅行商品的Up-selling 广告收视率预测医院医疗事故原因分析医院顾客的维护&预防流失 … …

1.2 数据挖掘应用 其他领域-示例-电视台广告费定价 01 问题 ETCL 作业 ODBC 03 02 原因分析原因分析决策 • 电视在什么时间段播放什么样的题材收视率比较高? • 如何合理的制定电视台广告费定价？ • 收视率预测模型越精确，广告费的价格政策才能更精确才能营造合理的广告费&市场环境!! • SPSS 预测模型以各电视台的偏向性, 历史收视率信息为基础，进行收视率预测!! 生成Data Mart DB SPSS DB • 时间序列模型预测广告收视率 • 生成Data Mart 结果值INSERT 收视率预测模型概要系统画面 • TV Program Table • TV广告收视率Table • 抽样对象Table • 购买Guide> TV > Rating/效果 • 购买Guide> TV > 新节目Rating预测 .net系统下查询数据

Day 1 SPSS Modeler 介绍 2.1 工具概述

2.1 工具概述 IBM SPSS Modeler 14.2 产品名 IBM SPSS Modeler可以在一个软件内实现加载数据、转换、建模、评估、图形以及结果输出。它是一种利用对话框，图标，菜单等便可展现完整的GUI的软件。. SPSSModeler 14.2 概要 SPSS Modeler • IBM SPSS Modeler作为为了从大容量数据开始搜寻有用的信息的 Data Mining的解决方案，已经上市14个版本，全世界各地广泛应用。通过视觉工作方式轻松获得此界面可以保障操作的灵活性在最短的时间内形成最多样的模型开放式构架(Open Architecture) 特点

C/S架构 2.1 工具概述产品架构 • Modeler采用了CS的架构，其中SPSS Modeler Sever具有大规模数据处理能力：支持SQL Pushback及并行处理；相比SPSS Modeler Client可以节省近90％的建模时间。 Client提供友好的分析界面，可单独使用或配合Server使用 Server具有更好的处理性能，

2.1 工具概述 特点和优点-1 现存的Mining工具中，设有最多的建模方法开放型结构(Open Architecture) 特点特点易于其他S/W 以及DBMS通用的Data Mining S/W。与内部体现的Source连接；还可以与Middle Ware相互互换；, 在企业保留中的与其他S/W同样的Group一样使用。特别在S/W 交换或者Up-Grade时候，对其他程序的使用没有任何影响。现存的Mining工具中，设有最多建模方法。因此，用户可以按需所求，进行Data Mining分析.

DB Bulk Loading 3 1 2 4 文件位置、属性信息与外部Loader 程序同时驱动在DB Table，Bulk Loading 开发Client PC 结果可以转化为一般文件形式 IBM SPSS Modeler Client 现存方法中，最快的数据Export方法。在大量数据处理中，最适合的方法在SPSS Modeler，最易于使用(利用GUI ) Windows XP/Vista/7 IBM SPSSModeler TCP/IP 外部Loader程序识别文件 MiningMart Data Base txt 文件 2.1 工具概述特点和优点-2 效率型大量数据处理功能开放型结构(Open Architecture) *用户PC *开发Client PC DB Bulk Loader 程序 *运营服务器 *开发服务器 Web- Java 等特点特点 • 通过将Data Mining 分析结果回写至数据库，以DB模式进行管理，可提高利用效率。 • 将Mining结果，与其它用户共享。通过对当前数据设置缓冲，提高数据传输能力，更加有效地处理数据。

支持标准数据挖掘方法论 2.1 工具概述特点和优点-3 执行数据挖掘时，方法论非常重要. 因为准确的方法论能够提高作业速度, 能系统地减少各种进展状况，所以选择正确的方法论是很重要的. CRISP-DM 方法论是全球认可的数据挖掘的标准执行方法论. CRISP-DM (Cross Industry Standard Process for Data Mining) CRISP-DM是 NCR, OHRA, SPSS, Daimler-Benz等全球顶尖企业一起开发出来的数据挖掘方法论,没有特定的工具和特定领域局限，适用于所有行业的标准方法论，相对于现存的其他数据挖掘方法论，具有更优越性，因而被更多地采用。现在几乎所有的数据挖掘项目都采用CRISP-DM方法论，已经被用于多个行业，它的优越性得到了认证。

Day 1 SPSS Modeler 介绍 2.2 SPSS Modeler 节点

2.2 SPSS Modeler 节点 Source Node 数据连接Node 支持多种格式存储数据读取（平面文件、 Statistics、SAS、 Excel） ODBC 兼容的数据库（ Microsoft SQL Server、DB2、Oracle 等） SPSSModeler 14.2 Operation Node 数据转换Node 数据记录操作：选择、汇总、追加等数据预处理功能数据字段操作：类型定义、生成新字段、填充缺失字段等操作 Graph Node • 图形Node • 27种图形功能，自主和向导两种作图方式 • 很大程度上利用直方图，二维图和三维图对数据进行探索 Modeling Node 建模Node 利用Decision Tree, Regression, Neural Network, Clustering, Association 等各种运算方法. Output Node Mining 结果输出 Node 包括最终结果用表格或外部文件输出功能评价生成的模型间的预测力等功能 IBM SPSS Modeler IBM SPSS Modeler 节点简介-1 • IBM SPSS Modeler根据CRISP-DM 方法论执行数据访问及记录/字段的数据转换任务，根据Mining的运算法则进行建模或输出结果等 Data Mining必要的其他任务。

2.2 SPSS Modeler 节点 节点简介-2

2.2 SPSS Modeler 节点 节点简介-3

2.2 SPSS Modeler 节点 Source Node 强大的数据读取功能源节点 • IBM SPSS Modeler可以访问 IBM SPSS Statistics、Excel、文本、SAS等各种形式的文件，同时还支持通过ODBC连接各种数据库。 Oracle, SQL Server, DB2等数据库可以通过ODBC连接可以连接ASCII 格式的平面文件可以直接访问Statistics, IBM Cognos BI, Excel, SAS 6,7,8 文件的数据不仅可以访问外部资料，还可以直接输入数据

2.2 SPSS Modeler 节点 Operation Node 丰富的数据处理方法预处理节点 • IBM SPSS Modeler提供多种方式的数据预处理节点，分析人员可以综合利用节点拖拉拽的功能实现复杂的质量探索、缺失值填充以及数据转换等功能。包括数据整合、转换、筛选的各类预处理功能提供复杂的抽样功能，确保样本完整性支持多种连续数据离散化的手段，包括根据预测目标对连续值做最优的分段自动数据准备功能大大降低了数据与处理的复杂度提供RFM节点，将交易信息转化为客户综合得分数据处理过程提供“缓冲”功能，可大大降低数据的重复计算

2.2 SPSS Modeler 节点 Graph Node 图形化的数据探索方式画图节点 • 提供其他统计包中不包含的2\3维图，以便轻松的找到数据明显特征及模式，通过旋转变换掌握变量间的关系。连续型变量的各个区间可能生成直方图，使用者可以任意指定级别。可以用鼠标来创建一个新的变量的直方图区域或选择记录。用三维散点图通过旋转X轴和Y轴，掌握其变量之间的关系。 Web 图形是通过各种变量连接的强度来展示的，为了体现最值得关注的连接可以调整连接的强度或者删除弱得连接。虽然与直方图相似，但可以比直方图提供更多的信息。带着属于X级别的Y变量的统计值（最小值，最大值，平均值，标准偏差等）绘制成与直方图统一的图形。为了清楚变量的分布及变量间的关系要利用分布Node。根据使用者的便利可以按照各个区间的比率绘制图形，也可以使各个区间统一标准化后绘制图片。支持按时间绘制变量变化的节点，通过时间散点图可以发现变量序列性、周期性、循环性的规律，从而便于更好的分析和预测。在一个Node中提供各种图形。选择想研究的数据字段，可以根据选择的数据字段来选择适合的图形，与选择的数据字段不合适的图形会自动的不显示。提供在一个可变量X（独立）中体现可变量Y（从属）的Multi plot。可以容易的同时比较各个变量。.

Modeling Node 多种数据挖掘算法 2.2 SPSS Modeler 节点建模节点 • IBM SPSS Modeler提供多种数据挖掘算法，包括分类、关联、细分等几大类，同时还提供自动建模技术，可用于在一次建模运行中即可尝试各种方法，估算和比较多个不同的建模方法。客户细分：聚类、决策树、回归模型… 交叉销售：决策树、回归、关联模型… 价值迁移：决策树、时间序列模型… 满意度分析：主成分分析、回归… 自动建模回归模型人工智能聚类模型时间序列降维关联分析模型其他决策树模型

Modeling Node 评估图与评估表的结果增益图利润图评估预测结果评估预测结果 ROI 响应图 2.2 SPSS Modeler 节点评估节点 • IBM SPSS Modeler提供了包括评估图、表格以及统计分析等多种模型评估方式。建模后，可以绘制出关于模型的评定量表，此节点包括增益图(Gains Chart)、响应图(Response Chart )、提升图(Lift Chart)、利润图(Profit Chart)、投资回报率图对应的功能以交叉表的形态提供，来评价模型的预测能力。对比一个或者多个模型其不同的预测值与实际目标值的准确度。增益图利润图响应图提升图

Output Node 多样的结果导出方式 2.2 SPSS Modeler 节点输出导出节点 • 自由地修改或编辑用Output导出的图形和表格，并且，把分析结果转换成各种形态的分析数据，在网络上发布可以与他人共享的数据分析结果。 • Statistics 功能 • 可以提供分析对象变量的各种基础统计量 • 可以进行变量间的相关分析 • 可以用html, txt存储统计量. • Data Quality 功能 • 可以检查包含在数据里的Null Value, Blank • 可以以html, txt形式保存输出结果. • Display 功能 • 输出结果在屏幕上以表、矩阵或报告形式显示 • 可以转换为分析数据 • 可以提供报告 • Export 功能 • 分析的结果可以保存为文本格式、Statistics的.sav格式、Excel、 SAS 6,7,8 等文件 • 可以将预测结果直接导入数据库中（通过ODBC)，支持多种主流数据库。

Day 1 建模简介 3.1 建模简介

3.1 建模简介 何为模型？ • 决策树生成规则集代垫

3.1 建模简介 创建流 • 模型是一组规则、公式或方程式，可以用它们根据一组输入或变量来预测输出。代垫 • 如果收入 = 中等 • 并且卡 <5 • 则 ->“优良”

3.1 建模简介 创建流 • 要构建流以创建模型，至少需要三个元素： • 源节点、字段选项节点和建模节点 • • 从某些外部源读取数据的源节点； • • 一个指定字段属性的源节点或“类型”节点，字段属性包括测量级别（字段包含的数据类型）以及每个字段在建模过程中的角色是目标还是输入等； • • 一个在运行流时生成模型块的建模节点。代垫 • Statistics 文件源节点从 tree_credit.sav 数据文件读取 SPSS Statistics 格式数据，

3.1 建模简介 创建流 • 类型节点指定每个字段的测量级别。测量级别是一种指示字段中数据类型的类别。我们的源数据文件使用三种不同的测量级别。代垫 • 测量级别：指示字段中数据类型的类别 • 连续字段：连续的数字值 • 名义字段：有两个或多个不同值 • 有序字段：描述具有顺序固定的不同值的数据 • 角色：每个字段在建模中扮演的部分 • 目标：预测其值的字段 • 输入：需要用其值来预测目标字段值的字段

3.1 建模简介 创建流 • 使用 CHAID 建模节点：卡方自动交互效应检测，是一种通过使用称作卡方统计量的特定统计类型识别决策树中的最优分割来构建决策树的分类方法。 • 建模节点的“字段”选项卡代垫

Data Mining & SPSS Modeler