430 likes | 574 Views
第九章:数据仓库. 第章 数据仓库. 概述 数据仓库构造 联机分析处理 OLAP 数据仓库的开发 数据挖掘. 概述. 数据仓库的产生 数据仓库定义 数据仓库系统的主要特征. 数据仓库的产生.
E N D
第章 数据仓库 • 概述 • 数据仓库构造 • 联机分析处理OLAP • 数据仓库的开发 • 数据挖掘
概述 • 数据仓库的产生 • 数据仓库定义 • 数据仓库系统的主要特征
数据仓库的产生 • 数据处理大致分为两大类:操作型处理和分析型处理。操作型处理也叫联机事务处理(On-Line Transaction Processing,OLTP),是指对数据库联机的日常操作,通常是对数据记录的查询和修改,主要是为企业的特定应用服务的,人们关心的是响应时间、数据的完整性和安全性。分析型处理也叫联机分析处理(On-Line Analytical,Processing, OLAP),主要用于管理人员的决策分析,需要经常访问大量的历史数据,两者之间存在很大的差异。
数据仓库的产生 • 数据仓库(Data warehouse,DW) • 数据仓库并不是一个新的平台,它仍然建立在数据库管理系统基础之上,只是一个新的概念。从用户的角度看,数据仓库是一些数据、过程、工具和设施,它能够管理完备的、及时的、准确的和可理解的业务信息,并把这种信息提交给授权的个人,以便他们作出正确有效的决定。
数据仓库定义 • 数据仓库概念的创始人W.H.Inmon对数据仓库的定义是:数据仓库是面向主题的、集成的、稳定的、随时间变更的数据集合,用以支持经营管理中的决策制定过程。 • 数据仓库是决策支持系统(DSS)的一种有效、可行和体系化解决方案,包括了三个方面的内容: • (1)数据仓库技术,用于数据的存储和组织; • (2)联机分析处理(On-Line Analytical Processing, OLAP)用于数据的分析; • (3)数据挖掘技术(Data Mining, DM)用于知识的自动发现。
数据仓库系统的主要特征 • 数据仓库系统的主要特征有: • (1)面向主题 • 主题是某一宏观分析领域中所涉及的分析对象。例如,一个商场,主要分析各类商品的销售情况,确定营销的策略,这里商品就是一个主题。为了便于决策分析,数据仓库是围绕着这个主题(例如商品、供应商、地区和客户等)而组织的。
数据仓库系统的主要特征 • (2)集成 • 数据仓库的数据来自于不同的数据源,要按照统一的结构、一致的格式、度量及语义,将各种数据源的数据合并到数据仓库中。 • (3)稳定且不可更新 • 数据仓库的数据主要供决策分析之用,所涉及的数据操作主要是数据查询,这些数据反映的是不同时间点的数据库快照的统计、综合等导出数据,它们是稳定的,不能被用户随意更改。
数据仓库系统的主要特征 • (4)随时间变化 • 对用户来说不能更改数据仓库中的数据,但随着时间变化系统进行定期刷新,把新的内容追加到数据仓库,并随时导出新综合数据和统计数据。 • 数据仓库是一个决策支持的环境,它从不同的数据来源获得数据,集成数据,组织和管理数据,使得数据有效地支持决策分析。
数据仓库构造 • 数据仓库系统结构 • 数据仓库模型 • 元数据
数据仓库系统结构 • 1.数据仓库的逻辑结构和物理结构 • 数据仓库中的逻辑结构数据由3层到4层数据组成,它们均由元数据(MetaData)组织而成。数据仓库中数据的物理存储形式有多维数据库组织形式(空间超立方体形式)和基于关系数据库的组织形式(由关系型事实表和维表组成)。 • 2.数据仓库系统 • 数据仓库系统(DWS)至少由数据集成、数据存储和数据查询与分析工具三部分组成。
数据仓库系统结构 • (1)数据源 • (2) 数据的集成 • (3)数据存储 • (4)数据查询和分析工具 • 3.数据仓库应用的C/S结构形式
数据仓库模型 • 数据仓库模型有多种形式,如星形模式、雪花模式、星座模式、暴风雪模式等,其中最流行的是星形模式。 • 星形模式(Star Schema)是为了将数据分割成执行起来容易理解的格式而设计的。星形模式是由两种类型的表组成的:事实表和维表。事实表为多个维表围绕,并与维表相连。
数据仓库模型 • (1)事实表 • 事实表(Fact Table)通常是数据仓库中的最大表。事实表包含两种类型的列。第一种类型的列包含了用于计算的信息,例如销售额、盈余百分比、销售佣金、折扣、制造产品成本等。这些项一般是数值的,但也可能是文本。这些事实数据组成了表的主要部分。另一种类型的列是对维表的索引列,这些列存储了维表的主键值。
数据仓库模型 • (2)维表 • 维(Dimension)是人们观察数据的特定角度,它是数据仓库与联机分析处理中的重要概念。在维表(Dimension Table)中包含的数据一般用于选择包括或排除从事实表中返回的数据。存储在维表中的数据通常是文本,但有时也是数值。例如,邮政编码是一个数值,但它不能在一些数学函数(如求平均值,求和及标准偏差)中使用,它可以用来筛选将从事实表中返回的数据。例如,查询邮政编码为410025的地区的销售情况。这将使用邮政编码维字段来选择事实表中邮政编码为410025的销售数据。高级管理人员是不会询问数据仓库中邮政编码的平均值的。维表通常比事实表要小得多。
数据仓库模型 • 例如,下面是几个时间维可以回答的问题: • 第四季度的平均销售额是多少? • 在最近三个月的星期五支付给销售人员的销售佣金的总和是多少? • 节假日的一般销售额是多少? • 什么时间是最容易销售的:在季度的初期、中期或末期?
数据仓库模型 • 例如,顾客维可以回答下列几个问题: • 拥有500个以上雇员的公司的平均销售额是多少? • 纽约州或新泽西州公司的销售合同的平均长度是多少? • 信用等级较低的,并且销售额超过200万美元的公司数目是多少?
元数据 • 元数据是关于数据的数据,它是用户或管理员需要的使用数据的全部信息。 • 数据仓库中有三种类型的元数据。 • 1.系统元数据 • 2.管理元数据 • 管理元数据解释数据管理的所有细节。 • 3.商务元数据 • 商务元数据是直接指向商务用户的。
联机分析处理OLAP • 联机分析处理(OLAP)是针对特定问题的联机数据存取和分析处理。 • OLAP数据模型 • OLAP基本操作 • OLAP实现技术
OLAP数据模型 • 人们这种考察问题的特定角度称为维(Dimension) • 立方体(Cube) • 多维数据模型(Multidimensional Data Model)
OLAP数据模型 • 多维OLAP(MOLAP)系统
OLAP基本操作 • 1.切片 • 2.切块 • 3.旋转 • 4.上卷 • 5.下探
OLAP实现技术 • 1.实视图 • 实视图(Materialized view) • 在图12.5中的销售表共有三维:产品、日期和地区,现分别用P(Product)、D(Date)和Z(Zone)表示。 • 从销售表可以定义下列四种实视图: • (1)PDZ视图。这里,销售表本身就是PDZ视图。
OLAP实现技术 • (2)PZ、ZD、PD视图 • Create view PZ(产品标识符, 地区标识符, 销售总额) AS • Select 产品标识符,地区标识符, Sum(销售额) AS 销售总额 • From PDZ • Group by 产品标识符, 地区标识符; • 类似地可以定义ZD和PD视图。
OLAP实现技术 • (3)P、D、Z视图。 • Create view P(产品标识符, 销售总额) AS • Select 产品标识符, Sum(销售总额) AS 销售总额 • From PZ • Group by 产品标识符; • 类似地可以定义D和Z视图。P从PZ定义为的是节省计算量,P也可以从PDZ定义。
OLAP实现技术 • 2.位图索引 • 现在通过一个例子来说明位图索引。下图(a)是一个客户表。
OLAP实现技术 • 3.连接索引 • 位图连接索引(Bitmap Jion Index)
数据仓库的开发 • 数据仓库开发的流程 • 构造数据仓库的过程 • 执行信息系统
数据仓库开发的流程 • (1)启动工程。 • (2)建立技术环境。 • (3)确定主题进行数据建模。 • (4)设计数据仓库中的数据库。 • (5)用数据转换程序实现从源系统中抽取数据、清理数据、一致性格式化数据、综合数据、装载数据等过程的设计和编码。 • (6)定义和管理元数据,即表示、定义数据的意义及系统各组成部件之间的关系。 • (7)确定结构化的决策支持查询,实现和使用数据仓库的数据分析工具,包括优化查询工具、统计分析工具、C/S工具、OLAP工具及数据挖掘工具等,通过这些分析工具实现决策支持需求。 • (8)管理数据仓库环境。
构造数据仓库的过程 • 1.建立营业环境的文档。 • 2.选择实现数据仓库的技术。 • 3.设计数据仓库模型。 • 4.提取和清除例程的开发。 • 5.建立元数据存储库。 • 6.创建多维报告和立方体。
执行信息系统 • 执行信息系统(EIS)是数据仓库中为高层管理人员而设计的工具软件系统,它能从数据仓库中获取决策需要的数据。
数据挖掘 • 什么是数据挖掘 • 数据挖掘的主要目标与特点 • 数据挖掘模型
什么是数据挖掘 • 数据挖掘(Data Mining,DM) • 数据挖掘技术包括三个主要部分:算法和技术、数据、建模能力。 • 知识发现(Knowledge Discovery in Database,KDD) • (1)问题定义。了解相关领域的有关情况,熟悉背景知识,弄清用户需求。 • (2)数据提取。根据要求从数据库中提取相关的数据。
什么是数据挖掘 • (3)数据预处理。对前一阶段产生的数据进行再加工,检查数据的完整性及数据的一致性,对其中的噪音数据进行处理,对丢失的数据进行填补。 • (4)数据挖掘。运用选定的知识发现算法,从数据中提取出用户所需要的知识,这些知识可以用一种特定的方式或使用一些常用的表达方式。 • (5)知识评估。将发现的知识以用户能了解的方式呈现,根据需要对知识发现过程中的某些处理阶段进行优化,直到满足要求。
数据挖掘的主要目标与特点 • (1)总结 • 对数据进行浓缩,给出它的紧凑描述。数据挖掘主要关心从数据泛化的角度来讨论数据总结。数据泛化是一种将数据库中的有关数据从低层次抽象到高层次上的过程。 • (2)特征(Characterization) • 从一组数据中抽取出关于这些数据的特征式,该特征式表达了该数据集合的总体特征。 • (3)区分(Discrimination) • 通过对学习数据和对比数据的处理,抽取出关于学习数据的主要特征,这些特征可以把学习数据和对比数据区分开来。
数据挖掘的主要目标与特点 • (4)分类(Classification) • 根据数据的不同特征将数据划分为不同的类,这些类是事先利用训练数据建立的。 • 分类目的是学会一个分类函数或分类模型(也称为分类器),该模型能够将数据库中的数据项映射到给定类别中的某一个。 • (5)关联规则(Association Rule) • 发现数据对象之间的相互依赖关系。一个关联规则的形式为: • A1∧A2∧…∧Ai→B1∧B2∧…∧Bj • 其含义为:如果B1∧B2∧…∧Bj出现,则一定出现A1∧A2∧…∧Ai,表明数据A1∧A2∧…∧Ai与数据B1∧B2∧…∧Bj存在着某种联系。例如,规则“在购买面包和黄油的顾客中,有90%的人同时购买了牛奶”。
数据挖掘的主要目标与特点 • (6)聚集(Clustering) • 将一组个体按照相似性规成若干类别,即“物以类聚”。它的目的是使同一类别的个体之间的距离尽可能地小,而不同类别的个体间的距离尽可能地大。 • (7)预测(Predication) • 通过对数据的分析,估计某些丢失数据或未来数据的可能值,或一个数据集合中的属性值的分布情况。
数据挖掘模型 • (1)If-Then 模型 • (2)分类模型 • (3)聚簇模型 • (4)序列模型