740 likes | 946 Views
第四章 联机分析处理. 第 4 章 联机分析处理. 4.1 联机分析的概念与特性 4.1.1 联机分析的概念 4.1.2 联机分析的特性 4.1.3 联机分析准则 4.2 多维 OLAP 和关系 OLAP 4.2.1 MOLAP 和 ROLAP 的概念 4.2.2 OLAP 选择评价 4.2.3 OLAM. 4.3 OLAP 服务器及其工具评价 4.3.1 OLAP 服务器和工具的评价标准 4.3.2 Oracle OLAP 工具 4.3.3 Informix 工具
E N D
第4章 联机分析处理 • 4.1 联机分析的概念与特性 • 4.1.1 联机分析的概念 • 4.1.2 联机分析的特性 • 4.1.3 联机分析准则 • 4.2 多维OLAP和关系OLAP • 4.2.1 MOLAP和ROLAP的概念 • 4.2.2 OLAP选择评价 • 4.2.3 OLAM
4.3 OLAP服务器及其工具评价 • 4.3.1 OLAP服务器和工具的评价标准 • 4.3.2 Oracle OLAP 工具 • 4.3.3 Informix 工具 • 4.3.4 MS SQL Server中的OLAP功能
4.1 联机分析的概念与特性 • OLAP一类软件技术,它可使企业数据分析人员、企业经理及企业其他管理人员通过对企业信息的多种可能的观察角度进行快速、一致和交互性的存取,以获得对信息的深入理解。
OLAP技术有两个主要的特点:一是在线性(On-Line),表现为对用户请求的快速响应和交互式操作,它的实现是由客户机/服务器体系结构完成的;而二是多维分析(Multi-Analysis),这也是OLAP技术的核心所在。OLAP技术有两个主要的特点:一是在线性(On-Line),表现为对用户请求的快速响应和交互式操作,它的实现是由客户机/服务器体系结构完成的;而二是多维分析(Multi-Analysis),这也是OLAP技术的核心所在。
4.1.1 联机分析的概念 • 1. OLAP的概念与操作 • (1)OLAP的概念 • A.变量。变量是数据的实际意义,它主要描述数据“是什么”。 • B.维。维是人们观察数据的特定角度。 • C.维的层次。人们观察数据的某个特定角度(即某个维)还可以存在细节程度不同的多个描述方面,这时称这多个描述方面为维的层次。‘
D.维成员。维的一个取值称为该维的一个维成员、如果一个维是多层次的,那么该维的维成员是由各个不同维层次的取值组合而成。D.维成员。维的一个取值称为该维的一个维成员、如果一个维是多层次的,那么该维的维成员是由各个不同维层次的取值组合而成。 • E.多维数组。一个多维数组可以表示为:维1,维2,…,维n,变量 • F.数据单元(单元格)。多维数组的取值称为数据单元。
(2)OLAP的基本操作 • OLAP的基本操作是指对以多维形式组织起来的数据采取切片、切块、旋转等各种分析动作,以求剖析数据,使最终用户能从多个角度、多侧面地观察数据仓库中的数据,从而深入地了解包含在数据中的信息和内涵。 • A.多维的切片。在多维分析过程中,如果对多维数据集的某个维选定一维成员,这种选择操作就称为切片(Slice)。
在切片的概念中,有以下两个重要的概念必须掌握:在切片的概念中,有以下两个重要的概念必须掌握: • 多维数据集的切片数量多少是由所选定的那个维的维成员数量的多少所决定的。 • 进行切片操作的目的是使人们能够更好地了解多维数据集,通过切片的操作可以降低多维数据集的维度,可使人们将注意力集中在较少的维度下进行观察。
2. 维关系 • (1)维的层次关系 • 在OLAP应用中,经常涉及对维的层次关系分析。 • 这种不同层次关系的出现完全取决于用户的分析应用需要以及对数据组织的详略要求。 • 有关维的层次信息需要存储在元数据中。
(2)维的类关系 • 在OLAP的应用中,常常涉及对维成员的分类与归纳,即在查询中根据用户关于类别的要求对所有维成员进行分类,在分类的基础上归纳的共同特征或区别于其他类的特征。
在OLAP应用中,有的需要按照维的层次关系进行分析,有的需要按照维成员的类进行分析。这两种分析的操作是不同的。在OLAP应用中,有的需要按照维的层次关系进行分析,有的需要按照维成员的类进行分析。这两种分析的操作是不同的。
4.1.2 联机分析的特性 • 1.OLAP特性 • (1)快速性。用户对OLAP的快速反应能力有很高的要求。要求系统能在几秒钟内对用户的多数分析要求做出反应。 • (2)可分析性。OLAP系统应能处理与应用有关的任何逻辑分析和统计分析。尽管系统可以事先编程,但并不意味着系统定义了所有的应用。
(3)多维性。多维性是OLAP的关键属性。系统能够提供对数据分析的多维视图和分析,包括对层次维和多重层次维的支持。事实上,多维分析是分析企业数据最有效的方法,是OLAP的灵魂。(3)多维性。多维性是OLAP的关键属性。系统能够提供对数据分析的多维视图和分析,包括对层次维和多重层次维的支持。事实上,多维分析是分析企业数据最有效的方法,是OLAP的灵魂。
(4)信息性。不论数据量有多大,也不管数据存储在何处,OLAP系统应能及时获得信息,并且管理大容量信息。(4)信息性。不论数据量有多大,也不管数据存储在何处,OLAP系统应能及时获得信息,并且管理大容量信息。 • (5)共享性。共享性是在大量用户间实现潜在地共享秘密数据所必须的安全需求。
2. OLAP与OLTP的比较 • OLAP主要是关于如何理解聚集的大量不同的数据。它与OLTP应用程序不同,OLAP包含许多具有复杂关系的数据项。OLAP的目的就是分析这些数据,寻找模式、趋势以及例外情况。 • 联机分析处理是决策人员和高层管理人员对数据仓库进行信息分析处理。
联机分析处理是具有下面特征的联机事务: • A.可以存取大量的数据。 • B.要包含聚集的数据。 • C.按层次对比不同时间周期的聚集数据。 • D.以不同的方式来表现数据。
E.要包含数据元素之间的复杂计算。 • F.能够快速地响应用户的查询,以便用户的分析思考过程不受系统影响。
表4-1 OLTP与OLAP对比表 OLTP OLAP 数据库 原始操作 数据库导出数据或数据仓库数据 细节性数据 综合性数据 当前数据 历史性数据 经常性更新数据 不可更新,但可周期性刷新数据 一次性处理的数据量少 一次性处理的数据量多 对响应时间要求高 响应时间合理 用户量大 用户量少 面向操作人员、支持日常操作 面向决策人员、支持管理需要 面向应用、实物驱动 面向分析、分析驱动
3. OLAP与数据仓库 • 在数据仓库中,OLAP和数据仓库是密不可分的,但是两者是不同的概念。 • 数据仓库是一个包含企业历史数据的大规模数据库,这些历史数据要用于对企业的经营决策提供分析和支持。
业务处理系统 第三层 第二层 第一层 客户端 数据准备区 数据清理、转换 数据抽取 数据加载 数据仓库 OLAP服务器 多维化 处理 可视化处理 图4-2 数据仓库与OLAP关系
从OLAP使用的效率角度考虑,在设计数据仓库是应该考虑如下因素:从OLAP使用的效率角度考虑,在设计数据仓库是应该考虑如下因素: • (1)尽可能使用星型架构,如果采用雪花结构,就要最小化事实表底层维度表以后的维度表数量。
(2)为用户设计包含事实表的维度表,这些维度表应该包含有意义的、用户希望了解的信息。(2)为用户设计包含事实表的维度表,这些维度表应该包含有意义的、用户希望了解的信息。 • (3)度表的设计应该符合通常意义上的范式约束,维度表中不要出现无关的数据。
(4)事实表中不要包含汇总数据,事实表中所包含的用户需要访问的数据应该具有必需的粒度,这些数据应该是同一层次的数据。(4)事实表中不要包含汇总数据,事实表中所包含的用户需要访问的数据应该具有必需的粒度,这些数据应该是同一层次的数据。 • (5)对事实表和维度表中的关键字必须创建索引,同一种数据尽可能使用一个事实表。 • (6)保证数据的参考完整性,是事实表中的所有数据都出现在所有的维度表中,避免事实表中的某些数据行在立方体进行聚集运算时没有参加过来。
4.1.3联机分析准则 • OLAP是介于客户与数据仓库之间的数据分析处理系统,它需要对来自数据仓库的数据进行多维处理和分析,因此在系统的构造中常常采用三层客户/服务器结构。 • 这种三层客户/服务器的结构通常将数据仓库、OLAP服务器与客户端严格区分。
Codd提出了12条准则来规范OLAP系统,这12条准则是:Codd提出了12条准则来规范OLAP系统,这12条准则是: • (1)OLAP模型必须提供多维概念视图 • (2)透明性准则 • (3)存取能力推测 • (4)稳定的报表能力 • (5)客户机/服务器体系结构 • (6)维的等同性原则
(7)动态的稀疏矩阵处理原则 • (8)多用户支持能力 • (9)非受限的跨维操作 • (10)直观的数据操纵 • (11)灵活的报表生成 • (12)不受限的维与聚集层次
4.2多维OLAP和关系OLAP • 多维OLAP和关系OLAP是OLAP的两种具体形式。其中多维OLAP(Multi-dimension OLAP,MOLAP)是基于多维数据库存储方式建立的OLAP;关系OLAP(Relation OLAP,ROLAP)是基于关系数据库存储方式建立的OLAP。
4.2.1 MOLAP和ROLAP的概念 • 1. OLAP服务器 • 20世纪90年代出现了专用的OLAP服务器软件,OLAP服务器包含了为企业用户预定义的超级立方体,从而能为具有明确的数据分析范围和分析要求的企业提供高性能的决策支持。 OLAP数据库 DBI OLAP 服务器 客户端 软件 客户端 软件 DBI 图4-3 OLAP服务器结构
2.MOLAP • 当由逻辑设计或信息模型驱动时,MOLAP设计和设置的基本步骤如下: • (1)功能选择。 • (2)指明数字信息。 • (3)确定维以及每一维的粒度。 • (4)定义逻辑模型并装载多维数据存储,这可以直接 从数据源中获得,也可以过滤并匹配数据仓库数据。
MOLAP可提供的主要功能包括: • (1)对内涵查询的快速响应,只有快速响应才能保证分析和思考的过程。 • (2)与多维数据库进行交互,使其支持预测、预先计划、进行预算等应用。 • (3)挖掘各维元素或信息间丰富的联系,以发现其中微妙的关系。 • (4)强大的计算引擎和比较分析。
(5)交叉维计算,或对基于电子表格的应用按行计算。(5)交叉维计算,或对基于电子表格的应用按行计算。 • (6)综合统计和财务功能。 • (7)灵巧时,日期中的年、当前时刻、财务或内部的日历等。 • (8)具有查询数据仓库中底层细节数据的能力。 • (9)沿单维或多维处理的基准点、表格、细剖和统览以及其他强有力的导航功能。
MOLAP应用多维数据存储方式的管理员和系统管理员需要具有的能力包括:MOLAP应用多维数据存储方式的管理员和系统管理员需要具有的能力包括: • (1)选择恰当的模型和粒度来初始化模型,预测数据访问的方式;选择合适的过滤器来装载源于数据仓库的数据等。 • (2)在数据装载过程中的聚集、概括和预计算能力。 • (3)用专用语言书写新应用程序,以便扩充和增强多维数据库的标准前后端。
应用多维数据存储方式时可能遇到的问题有: • (1)所支持的多维数据库的尺寸小于关系数据库的尺寸。这时可利用稀疏矩阵技术来节省空间,其副作用是增加了操作。 • (2)按粒度的级别(概括的、聚集的、预计算和派生的数据)来存储数据会带来副作用(如细剖无法达到细节数据级)。
(3)高层次级别的数据具有访问和安全性控制,但没有基于使用的权限和子集级的访问控制。(3)高层次级别的数据具有访问和安全性控制,但没有基于使用的权限和子集级的访问控制。 • (4)维结构的改变需要重组多维数据库,常用的备份和恢复功能会受限。 • (5)因需要特定的前后端会限制选择——但在扩充多维数据库的前后端后,又会导致它不能移植至另一多维数据库。
3.ROLAP • ROLAP是基于关系数据库的OLAP技术,它具有如下特征: • (1)有很强的SQL生成器。 • (2)对目标数据库和SQL进行优化。 • (3)通过元数据指导查询。 • (4)有区分客户、服务器及中间件的能力。
ROLAP开始的设计和设置是按技术数据库设计的方式来驱动的,它遵循以下基本步骤:ROLAP开始的设计和设置是按技术数据库设计的方式来驱动的,它遵循以下基本步骤: • (1)利用星型模式、雪花模式、混合模式等技术来构造维模型。 • (2)添加适当的聚集和概括数据。 • (3)把大的数据库分解成可管理的部分以提高效率。
(4)添加生成的索引或位模式索引来增强功能。(4)添加生成的索引或位模式索引来增强功能。 • (5)生成并存储元数据。
从运行角度来看,执行查询的步骤如下: • (1)利用数据的应用视图或维视图来构造客户工具。 • (2)从客户工具查询OLAP并实时检查元数据。 • (3)创建多种SELECT语句和/或相关子查询,并把它们提交给关系数据库。
(4)在数据库查询结果上完成多维功能。 • (5)将结果返回给客户工具以便进一步处理和显示, 或者立即进行显示。
提供给用户和管理员的主要功能有: • (1)关系数据的商业视图。 • (2)维层次支持。 • (3)计算、统计和财会功能,它们都可由用户扩充。 • (4)细列细节层次。 • (5)选择前、后端工具。
(6)数据库管理员可以增强已有的备份和恢复功能,并可提供数据库的子集来进行个别地分析。(6)数据库管理员可以增强已有的备份和恢复功能,并可提供数据库的子集来进行个别地分析。 • (7)利用元数据导航。 • (8)具有使用权限的多级安全性控制。
此方法需要如下管理和系统管理: • (1)对OLAP服务器的非初始化装载或阶段性修改。 • (2)使用已存在的标准来进行备份、恢复和安全性管理。 • (3)设计维模型来提供数据的商业视图,这要求用户使用过星型模式、雪花模式和混合模式,并具有一定经验;还需要具有数据分解、聚集和概括分级等功能。
(4)在全局数据仓库范围内管理、协调和维护所有新产生的元数据。(4)在全局数据仓库范围内管理、协调和维护所有新产生的元数据。 • (5)控制器用来协调性能,性能的协调可能影响到数据库模型、数据分解或聚集及概括的级别。
4.2.2 OLAP选择评价 • 1.对MOLAP和ROLAP的比较 • 为了衡量这两种模式的特点,通常需要对MOLAP与ROLAP进行比较。如下几点: • (1)查询性能 • (2)数据加载性能 • (3)分析能力 • (4)数据集市的大小 • (5)维的管理 • (6)维护能力
2. OLAP的衡量标准 • (1)解释性批处理提取 • (2)OLAP分析模型 • (3)提取丢失值 • (4)弹性报告 • (5)一致性能报告 • (6)对物理层的自动调整 • (7)通用维
4.2.3 OLAM • 1.体系结构 • 根据多维数据实际存在形式的不同,有以下两种组织方式。 • (1)基于多维数据库方式 • 在这种方式下,来自各关系数据库的综合数据以实际的多维形式被存储在多维数据库(MDDB)中。 • (2)基于关系型数据库方式 • 在这种情况下,多维数据视图在程序执行时由RDBMS翻译执行相应SQL语句实现。
OLAM以应用程序服务器的形式安装于网络,浏览器端的用户访问应用程序服务器的方式如下:OLAM以应用程序服务器的形式安装于网络,浏览器端的用户访问应用程序服务器的方式如下: • (1)通过WWW服务器传递应用信息。 • (2)客户端应用直接与OLAM通信,而不经过Web服务器。
WWW服务器是实现OLAM功能的中枢,也是Web数据库技术的传统做法、一个典型的WWW上的数据库多维分析和挖掘应用的执行流程大概可以分成如下几个步骤:WWW服务器是实现OLAM功能的中枢,也是Web数据库技术的传统做法、一个典型的WWW上的数据库多维分析和挖掘应用的执行流程大概可以分成如下几个步骤: • (1)浏览器端用户通过HTML文件中的表单提出数据分析挖掘请求,并传递给WWW服务器。
(2)在WWW服务器端调用相应的应用程序,如CGI、ISAPI或NSAPI等,并根据需要激活OLAM服务程序。(2)在WWW服务器端调用相应的应用程序,如CGI、ISAPI或NSAPI等,并根据需要激活OLAM服务程序。 • (3)OLAM服务器引擎将立方体操作译为SQL请求,并交给DBMS(DWMS)执行。 • (4)WWW服务器将结果反馈给用户。