第 13 章数据库的其他新技术

第13章数据库的其他新技术 • 13.1 概述 • 13.2 并行数据库 • 13.3 多媒体数据库 • 13.4 主动数据库 • 13.5 数据仓库 • 13.6 工程数据库 • 13.7 空间数据库 • 13.8 移动数据库

13.1 概述 • 数据库技术产生于20世纪60年代末期，短短30年间已从第一代层次、网状数据库，第二代关系数据库系统发展到第三代以面向对象模型为主要特征的数据库系统。随着数据库技术不断应用到新的领域，传统数据库技术面临着以下新的挑战： • (1)信息爆炸导致数据量剧增。随着社会信息化进程的加快，信息量急剧增长。如构成人类基因组的DNA排列图谱，每个基因组DNA排列长达几十亿个元素，每个元素又是一个复杂的数据单元，据估计人类的基因组约5~6万种，如何表示、访问和处理这样的图谱结构数据，是数据库面临的难题。

13.1 概述 • (2)数据类型的多样化和一体化要求。传统的数据库技术基本上是面向记录的，以字符表示的格式化数据为主，这远远不能满足多种多样信息类型的需求。新的数据库系统应能支持各种静态和动态的数据，如图形、图像、语音、文本、视频、动画、音乐等。 • （3)当前的数据库技术还不能处理不确定或不精确的模糊信息。目前，一般数据库的数据，除空值外都是确定的。但是实际生活中要求数据库能表示、处理不确定或不精确的数据。

13.1 概述 • （4）数据安全性。数据库系统的发展方向是在大范围内集成，向广大用户提供方便的服务。随着移动主机（便携式计算机）的大量涌现，因特网的扩展延伸，用户可以随时随地访问数据库。此外，移动主机遗失、失窃等现象时有发生，这就带来严重的数据库安全和保密问题。现有的数据库安全措施还不能满足这个要求。 • （5）对数据库理解和知识获取的要求。目前，一方面正在被信息所淹没，另一方面由于缺乏知识而感到饥饿。人们对数据库的使用已不限于传统的查询，而希望把它作为知识源，从中提取一些知识，希望数据库具有推理、类比、联想、预测能力，甚至能从中得到意想不到的发现，希望数据库能主动而不是被动地提供服务。

13.1 概述 • 20世纪80年代中期以来，尤其是进入90年代，数数据库出现了许多新分支。数据库与其他相关技术相结合出现的新分支有：与面向对象技术结合出现的面向对象数据库，与分布技术相结合出现的分布式数据库，与并行处理技术相结合出现的并行数据库，与多媒体技术相结合出现的多媒体数据库，与人工智能技术相结合出现的主动数据库、知识库和演绎数据库、与模糊技术相结合出现的模糊数据库等。数据库面向不同的应用领域出现的新分支有：面向决策支持出现的数据仓库，面向工程设计出现的工程数据库，面向地理信息系统（GIS）出现的空间数据库，面向移动计算环境出现的移动数据库，以及实时数据库、统计数据库等。以上这些数据库都是将要在后面各节中分别加以介绍的。

13.2 并行数据库 • 13.2.1 并行数据库系统的体系结构 • 13.2.2 数据划分 • 13.2.3 并行处理技术 • 13.2.4 并行数据库系统和分布式数据库系统的区别

13.2.1 并行数据库系统的体系结构 • 并行数据库系统（Parallel Database System，简称PDBS）是以并行计算机为基础，以高性能和可扩展性为目标，利用多处理器结构提供比大型机系统高得多的性能价格比和可用性的数据库系统。人们普遍认为，并行数据库系统将是未来的高性能数据库系统。 • 目前，对并行数据库系统的研究已取得很大成效，出现了一些并行数据库的原型系统，如ARBRE、BUBBA、GAMMA、GRACE、ERADAT、XPRS等，一些运行在大规模并行处理系统上的大型商品化数据库管理系统如Oracle、Sybase等，也增加了并行处理能力。

13.2.1 并行数据库系统的体系结构 • 并行数据库系统的体系结构与计算机系统的结构有关，有共享内存（Shared-memory）结构、共享磁盘（Shared-disk）结构和无共享资源（Shared-nothing）结构等三种。 • 1.共享内存结构 • 在该结构中，多个处理器、多个磁盘和共享内存通过网络相连，数据库存储在多个磁盘上，可被所有处理器通过连接网络访问。共享内存结构是单SMP（紧耦合全对称多处理器）硬件平台上最优的并行数据库结构。

13.2.1 并行数据库系统的体系结构 • 2.共享磁盘结构 • 在该结构中每个处理器都有单独的内存，但多个磁盘是共享的，每个处理器都可以直接访问所有磁盘上的数据。共享磁盘结构是共享磁盘的松耦合群集机硬件平台上最优的并行数据库结构。 • 采用共享磁盘结构，每个处理器都有自己的私有内存，消除了内存访问瓶颈。但多处理器对共享磁盘的访问会造成磁盘访问瓶颈，因而处理器的数目最多只能扩展到数百个，可扩展性仍不够理想。

13.2.1 并行数据库系统的体系结构 • 3.无共享结构 • 在该结构中数据库表划分在多个结点上，每个结点都有独立的内存和磁盘，结点处理器之间的通信和数据交换通过高速的连接网络进行。无共享结构是MPP（大规模并行处理）和SMP群集机硬件平台上最优的并行数据库结构，是复杂查询和超大规模数据库应用的优选结构。 • 采用无共享结构，每个处理器都有自己的内存和磁盘，实现了共享资源最小化，具有极佳的可扩展性，处理器的数目可扩展到数千个，并可获得接近线性的伸缩比；可在多个结点上复制数据，可用性较高；消除了内存访问瓶颈。

13.2.2 数据划分 • 数据划分是为了实现并行操作，物理地将数据库划分为多个子集存储在不同的磁盘上。划分数据时可依据一个属性的值，也可同时依据多个属性的值，前者称为一维数据划分，后者称为多维数据划分。 • 常用的一维数据划分方法有三种：轮转（round-robin）划分法、值域（range）划分法和散列（hash）划分法。 • 1.轮转划分法 • 轮转划分法将一个关系的所有元组按顺序均匀分配到多个磁盘上，最适用于进行整个关系顺序扫描的查询应用。

13.2.2 数据划分 • 2.值域划分法 • 值域划分法按某个属性的值来划分数据。此方法最适合于在划分属性上进行的范围查询，这时可以跳过所有无关的数据子集，直接访问到与查询有关的子集。 • 3.散列划分法 • 散列划分法是按照某个属性的值，利用散列函数来划分数据。此方法可保证数据分布比较均匀，既适合全关系扫描，又适合按划分属性的查询。

13.2.3 并行处理技术 • 1.查询间的并行 • 查询间的并行是指不同用户事务或同一事务内部不同查询间的并发执行。查询间的并行可以提高并行数据库的事物吞吐量而不会缩短单个事务的响应时间。 • 2.查询内的并行 • 查询内的并行是使一个查询的一个或多个操作在多个处理器上并行执行，因此可以加快查询处理的速度。

13.2.3 并行处理技术 • 3.操作内的并行 • 操作内的并行是将同一操作（扫描操作、连接操作、排序操作等）分解成多个独立的子操作，由不同的处理器同时执行。

13.2.4 并行数据库系统和分布式数据库系统的区别 • 分布式数据库与并行数据库特别是无共享结构的并行数据库有很多相似点，但是由于分布式数据库系统与并行数据库系统的应用目标和实现方法不同，它们之间又有很大不同。 • 1.应用目标不同 • 并行数据库系统的目标是充分发挥并行计算机的优势，利用系统中的各结点并行地完成数据库任务，提高数据库系统的整体性能。 • 分布式数据库系统主要目的在于实现场地自治和数据的全局透明共享，而不是利用网络中的各结点来提高系统处理性能。

13.2.4 并行数据库系统和分布式数据库系统的区别 • 2.实现方式不同 • 在并行数据库系统中，为了充分利用各个结点的处理能力，各结点间采用高速网络互连，结点间数据传输率可达100Mbps以上，数据传输代价相对较低，可以通过系统中各个结点负载平衡和操作并行来提高系统性能。 • 分布式数据库系统中，各结点之间一般采用局域网或广域网相连，网络带宽较低，结点间通信开销较大。

13.2.4 并行数据库系统和分布式数据库系统的区别 • 3.各结点的地位不同 • 并行数据库系统中不存在全局应用和局部应用的概念，各结点是完全非独立的，在数据处理中只能发挥协同作用。 • 分布式数据库系统中，各结点除了能通过网络协同完成全局应用，更重要的是还具有场地自治性，即每个场地都是独立的数据库系统，具有高度的自治性。

13.3 多媒体数据库 • 13.3.1 多媒体数据的特点 • 13.3.2 媒体数据库管理系统应具备的基本功能 • 13.3.3 多媒体数据库系统的体系结构

13.3.1 多媒体数据的特点 • 多媒体数据具有以下特点： • （1）数据量大。格式化的数据数据量较小，最长的字符型为254字节。多媒体数据的数据量一般很大，1分钟的视频和音频数据往往需要几十兆的数据空间，大小相当于一个小型数据库。 • （2）结构复杂。传统的数据以记录为单位，一条记录由多个字段组成，结构简单。多媒体数据种类繁多结构复杂，大多是非格式化数据，来源于不同的媒体且具有不同的形式和格式。

13.3.1 多媒体数据的特点 • （3）时序性。由文字、声音、图象组成的复杂对象需有一定的同步机制，如画面的配音或文字需要与画面同步。传统数据则无此要求。 • （4）数据传输的连续性。声音、视频等多媒体数据的传输必须是连续的、稳定的，否则会影响效果和失真。 • 多媒体数据的这些特点使得其需要有特殊的数据结构、存储技术、查询和处理方式，如支持大对象、基于相似性的检索、连续介质数据的检索等。

13.3.2 媒体数据库管理系统应具备的基本功能 • 从实际应用考虑，多媒体数据库管理系统应具备以下基本功能： • （1）有效地表示各种媒体数据。对多媒体数据根据应用的不同采用不同的表示方法。 • （2）有效地处理各种媒体数据。系统应能正确识别和表现各种媒体数据的特征、各种媒体间的空间或时间的关联（如正确表达空间数据的相关特性和配音、文字和视频等复合信息的同步）

13.3.2 媒体数据库管理系统应具备的基本功能 • （3）有效地操作各种媒体信息。系统应能象对格式化数据一样对各种媒体数据进行搜索、浏览等操作，且对不同的媒体可提供不同的操纵，如声音的合成、图形的缩放等。 • （4）具备开放性。系统应能提供多媒体数据库的API（应用程序接口）、提供不同于传统数据库的特种事务处理和版本管理功能。

13.3.3 多媒体数据库系统的体系结构 • 目前，多媒体数据库系统主要采用以下三种体系结构：组合式结构、集中式结构和客户/服务器（C/S）结构。 • 1.组合式结构 • 该结构是根据不同媒体的特点分别建立数据库和数据库管理系统，但各MDBMS之间可以相互通信，用户可对单个或多个MDB进行存取，这种结构要求系统中的每个MDBMS能够相互协调工作，对单个数据库实现起来比较容易，但联合操作和合成处理则较为困难。

13.3.3 多媒体数据库系统的体系结构 • 2.集中式结构 • 该结构是建立一个多媒体数据库管理系统集中统一管理所有媒体数据库。这种结构需要集成多种媒体技术，实现起来有一定难度，但便于对各种媒体数据进行统一管理和处理。 • 3.客户/服务器结构 • 各种媒体数据的管理分别通过各自服务器上的数据管理结构MDM实现，所有媒体通过多媒体服务器上的MDBMS统一管理，客户和服务器之间通过特定的中间件连接，用户通过多媒体服务器使用多媒体数据库。

13.4 主动数据库 • 13.4.1 主动数据库系统模型 • 13.4.2 主动数据库系统的功能 • 13.4.3 主动数据库管理系统

13.4.1 主动数据库系统模型 • 主动数据库（Active DataBase，简称ADB）是相对于传统数据库的被动性而言的。传统的数据库系统只能根据用户或应用程序的服务请求对数据库进行存储、检索等操作，而不能根据发生的事件或数据库的状态主动作出反应。 • 主动数据库系统（ADBMS）是指具有各种主动提供服务功能，并且以一种统一的机制实现各种主动服务的数据库系统。

13.4.1 主动数据库系统模型 • 一个主动数据库系统在某一事件发生时，引发数据库管理系统去检测数据库当前状态，若满足指定条件，则触发规定执行的动作，我们称之为ECA规则。 • 一个主动数据库系统可表示为： ADBS=DBS + EB + EM • 其中DBS代表传统数据库系统，用来存储、操作、维护和管理数据；EB代表ECA规则库，用来存储ECA规则，每条规则指明在何种事件发生时，根据给定条件，应主动执行什么动作；EM代表事件监测器，一旦检测到某事件发生就主动触发系统，按照EB中指定的规则执行相应的动作。

13.4.1 主动数据库系统模型 • ECA规则的一般形式： • Rule <规则名> [(<参数1>,<参数2>……)] • When <事件表达式> • If <条件1> Then <动作1> • …… • If <条件n> Then <动作n> • End Rule

13.4.2 主动数据库系统的功能 • 一个主动数据库系统应该具有以下功能： • （1）主动数据库系统应该提供传统数据库系统的所有功能，且不能因为增加了主动性功能而使数据库的性能受到明显影响。 • （2）主动数据库系统必须给用户和应用提供关于主动特性的说明，且说明应该成为数据库的永久性部分。 • （3）主动数据库系统必须能有效地实现（2）中说明的所有主动特性，且能与系统的其他部分有效地集成在一起，包括查询、事务处理、并发控制和权限管理等。 • （4）主动数据库系统应能够提供与传统数据库系统类似的数据库设计和调试工具。

13.4.3 主动数据库管理系统 • 1.系统结构 • 根据基础数据库管理系统和主动功能部件的耦合程度，主动数据库管理系统主要有以下三种系统结构：分层结构、集成结构和编译结构。 • (1)分层结构 • 分层结构又称松散耦合结构，主动功能模块与传统的被动数据库系统是完全分离的。在这种结构下，主动功能模块截获传到数据库系统的服务请求、返回给用户或应用程序的数据，如果用户定义的事件发生，这些事件将被直接传送到主动功能模块，由其执行相应的动作。

13.4.3 主动数据库管理系统 • 这种结构的优点是，不需修改传统的被动数据库系统就可实现主动数据库功能，开发费用较低；多个不同的被动数据库系统可转换成具有统一界面的主动数据库系统，有利于主动数据库技术在集成的异构数据库系统中的应用。 • 该结构的缺点是，主动功能模块和被动DBMS之间数据通信量大，系统效率较低；主动功能模块不能直接访问被动DBMS内的事务处理器和授权管理等功能模块。

13.4.3 主动数据库管理系统 • (2)集成结构 • 集成结构又称紧耦合结构。在集成结构中，主动功能模块作为整个数据库管理系统的一部分嵌入在DBMS中，对规则的管理和处理都集成到了数据库系统中。在这种结构下，底层数据管理器监视对数据的各种操作，当事件发生后将会通知主动功能部件，规则处理部分通过相应功能模块直接在数据库上执行有关操作。 • 集成结构的实现有两种实现途径：一是修改现有被动数据库系统，把主动数据库功能用数据库工具加入到相关的功能子系统中；二是重新设计主动数据库管理系统。

13.4.3 主动数据库管理系统 • 这种结构的优点：规则事件的监视、条件评估和动作执行都直接发生在数据库系统内部；对数据库子系统的直接存取允许实现较复杂的规则特性，如耦合模式、并发控制、错误恢复等。 • 这种结构的缺点：需修改已有代码，实现代价大；如果不同的被动数据库系统转换为主动数据库系统，则被动数据库系统的差别可能会带到主动功能模块中。

13.4.3 主动数据库管理系统 • (3)编译型结构 • 编译型结构中，当应用过程或数据库操作被编译时系统自动进行修改使其包含主动数据库规则的效应。其实现要求应用程序语言必须便于修改，以便增加一些操作来完成规则处理部分的条件评估和动作执行，所有的触发事件都通过编译器进行监测。 • 这种结构的优点是省略了事件监测和规则执行环节，减小了实现的复杂程度，改进了系统性能。缺点是只适用于有限的应用语言、规则语言和规则集。

13.4.3 主动数据库管理系统 • 2.规则管理 • 任何主动数据库管理系统都必须包含管理规则集的功能，包括对规则的定义、浏览、更新、操纵和权限管理等。 • ECA规则由规则说明语言定义，与所支持的数据模型有关。在关系数据库系统中，ECA规则可以作为定义在特定关系上的触发器来说明；在面向对象数据库系统中，可作为单独的规则类或一个规则类的实例被定义。规则一旦被定义，即成为数据库的永久性部分被保存。 • 对规则的操作权限有：创建权限、修改和删除权限、激活/抑制权限、查询权限。

13.4.3 主动数据库管理系统 • 3.事件监视器的实现机制 • 实现主动数据库系统的关键是实现一个有效的事件监视器。事件监视器能有效地检测出各种事件的发生，又不过多地影响应用程序的执行速度。这往往需要软硬件的配合尤其是硬件的支持。可采取的措施有: • （1）在单处理器系统中，事件监测器操作控制下的一个高优先级进程，起到主动监视各种事件发生的作用。规则被分块时，可选择只针对某一规则进行监视以提高效率。

13.4.3 主动数据库管理系统 • （2）在多处理器系统中，可以独立由一个处理器来完成事件监视器的任务。 • （3）当系统执行到可能发生事件的地方，如执行更新语句之前或之后，都产生一个软中断，迫使转到事件监视器工作，以便核实该事件是否被指定在规则库中，若是则执行对应规则（立即执行或延迟执行），否则返回。

13.5 数据仓库 • 13.5.1 数据仓库的基本概念 • 13.5.2 数据仓库的特点 • 13.5.3 数据仓库的基本体系结构 • 13.5.4 数据仓库的数据库模式 • 13.5.5 数据仓库的前端工具 • 13.5.6 数据集市

13.5.1 数据仓库的基本概念 • 数据仓库是面向主题的、整合的、稳定的，并且时变地收集数据以支持管理决策的一种数据结构形式。这是公认的“数据仓库之父”W.H.Inmon在其“Building the Data Warehouse”一书中的定义，它指出了数据仓库和事务处理系统之间的主要差异。 • 粒度是指数据仓库中数据单元的详细程度和级别。粒度越小，则细节程度越高，级别越低。 • 分割是指将逻辑上统一的数据分割成较小的、可以独立管理的物理单元进行存储，以提高数据处理效率。数据分割后的单元称为分片。 • 维是指人们观察数据的特定角度，是数据的视图。

13.5.2 数据仓库的特点 • 1.数据仓库是面向主题的 • 与传统数据库面向应用进行数据组织的特点相对应，数据仓库中的数据是面向主题进行组织的。主题是一个抽象的概念，是对企业信息系统中的数据在较高层次上进行抽象的综合、归类并进行分析利用。在逻辑意义上，它是相应企业中某一宏观分析领域所涉及的分析对象。

13.5.2 数据仓库的特点 • 2.数据仓库是集成的 • 数据仓库的数据主要是作分析用，分析用数据的最大特点在于它不局限于某个具体的操作数据，而是对细节数据的归纳和整理。数据仓库中的综合数据不能从原有数据库系统中直接得到而需从其中抽取。 • 因此，数据在进入数据仓库之前，必须进行加工与集成，是数据仓库建设中最关键、最复杂的一步。首先要处理原始数据中的所有矛盾之处，如单位不统一、字段的同名异义、异名同义等，然后将原始数据结构作一个从面向应用到面向主题的大转变。

13.5.2 数据仓库的特点 • 3.数据仓库是稳定的 • 数据仓库主要是为信息分析提供综合的、集成的、面向某一分析主题的数据，这些数据所涉及的主要是维护查询。数据仓库数据反映的是一段相当长的时间内历史数据的内容，是不同时间内数据快照（来自数据库的一个表或表的子集的最新拷贝）的集合，以及基于这些快照进行统计、综合和重组的导出数据，而不是联机处理的数据，不进行实时更新。

13.5.2 数据仓库的特点 • 4.数据仓库是随时间变化的 • 数据仓库的数据稳定性是针对应用来说的，即用户进行分析处理时不能进行数据更新操作。但并不是说，在数据从集成输入到数据仓库中开始到最终被删除的整个数据生存周期之中，所有数据仓库数据都是永久不变的。 • 数据仓库随时间变化而变化，具体表现在:(1)随时间增加新的数据内容。(2)随时删去旧的数据内容。 (3)数据仓库中包含的大量综合数据中很多本身就与时间有关，如按时间段综合的数据，或按一定时间间隔获取的抽样数据等。

13.5.3 数据仓库的基本体系结构 • 一个数据仓库的基本体系结构包括以下几个组成部分：数据源、监视器、集成器、数据仓库和客户应用。 • (1) 数据源。指为数据仓库提供最底层数据的运作数据库系统及外部数据。 • (2) 监视器。负责感知数据源发生的变化，并按数据仓库的需求提取数据。 • (3) 集成器。负责从运作数据库中提取数据并经过转换、计算、综合等操作集成到数据仓库中。 • (4) 数据仓库。存储已经按部门级或企业级视图转换的数据供分析处理用。此外，数据仓库中还应存储元数据（Meta Data）。 • (5) 客户应用。供用户对数据仓库中的数据进行访问查询，并以直观的方式表示分析结果。

13.5.4 数据仓库的数据库模式 • 比较常用的数据仓库建模技术有：第三范式（3NF）、星型模式和雪花模式。下面介绍星型模式和雪花模式。 • 1.星型模式 • 一个简单的星型模式由一个事实表和多个维表组成。复杂的星型模式包含若干事实表和维表。 • 2.雪花模式 • 雪花模式是对星型模式的扩展，每个维都可以向外连接到多个维。雪花模式对星型模式的维表进一步标准化，将维表分解成主维表（与事实表关联）和次维表（与主维表关联）。

13.5.5 数据仓库的前端工具 • 数据仓库的前端工具分为两大类：联机分析处理工具和数据挖掘工具。 • 1.联机分析处理（OLAP） • OLAP的显著特征是能提供数据的多维概念视图，使最终用户从多角度、多侧面、多层次地考察数据库中的数据，从而深入地理解包含在数据库中的信息和内涵，多维数据分析是决策的主要内容。

13.5.5 数据仓库的前端工具 • OLAP的分析功能包括统计、分析、报表处理等。OLAP的基本分析操作有： • （1）切片（slice）。选取多维数据的一个二维子集的动作称为切片。 • （2）切块（dice）。选取多维数据的一个三维子集的动作称为切块。 • （3）上卷（roll-up）。上卷是沿着维的层次向上聚集汇总数据。

13.5.5 数据仓库的前端工具 • （4）下探（drill-down）。下探是上卷的逆操作，它是沿着维的层次向下，查看更详细的数据。 • （5）旋转（rotate）。旋转是改变一个报告或页面显示的维方向。 • 目前，OLAP工具可分为两大类：基于多维数据库的MOLAP和基于关系数据库的ROLAP。MOLAP利用专有的多维数据库存储OLAP分析所需的数据，数据以多维方式存储并以多维视图方式显示。ROLAP则利用关系表模拟多维数据，将分析的结果经多维处理转化为多维视图展示给用户。

13.5.5 数据仓库的前端工具 • 2.数据挖掘 • 数据挖掘（Data Mining，简称DM）也称为数据库中的知识发现（Knowledge Discovery in Database），是指从大量数据中挖掘出隐含的、先前未知的、对决策有潜在作用的知识和规则的过程。它主要基于人工智能、机器学习、统计学等技术，高度自动化地分析企业原有数据，作出归纳性推理，从中挖掘出潜在的模式，预测客户行为，帮助企业决策者调整市场策略，减少风险，作出正确决策。

13.5.5 数据仓库的前端工具 • (1)数据挖掘的特征 • ①处理的数据规模十分巨大。 • ②查询一般是决策制定者（用户）提出的即时随机查询，往往不能形成精确的查询要求。 • ③在一些应用中要求对快速变化的数据迅速作出反应，以提供决策支持。 • ④既要发现潜在规则，还要管理和维护规则，随着数据库状态的变化，规则需随之更新。 • ⑤规则的发现主要基于大样本的统计规律，发现的规则不必使用于所有数据，当达到某一阀值时即可认为有此规律。

第 13 章 数据库的其他新技术