1.12k likes | 1.33k Views
第 9 章 多媒体数据库技术. 9.1 多媒体数据库概述 9.2 多媒体数据库系统的体系结构 9.3 多媒体数据库系统的功能 9.4 扩展关系数据库方法 —— NF2 方法 9.5 基于内容的检索与查询 9.6 超文本和超媒体 9.7 超文本的特性和功能 9.8 多媒体数据模型. 9.1 多媒体数据库概述. 9.1.1 数据管理方法的发展
E N D
第9章 多媒体数据库技术 9.1 多媒体数据库概述 9.2 多媒体数据库系统的体系结构 9.3 多媒体数据库系统的功能 9.4 扩展关系数据库方法——NF2方法 9.5 基于内容的检索与查询 9.6 超文本和超媒体 9.7 超文本的特性和功能 9.8 多媒体数据模型 制作人:闫相位 班级及学号:03级计算机2班、20037104076
9.1 多媒体数据库概述 • 9.1.1 数据管理方法的发展 • 数据管理方法大致经历了三次重大的变化。最早,数据是用文件直接存储的,因为早期的计算机主要用于数学计算,虽然计算的工作量大,过程复杂,但其结果往往比较单一,在这种情况下,文件系统基本上是够用的。 制作人:闫相位 班级及学号:03级计算机2班、20037104076
随着计算机技术的发展,计算机越来越多地用于信息处理,如财务管理、办公自动化、工业流程控制等。这些系统使用的数据量大、内容复杂,而且面临数据共享、数据保密等方面的需求,于是便产生了数据库系统。数据库系统的一个重要概念是数据独立性。用户对数据的任何操作(如查询、修改)不再是通过应用程序直接进行,而必须通过向数据库管理系统(DBMS)发请求来实现。DBMS统一实施对数据的管理,包括存储、查询、处理和故障恢复等,同时也保证数据库在不同用户之间数据共享,如果是分布式数据库,这些内容都将扩大到网络范围之上。随着计算机技术的发展,计算机越来越多地用于信息处理,如财务管理、办公自动化、工业流程控制等。这些系统使用的数据量大、内容复杂,而且面临数据共享、数据保密等方面的需求,于是便产生了数据库系统。数据库系统的一个重要概念是数据独立性。用户对数据的任何操作(如查询、修改)不再是通过应用程序直接进行,而必须通过向数据库管理系统(DBMS)发请求来实现。DBMS统一实施对数据的管理,包括存储、查询、处理和故障恢复等,同时也保证数据库在不同用户之间数据共享,如果是分布式数据库,这些内容都将扩大到网络范围之上。 • 依据独立性原则,DBMS一般被按层次划分为三种模式:物理模式、概念模式和外部模式(也叫视图),如图9-1所示。 制作人:闫相位 班级及学号:03级计算机2班、20037104076
图9-1 DBMS的三种模式 制作人:闫相位 班级及学号:03级计算机2班、20037104076
物理模式的主要职能是定义数据的存储组织方法。如数据库文件的格式、索引文件组织方法、数据库在网络上的分布方法等。概念模式定义抽象现实世界的方法。外部模式又称子模式,是概念模式中对用户有用的一部分。概念模式借助数据模型来描述。数据库系统的性能(包括可用性、便利性及效率等)与数据库数据模型直接相关。物理模式的主要职能是定义数据的存储组织方法。如数据库文件的格式、索引文件组织方法、数据库在网络上的分布方法等。概念模式定义抽象现实世界的方法。外部模式又称子模式,是概念模式中对用户有用的一部分。概念模式借助数据模型来描述。数据库系统的性能(包括可用性、便利性及效率等)与数据库数据模型直接相关。 制作人:闫相位 班级及学号:03级计算机2班、20037104076
数据模型的不断完善和变革,也就是数据库系统发展的历史。数据库数据模型先后经历了网状模型、层次模型、关系模型和面向对象模型等阶段。其中,关系模型因为有比较完整的理论基础,“表格”一类的概念也易于被用户理解,因而逐渐取代了网状、层次模型,在商业应用数据库中居主导地位。关系模型把现实世界事物的特征抽象成数字或字符串表示的属性,每一种属性都有固定的取值范围。于是,每一个事物都有一个属性集及对应的属性值集,把他们组织成具有以下性质的二维表格,便成为关系: 制作人:闫相位 班级及学号:03级计算机2班、20037104076
(1) 表格中的任何两行数据都不完全相同。 • (2) 表格中每一列的所有数据属于同一属性。表头定义的是属性名,属性名不允许重复。 • 不难看出,关系模型主要针对的是整数、实数、定长字符等规范数据,因此,关系数据库的设计者必须把真实世界抽象为规范数据,这要求设计者具有一定技巧,而且有些情况下,这项工作会特别的困难,例如用文字描述一个人的长相,抽象很难完成,抽象得到的结果往往难以和原始信息相吻合。 制作人:闫相位 班级及学号:03级计算机2班、20037104076
图像、声音、动态视频等多媒体信息引入计算机后,表达的信息范围大大扩展,但同时又带来新的问题,比如,如何用数据库系统来描述这些数据?关系数据库可以做到一个用户给出查询条件之后迅速地检索到正确的信息。 • 但现在基本数据不再只是字符、数值型,而是图像、声音,甚至视频数据。由于这些多媒体数据不规则,没有一定的取值范围,没有相同的数据量级,也没有相似的属性集,又如何组织和查询这些数据? • 在多媒体数据库中,一般常用的多媒体数据有字符、数值、文本、声音、图像(包括图形、位图图像、动画和视频)等类型。一般来说,所谓多媒体技术就是把声、图、文等媒体通过计算机集成在一起的技术。能够管理数值、文字、图形、图像、声音和动画等多媒体的数据库称为多媒体数据库。 制作人:闫相位 班级及学号:03级计算机2班、20037104076
多媒体数据库(Multimedia Database,MMDB)是一个由若干多媒体对象所构成的集合,这些数据对象按一定的方式被组织在一起,可为其他应用所共享。而多媒体数据库管理系统(Multimedia Database Management System,MMDBMS)则是一个以MMDB为基础的多媒体应用,该应用能够完成对MMDB 的各种操作及管理功能,如对MMDB的定义、创建、查询、访问、删除等。 制作人:闫相位 班级及学号:03级计算机2班、20037104076
多媒体对象由若干类型不一且具有不同特点的媒体对象复合而成,数据量大,内部又存在着多种约束关系,其复杂程度远远高于各类传统的数据对象;此外,和传统的应用相比,多媒体应用又有着新的需求,如对连续媒体对象的实时处理、对数据对象内容的分析等。这些特点就决定了MMDB和MMDBMS在实现传统数据库系统的各项功能时,要解决一些新的问题,而且,MMDB 和MMDBMS还要实现一些传统数据库系统所不具备的新的功能,如海量数据的存储功能、信息提取功能等。可以说,MMDB和MMDBMS是传统数据库技术、层次化存储技术以及信息提取技术相结合的产物。 制作人:闫相位 班级及学号:03级计算机2班、20037104076
9.1.2 多媒体数据库系统 • 多媒体数据库系统如图9-2所示。它是由MMDB和MMDBMS构成的一种复杂的多媒体信息存储系统,它必须能够对多媒体数据进行综合性处理。首先,MMDBMS能够根据不同媒体类型数据的特点,为其提供合理的表示、存储、访问、索引及提取方法;其次,MMDBMS应该能够在较高的层次上准确地表示媒体对象之间的多种约束关系,并为用户提供统一的数据管理手段。多媒体数据库系统应当能够支持多种媒体数据类型及多个媒体对象的多种合成方式;能够为大量数据提供高性能的存储管理;能够支持传统的DBMS功能;能够支持多媒体信息提取功能;能够为用户提供丰富而便捷的交互手段。 制作人:闫相位 班级及学号:03级计算机2班、20037104076
图9-2 多媒体数据库系统 制作人:闫相位 班级及学号:03级计算机2班、20037104076
9.1.3 多媒体数据的特点 • 从数据管理的角度来看,多媒体数据主要有下列4个特点。 • 1. 数据量大 • 多媒体数据量一般都很庞大,虽然采取了数据压缩措施,但压缩后的数据量还是很大。以声音和影视为例,放5分钟的音乐,约需压缩后的数据7 MB左右;放1个小时的录像,约需压缩后的数据700 MB左右。这样大的数据,全部放在磁盘里是不现实的,一般都是采用内存、磁盘、光盘三级存储器系统来存取的。 制作人:闫相位 班级及学号:03级计算机2班、20037104076
2.等时性和同步 • 多媒体数据中的连续数据在演播时需按一定的稳定速率传送,这叫等时性。例如演播音乐或讲话时,数据需按规定速率连续传递,速率慢了、快了,或抖动都会引起声音的失真,更不能中断或较长时间的丢失数据。在演播电视时,每帧必须按时、按序到达,不得前后抖动。此外,影视数据和配音数据、字幕数据必须同步,发音和口型在时间上必须对准。当然,这些等时性和同步并不一定要十分准确,以人的感觉器官不能觉察为度即可。 制作人:闫相位 班级及学号:03级计算机2班、20037104076
3.非结构化数据 • 声音、图像、影视等数据基本都是二进制串。这些数据从其本身看不出任何结构,因此称为非结构化数据。各种媒体的数字化存储形式称为媒体数据(Media Data)。因为这些数据往往通过传感器输入计算机,又称传感器数据(Sensory Data)。如果不对媒体数据另加一些描述和解释则很难利用它们。对数据的描述、解释不是数据本身,而是关于数据的数据,也就是元数据。元数据有些很简单,可以很方便地获得,例如数据表示符、媒体类型(是声音,还是图像等)、编码和压缩方法、制作日期和所有者等; 制作人:闫相位 班级及学号:03级计算机2班、20037104076
有些则与数据内容有关,需要到数据中提取,很费时间,例如图像的纹理、图中的物体及其位置、电视镜头的背景及活动对象等,而且这些元数据与媒体数据类型以及应用有关,不可能事先生成所有元数据,而且有些还需要在使用时生成。因此,元数据的生成是多媒体数据管理中的一个重要而突出的问题。有些则与数据内容有关,需要到数据中提取,很费时间,例如图像的纹理、图中的物体及其位置、电视镜头的背景及活动对象等,而且这些元数据与媒体数据类型以及应用有关,不可能事先生成所有元数据,而且有些还需要在使用时生成。因此,元数据的生成是多媒体数据管理中的一个重要而突出的问题。 • 4.特殊的用户接口及操作 • 对于声音、影视数据,除了需要提供一般数据都有的增、删、改和查询等操作外,还需要提供与媒体有关的接口和操作,例如演播、倒退、快进,按内容、序号或时间选播等接口和操作。 制作人:闫相位 班级及学号:03级计算机2班、20037104076
9.2 多媒体数据库系统的体系结构 • MMDBMS的体系结构可以被抽象为三层:数据库管理层、多媒体数据合成层和交互层,如图9-3所示。 制作人:闫相位 班级及学号:03级计算机2班、20037104076
图9-3 MMDBMS的体系结构 制作人:闫相位 班级及学号:03级计算机2班、20037104076
数据库管理层负责完成对各类媒体对象的维护。多媒体对象是由既相互独立又相互联系的文本、图形、图像、音频或视频等媒体对象构成的一种复合实体,各类媒体对象在复杂程度、数据量和是否具有时域特征等方面存在极大的差异。为了适应这种异构性,数据库管理层利用不同的数据库及数据库管理系统来存储和管理不同类型的媒体对象,即数据库管理层依据不同媒体类型的特点,选用不同的表示、存储和处理媒体对象的手段。数据库管理层负责完成对各类媒体对象的维护。多媒体对象是由既相互独立又相互联系的文本、图形、图像、音频或视频等媒体对象构成的一种复合实体,各类媒体对象在复杂程度、数据量和是否具有时域特征等方面存在极大的差异。为了适应这种异构性,数据库管理层利用不同的数据库及数据库管理系统来存储和管理不同类型的媒体对象,即数据库管理层依据不同媒体类型的特点,选用不同的表示、存储和处理媒体对象的手段。 • 数据库管理层可以被进一步划分为物理数据库管理子层和逻辑数据库管理子层,前者主要完成各类媒体对象的物理存储,后者则负责媒体对象的维护以及向外界提供各种数据访问服务。 制作人:闫相位 班级及学号:03级计算机2班、20037104076
多媒体数据合成层负责多媒体对象的存储与管理,主要完成表示及维护多媒体对象的合成方式(即各媒体对象如何聚集为多媒体对象)以及各媒体对象之间所具有的各种约束关系,尤其是对时域约束关系的描述信息,这些信息在提取、显示等多媒体数据的操作过程中发挥着重要作用。多媒体数据合成层负责多媒体对象的存储与管理,主要完成表示及维护多媒体对象的合成方式(即各媒体对象如何聚集为多媒体对象)以及各媒体对象之间所具有的各种约束关系,尤其是对时域约束关系的描述信息,这些信息在提取、显示等多媒体数据的操作过程中发挥着重要作用。 • 交互层为用户访问MMDBMS提供所必需的查询、浏览、媒体编辑、数据组织等功能。同其余两层相比,该层的变动性较大,也就是说可以通过不断地引入新的技术来丰富和用户的接口功能。如随着Web技术的成熟与完善,可以利用HTML“超链”的概念,将 MMDBMS中保存的有关空域、时域等约束关系的描述信息嵌入Web主页,从而使用户能够通过统一的Web浏览器,对多媒体记录的内容进行检索和遍历。 制作人:闫相位 班级及学号:03级计算机2班、20037104076
9.3 多媒体数据库系统的功能 • MMDBS 的功能与传统数据库系统的功能基本相同,但由于多媒体数据类型与传统数据类型之间存在着较大的差异,而且,各种多媒体应用也有着与传统应用不尽相同的需求,因而,MMDBS的各种功能有着新的含义。现在,我们以传统数据库系统的各项功能为出发点,对MMDBS 的功能作简要的介绍。 • 传统数据库系统的功能大致可以从9个相关的方面体现出来,即持续性、完整性控制、事务、并发控制、版本控制、数据恢复、查询、安全性和性能。 制作人:闫相位 班级及学号:03级计算机2班、20037104076
1. 持续性 • 持续性是指 DBMS 能够确保在经历了不同应用程序的处理后,一个数据对象可以被完整地保存在数据库中。在基于数据库的应用中,数据可以是暂时性的,也可以是持续性的。暂时性数据只在一个程序的生存周期或事务过程中有效,随着程序或事务过程的结束,暂时性数据将消失。而持续性数据则是由DBMS 所维护的,它独立于任何具体的应用或事务之外而存在,即某一程序或事务过程可以对持续性数据进行处理,但持续性数据不会因为程序或事务过程的结束而消失,而且DBMS 甚至要排除系统故障或存储介质的故障对持续性数据的影响。 制作人:闫相位 班级及学号:03级计算机2班、20037104076
一个多媒体对象往往要包含多个媒体对象,各媒体对象间又存在着多种约束关系,媒体对象和约束关系的表示结果被分别存储在不同的数据库中。MMDBS要维护多媒体对象的持续性,就要负责维护其各组成部分的持续性。另外,考虑到一个媒体对象可能被多个媒体对象所包含,因而MMDBS 维护媒体对象的持续性对于防止引用完整性遭到破坏至关重要。 制作人:闫相位 班级及学号:03级计算机2班、20037104076
2.完整性控制 • 当数据库所包含的全部记录都满足一致性约束条件时,数据库具有合理的状态。一致性约束条件限定了数据对象应当具备的语义,反映了数据对象在具体应用中应满足的条件,如在人事档案系统中,记录身份证号码的数据项不可出现取值重复的现象等。DBMS的完整性控制机制的目的在于检查及维护数据库状态的合理性。对MMDBS 而言,多媒体对象的复杂性决定了其完整性控制机制的复杂性。 制作人:闫相位 班级及学号:03级计算机2班、20037104076
3.事务 • 事务是由若干数据库操作构成的序列,具备原子性、一致性、隔离性和持久性。所谓原子性,是指构成一个事务的全部操作要么都被执行,要么都不被执行。前一种情况我们称之为事务被交付,后一种情况我们称之为事务被放弃。一致性意味着被交付的事务应当能够使数据库从一个合理的状态过渡到另一个合理的状态。由于多个用户可能同时对同一个数据库进行操作,因而DBMS 要确保事务的隔离性,即排除并发事务间的相互干扰,使用户不能感知到并发事务的存在。事务的持久性是指当一个事务被交付后,即使系统或存储介质发生了故障,DBMS 也能够保证相应的数据库的变化可以长久地被保存下去。 制作人:闫相位 班级及学号:03级计算机2班、20037104076
由于组成多媒体数据的不同成分分布在不同的子数据库系统中,因此MMDBS中的事务往往包含了一个或多个需由子数据库系统处理的事务。另外,由于多媒体的数据量通常较大,其内部又有着复杂的结构,因而MMDBS所要处理的事务的执行过程往往要经历多个阶段,持续的时间较长,因此也称此类事务为长事务。长事务决定了MMDBS 的事务管理机制要解决一些新问题。MMDBS事务的复杂性如图9-4所示。 制作人:闫相位 班级及学号:03级计算机2班、20037104076
图9-4 MMDBS事务的复杂性 制作人:闫相位 班级及学号:03级计算机2班、20037104076
4.并发控制 • 并发控制的目的在于排除并发事务之间的相互干扰,实现事务的隔离性。通常的做法是,DBMS为并发事务所包含的操作安排某种串行化的执行次序,如图9-5所示。这样,虽然事务是并发执行的,但其效果同依次执行时相同,这被称为事务的串行化。并发控制与数据库的完整性控制关系密切,并直接影响着事务一致性的实现。时间戳排序、乐观算法及悲观算法是三种基本的并发控制方法,适用于不同类型的应用。 制作人:闫相位 班级及学号:03级计算机2班、20037104076
图9-5 并发事务串行化 制作人:闫相位 班级及学号:03级计算机2班、20037104076
5.版本控制 • 在数据库系统中,事务使得数据对象的状态不断地发生着变化。有些应用不仅对数据型对象的当前状态感兴趣,还希望了解其状态所经历的变化。为了满足此类应用需求,DBMS需要通过版本控制机制来保存和管理数据对象状况的变化过程。而多媒体对象庞大的数据量要求MMDBS 能够更为有效地实施版本控制。有限的存储空间有时会限制MMDBS 为用户提供版本控制的功能。另外,版本控制并非只针对单一的媒体对象,它需要管理一个多媒体对象的不同组成成分的发展变化。 制作人:闫相位 班级及学号:03级计算机2班、20037104076
6.数据恢复 • 数据库是一个复杂的信息处理系统,出现差错是在所难免的。可能的差错包括事务处理差错、系统差错和存储介质差错等。因而DBMS 必须具备错误检测和数据恢复的功能,这一功能是DBMS实现数据库持续性的基础。MMDBS 的数据恢复机制较一般的DBMS数据恢复机制复杂。 制作人:闫相位 班级及学号:03级计算机2班、20037104076
7.查询 • 用户可以通过查询,对库存数据集合的某个子集进行选取。查询往往由某种高级的描述性语言所定义,此类语言称为查询语言。某些DBMS 使用的查询语言有较为坚实的理论基础(如关系代数等),而其他DBMS 则使用一些非正规的查询表示方法。由于有关MMDBS 的研究尚未成熟,因而MMDBS 的查询多属于后者,往往通过某种高度可视化的、具有良好交互性的前端工具来完成。 • MMDBS 的查询包含了从简单到复杂等多种形式,简单的查询申请一般是针对多媒体对象的属性、关键词等提交的,而基于内容的查询则属于复杂的多媒体查询形式。 制作人:闫相位 班级及学号:03级计算机2班、20037104076
8.安全性 • 设置安全机制的目的在于排除对数据记录非授权的访问,它对持续性的实现也是必要的。由于MMDBS 由若干既相对独立又密切相关的系统构成,多媒体对象的不同组成成分分布于这些子系统之中,因而MMDBS 的安全性维护机制会涉及到不同子系统之间的协作。 • 9.性能 • 媒体对象的数据量较大且有较严格的时间要求,因而为了保障MMDBS的性能,需要对其物理存储子系统进行优化,这对于MMDBS 整体性能的提高是至关重要的。此外,MMDBS 性能的改善还包括在数据组织方式、索引机制、查询等方面的工作。 制作人:闫相位 班级及学号:03级计算机2班、20037104076
除了上述功能之外,MMDBS还具备一些和多媒体数据特点及应用需求相适应的功能,如数据对象的合成与分解、对大量多媒体数据的综合处理及有效的存储管理、信息提取功能以及对空域、时域等媒体对象间的约束关系的综合处理等。除了上述功能之外,MMDBS还具备一些和多媒体数据特点及应用需求相适应的功能,如数据对象的合成与分解、对大量多媒体数据的综合处理及有效的存储管理、信息提取功能以及对空域、时域等媒体对象间的约束关系的综合处理等。 制作人:闫相位 班级及学号:03级计算机2班、20037104076
9.4 扩展关系数据库方法——NF2方法 • NF2 (Non First Normal Form,非第一范式) 方法适用于对复杂对象的处理,它对关系模型进行了扩充。NF2不再遵从关系范式中“表中不允许再有表”的规定。这样NF2模型就允许关系的属性是另外一个关系,因而支持层次结构,使层次结构语义在一个关系中直接得到体现,从而就为描述嵌套层次很深的实体带来了方便。 制作人:闫相位 班级及学号:03级计算机2班、20037104076
关系模型要求每个属性均为原子数据类型,这样,用关系模型为应用建模时,一个属性可能不得不存放在若干关系中,且对象内部的结构联系要通过关系的连接属性来表现,因而对复杂对象的处理变得十分困难。为了进一步说明这一点,引用一个机器人模拟的例子。关系模型要求每个属性均为原子数据类型,这样,用关系模型为应用建模时,一个属性可能不得不存放在若干关系中,且对象内部的结构联系要通过关系的连接属性来表现,因而对复杂对象的处理变得十分困难。为了进一步说明这一点,引用一个机器人模拟的例子。 • 一个机器人有名字(name)及手臂(arm)。在描述机器人的手臂(含有若干个轴及一个把柄)的属性时,若使用传统的关系数据库系统则只允许表示原子属性。如在DB2中可以定义两个关系如下: 制作人:闫相位 班级及学号:03级计算机2班、20037104076
CREATE TABLE robots (name char(10),arm char(10)), • CREATE TABLE arms (arm_id char(10), • axis…, • gripper…) • 这里robots关系中的属性arm及arms关系的arm_id构成了连接属性,蕴含着robots和arms之间的层次结构。可以通过使用以下查询构造出这个结果: • SELECT name,arm,axis,gripper • FROM robts,arms • WHERE robots.arm=arms.arm_id; 制作人:闫相位 班级及学号:03级计算机2班、20037104076
对复杂实体,这种方法存在两点不合理的地方:第一,当实体内结构非常复杂时,在查询或修改数据库时,由于实体的结构语义必须通过连接操作实现,因而要对数据库进行频繁的连接、投影乃至分解操作,这些操作开销大,严重影响了数据库的效率;第二,结构语义是隐性的,不直观且难理解。对复杂实体,这种方法存在两点不合理的地方:第一,当实体内结构非常复杂时,在查询或修改数据库时,由于实体的结构语义必须通过连接操作实现,因而要对数据库进行频繁的连接、投影乃至分解操作,这些操作开销大,严重影响了数据库的效率;第二,结构语义是隐性的,不直观且难理解。 • 为了解决这个问题,有人提出打破关系模型约束的NF2,,不再遵从关系范式中“表中不允许再有表”的规定。用NF2数据库定义机器人的例子如下: 制作人:闫相位 班级及学号:03级计算机2班、20037104076
例1 • CREATE robots SET(TUPLE( • Name: STRING(10), • Arm:SET(TUPLE( • Arm_id:STRING(10), • Axis: … • Gripper: … • )) • )) • END 制作人:闫相位 班级及学号:03级计算机2班、20037104076
以上定义中的“SET(TUPLE(”相当于前面提及的关系表TABLE。以上定义中的“SET(TUPLE(”相当于前面提及的关系表TABLE。 • 在定义了嵌套关系对象结构之后,若想检索机器人的全部信息,则可简单地使用以下查询: • SELECT • FROM r IN robots • WHERE r. name='R2D2'; • 这一检索过程隐含了对机器人对象的每一子关系的存取操作,而不需要像前面那样通过SELECT语句重新构造对象结构。 制作人:闫相位 班级及学号:03级计算机2班、20037104076
此外,NF2数据模型的另一优点是支持隐含的向前引用。这就意味着,若一个对象是另一对象的子关系,则在选择所有的子结构信息时不需要再进行连接操作。同样,NF2也支持后向引用,这可根据对每一选择的子结构简单地抽取路径信息来完成。以下是用户从不同的层次结构中查询信息的例子。此外,NF2数据模型的另一优点是支持隐含的向前引用。这就意味着,若一个对象是另一对象的子关系,则在选择所有的子结构信息时不需要再进行连接操作。同样,NF2也支持后向引用,这可根据对每一选择的子结构简单地抽取路径信息来完成。以下是用户从不同的层次结构中查询信息的例子。 • 例2 • SELECT ar.arm_id , ax.axis_id • FROM r IN robbts, • Ar IN r.arm, • Ax IN ar.axis • WHERE r.name='R2D2'; 制作人:闫相位 班级及学号:03级计算机2班、20037104076
9.5 基于内容的检索与查询 • 多媒体数据对数据库操作,特别是对数据库操作的检索与查询提出了新的要求。非多媒体数据库一般只提供基于表示形式的检索,提供诸如关键字一类的检索和查询。多媒体数据库则提供基于内容的检索,要求数据库系统能对图像或声音等媒体进行内容语义分析,以达到更深的检索层次。 制作人:闫相位 班级及学号:03级计算机2班、20037104076
1.基于内容的查询 • 基于内容的查询是MMDBS的一项高级功能,通过这一功能,用户可以查找和获取包含特定内容的多媒体对象,例如,讲述多媒体数据库的文章、包含黑色轿车的图片等。 • 为了支持这一功能,MMDBS需要解决一系列新的问题,例如,如何提取多媒体对象包含的内容、如何对内容进行抽象及表示、如何为多媒体对象建立基于内容的索引、如何提交内容查询、如何处理内容查询等。 • 内容查询机制是MMDBS中一个较为复杂的子系统,在诸如文档资料管理系统、地理信息系统中有着广泛的应用。 制作人:闫相位 班级及学号:03级计算机2班、20037104076
2.多媒体对象的内容属性 • 多媒体对象的内容属性是对多媒体对象所含内容的一种概括性描述。例如,我们可以利用关键词来概括文字对象的内容、可以利用彩色直方图来概括图像对象的内容等。 • 内容属性能否准确合理地表示多媒体对象的内容会对内容查询的好坏产生直接的影响,因此,如何为库存的多媒体对象选取恰当的内容属性,就成为了MMDBS在实现内容查询这一功能时应当首先解决的问题。下面,仅就一些媒体类型常见的内容属性作简要的介绍。 制作人:闫相位 班级及学号:03级计算机2班、20037104076
1) 文本 • 关键词常被选作文本对象的内容属性。关键词的取值为一个集合,由若干单词构成,这些单词在文章中出现的频率较高且反映了文章的主题。例如,一篇讨论多媒体数据库的文章,其关键词可以是“多媒体”、“数据库”和“MMDBS”。我们称所有库存文本对象关键词属性的集合为词汇,词汇往往同文本对象的应用领域(如计算机应用、经济等)有关,是对某个领域具有代表性的单词的汇总。此外,为了支持较为复杂的文本内容查询,一些MMDBS除了保存及管理词汇之外,还进一步从应用领域的特点出发,发掘并维护与之密切相关的信息。以概念查询为例,除保存词汇之外,系统还维护某领域常用单词之间在概念上的关联关系。 制作人:闫相位 班级及学号:03级计算机2班、20037104076
2) 图形 • 图形对象由若干彼此之间具有一定空域约束关系的几何体构成。几何体的各种特征(如几何体的形状特征、面积、周长等)以及几何体之间的位置关系(如几何体的空间位置、几何体间空域关系的类型等)常被选作图形对象的内容属性。由于图形对象与其应用领域有关,因此图形对象的内容属性是与其应用领域(如VLSI,CAD,GIS等)的特点相对应的。 • (1) 图像。图像对象常见的内容属性包括颜色、纹理、对象特征、图像边缘等。现简单讨论如下: 制作人:闫相位 班级及学号:03级计算机2班、20037104076
① 颜色。图像的颜色特征常由颜色直方图来表示。颜色直方图反映了图像像素在彩色空间的分布状况,而与图像包含的对象(如汽车、房屋、树林等)关系不大。为了建立起颜色分布状况与图像中某些位置间的关联关系,除了计算整幅图像的颜色直方图外,还可以将图像分割为一系列区域,并获取每个区域的颜色直方图。 • ② 纹理。很多图像在局部区域内呈现不规则性,但在整体上表现出规律性,习惯上把图像的这种特性称为纹理。图像内容的纹理特征可进一步由粗糙性、方向性及对比度3个参数来表示。 制作人:闫相位 班级及学号:03级计算机2班、20037104076
③ 对象特征。颜色、纹理的内容属性反映了图像数据自身的物理特点,并不能直接表示图像所含的对象。为了支持用户对包含某类对象的图像的查询(如返回所有包含汽车的图片等),图像中关键的对象的特征也常常被作为图像的内容属性,这些特征包括对象的大小、对象在图像中的位置以及形状等。由于人们对形状相似性的理解带有较强的主观色彩,因而对形状的表示及比对是图像内容查询中的难题。 制作人:闫相位 班级及学号:03级计算机2班、20037104076
④ 边缘特征。某些系统允许用户在定义查询表示时,使用绘图工具手工勾勒出目标对象的边沿形状。这时,系统就需要选取边缘特征作为图像的内容属性。在图像分析中,图像灰度级的局部不连续性称为局部边沿或边沿元,而由诸多边沿元沿其切线方向连接成的大范围的线段,称为边缘。所谓边缘特征,是指一个由一幅图像中若干边缘构成的集合,这些边缘能够抽象地表示图像的内容,如图像所包含对象的轮廓等。 • 此外,内容属性还有与生成图像的应用领域紧密相关的属性,如在一个脸部图像系统中,内容属性还包含五官的相对位置关系等。 制作人:闫相位 班级及学号:03级计算机2班、20037104076
(2) 视频对象。视频对象由一系列静止图像构成,每幅图像被称为帧,即帧是视频对象最基本的构成单元。由于不同帧之间在内容上关联程度不同,所以在对视频对象的内容进行抽象之前,往往需要首先对其进行必要的层次划分,如图9-6所示。因此,对视频对象内容的抽象可以转化为对某些关键性镜头的内容的抽象,相应地,视频对象的内容属性是那些关键性镜头在内容上呈现出来的特征,如镜头所含的各种摄像动作(如摇、推、拉、追踪等)、镜头中运动物体和镜头的关键帧等。 制作人:闫相位 班级及学号:03级计算机2班、20037104076