第二章多媒体数据基础

第二章多媒体数据基础 2.1 图像信息处理基础 2.2 视频和动画信息处理基础 2.3 声音信息处理基础 2.4 多媒体数据的压缩技术

1、图像。 图像一般是指自然界中的客观景物通过某种系统的映射，使人们产生视觉感受。例如：照片、图片等。在计算机中图像是用像素点进行描述，是一组数据的集合。有序排列的像素点表达了自然景物的形象和色彩，图像的每个像点采用若干个二进制位进行描述，因此，图像又叫做“位图”，其形式如图2-1所示。 2.1.1 图像的基本概念

2、图形。 图形是计算机在平面直角坐标系和空间坐标系中，通过对运算表达式进行矢量运算和对坐标数据进行描述而形成的运算结果，由具有方向和长度的矢量线段构成。图形的描述是使用坐标数据、运算关系以及颜色描述数据。因此，图形又叫做“矢量图”，如图2-2所示。 2.1.1 图像的基本概念

3、图像的描述。 描述一幅图像主要有分辨率、像素深度、真/伪彩色等。图像分辨率是指组成一幅图像的像素密度的度量方法。度是指存储每个像素所用的位数，它也是用来度量图像的分辨率。彩色是指在组成一幅彩色图像的每个像素值中，有R，G，B三个基色分量，每个基色分量直接决定显示设备的基色强度，这样产生的彩色称为真彩色。 2.1.1 图像的基本概念

1、BMP格式 BMP是标准的Windows和OS/2的图形图像的基本位图格式，是一种与设备无关的图形文件格式，是Windows软件推荐使用的一种格式。随着Windows的普及，BMP已使用得相当广泛，Windows应用程序PaintBrush便以此格式存取图形文件。BMP文件有压缩和非压缩之分，压缩方法采用行程长度编码（run-length encoding, RLE），一般作为图像资源使用的BMP文件都是不压缩的。BMP支持黑白图像、16色和256色的彩色图像以及RGB真彩色图像。 2.1.2 图像文件格式

2、GIF文件格式 GIF文件格式的全称是图形交换文件格式，GIF图像最大不能超过64MB，颜色最多为256色（8位）。GIF格式是目前唯一仅使用LZW压缩方法的主要图像文件格式。GIF文件压缩比较高，文件长度较小。GIF图像有两个主要的规范，即GIF87a和GIF89a，后者支持图像内的多画面循环显示，可以用来制作小型的动画，现在WWW上的许多微小动画就是用这种方法做成的。GIF格式已成为网络上最流行的图像文件格式之一。 2.1.2 图像文件格式

3、 JPG文件格式 JPG文件格式是Apple Mac机器上使用的一种图像格式，这种格式的最大特点是文件非常小，而且可以调整压缩比。由于JPG文件的压缩比很高，非常适用于处理大量图像的场合，也是现在WWW上最流行的图像格式之一。但它是一种有损压缩的编码格式，是以牺牲图像中某些信息为代价以换取较高的图像压缩比，一般不适合用来存储原始图像素材。 2.1.2 图像文件格式

4、PCX文件格式 PCX文件可以分为3类：各种单色PCX文件、不超过16种颜色的PCX文件和具有256色的PCX图像文件。PCX格式是微机上使用最广泛的图像文件格式之一，绝大多数图像编辑软件，如：Photo Style，CorelDRAW和Windows中的画笔等均能处理这种格式。而且各种扫描仪得到的图像均能存储为PCX格式的文件。PCX文件格式使用行程长度编码（RLE/RLC）方法进行压缩，压缩比适中，压缩和解压缩速度快，适用于一般软件的使用。 2.1.2 图像文件格式

5、TIF文件格式 TIF格式图像的颜色可以从单色到RGB真彩色，其格式非常灵活，适合于所有图像应用领域。TIF文件分成压缩和非压缩两大类，非压缩的TIF文件独立于软硬件，使用较广泛，但压缩文件要复杂得多。由于非压缩的TIF文件具有良好的兼容性，压缩的TIF文件在存储时又有很大的选择余地，所有这种格式是许多图像应用软件所支持的主要文件格式之一。 2.1.2 图像文件格式

6、PCD格式 PCD格式是Kodak公司的Photo CD专用存储格式，一般都存在CD-ROM上，读取PCD文件要用Kodak公司的专门软件。PCD文件中含有从专业摄影照片到普通显示使用的多种分辨率的图像，所以都非常大。由于Photo CD的应用非常广，许多图像处理软件都可以将PCD文件转换成其他标准图像文件。 2.1.2 图像文件格式

7、WMF文件格式 WMF文件格式是一种比较特殊的文件格式，可以说是位图和矢量图的一种混合体，在桌面出版领域应用十分广泛，许多剪贴图片集中的图像就是以这种格式存储的。 2.1.2 图像文件格式

1、图像文件的数据表示 在计算机中，有矢量图和点位图两种类型的图。矢量图是用数学方法描述的一系列点、线、弧和其他几何形状，因此存放这种图使用的格式称为矢量图格式，存储的数据主要是绘制图形的数学描述；点位图也称光栅图（raster graphics），这种图是由像素点组成的，如图2-4（b），因此存放这种图使用的格式称为点位图格式，存储的数据是描述像素的数值。 2.1.3 图像文件的存储

2、图像文件的长度 图像文件的长度是指存储整幅图像所需要的磁盘字节数，计算公式是：图像文件长度尺寸（字节数）=图像分辨率×颜色深度÷8 例如：有一幅未经压缩的图像，它的图像分辨率是400×300，其颜色深度是24，则这个文件的长度400×300×24÷8=360000（字节），这就是图像文件的存储长度。如果对图像文件进行压缩处理，可以大幅度地减少图像文件所占用的存储空间。 2.1.3 图像文件的存储

1、动画 动画就是利用具有连续性内容的静止画面，一幅接着一幅高速地呈现在人们的视野之中。动画利用了人类眼睛的“视觉暂留效应”，人在看物体时，物体在大脑视觉神经中的滞留时间约为（1/24）秒。如果每秒更换24或更多的画面，那么，前一个画面在人脑中消失之前，下一个画面就进入人脑，使人们感觉到动态的变化效果。传统的动画制作过程相当复杂，随着计算机技术的发展，人们开始用计算机进行动画的创作，并称其为计算机动画。 2.2.1 视频和动画的基本概念

2、视频 视频也是将一幅幅独立图像组成的序列按照一定的速率连续播放，利用视觉暂留现象在人的眼前呈现出连续运动的画面。因此，动画与视频从视觉角度看应该是一样的。其实，划分动画与视频的依据应该是生成它们的手段，如果利用摄像机进行现场拍摄而获得的信息为视频文件，利用工具软件人为创造出来的动作序列组成的文件称为动画。与静止图像相比，视频媒体是一组运行图像，其速率为25帧/秒或30帧/秒。帧是构成视频信息的基本单元。 2.2.1 视频和动画的基本概念

1、AVI文件格式 AVI文件格式是Video for Windows所使用的文件格式，其扩展名为AVI。它采用了Intel公司的Indeo视频有损压缩技术把视频和音频信号混合交错地存放在一个文件中，较好地解决了音频信息与视频信息的同步问题，是目前较为流行的视频文件格式。AVI文件使用的压缩方法有多种，主要使用有损压缩方法。通常采用纯软件的压缩和还原手段。 2.2.2 视频和动画文件格式

2、MOV文件格式 MOV文件格式是QuickTime for Windows所使用的视频文件格式。和AVI文件相同，MOV文件也使用了Intel公司的Indeo视频压缩技术把视频和音频信号混合交错在一起，但具体实现不同。一般认为MOV文件图像较AVI好，但这只是相对而言，因为不同版本的AVI和MOV文件的画面质量是很难进行比较的。 2.2.2 视频和动画文件格式

3、 MPG格式 MPG文件是最新的数字视频标准文件，也称为系统文件或隔行数据流，是采用MPEG方法进行压缩的全运动视频图像。许多视频处理软件都支持该文件格式。在一定条件下，可在1024*768的分辨率下以每秒24，25或30帧的速度播放128 000种颜色的全运动视频图像和同步CD音质的伴音。 2.2.2 视频和动画文件格式

4、DAT格式 DAT是Video CD或Karaoke CD(即卡拉OK CD，为面向大众化消费的另一种CD标准)，DAT文件是VCD专用的视频文件格式，也是基于MPEG压缩/解压缩技术的视频文件格式。当计算机配备视霸卡或软解压程序后，可利用计算机对该格式的文件进行播放。 2.2.2 视频和动画文件格式

多媒体中的一幅640×480的256色彩图像所占的数据量为300kB；动态视频要求每秒播放25～30帧图像，因而以640×480的窗口播放256色彩色视频图像、具CD音质的立体声，就要求每秒处理约9MB的数据，即使采用一片容量为650MB的CD－ROM盘也仅能存储约75.6秒的视频图像，因此，动画和视频文件的压缩是十分必要的。多媒体中的一幅640×480的256色彩图像所占的数据量为300kB；动态视频要求每秒播放25～30帧图像，因而以640×480的窗口播放256色彩色视频图像、具CD音质的立体声，就要求每秒处理约9MB的数据，即使采用一片容量为650MB的CD－ROM盘也仅能存储约75.6秒的视频图像，因此，动画和视频文件的压缩是十分必要的。 2.2.3 视频和动画文件的存储

声音是通过空气传播的一种连续的波，叫声波。声音信号的三个基本参数是频率、幅度和音色。信号的频率是指信号每秒钟变化的次数，用Hz表示。人的听觉能够听到的声音频率范围是20Hz~20KHz，因此，在多媒体技术中，处理的信号主要是音频信号，它的频率范围为20Hz~20KHz。幅度又称为响度，即声音的大小，它取决于声波振幅的大小。音色是由混入基音的泛音所决定的，每个基音又都有其固有的频率和不同音强的泛音，从而使得每个声音具有特殊的音色效果。声音是通过空气传播的一种连续的波，叫声波。声音信号的三个基本参数是频率、幅度和音色。信号的频率是指信号每秒钟变化的次数，用Hz表示。人的听觉能够听到的声音频率范围是20Hz~20KHz，因此，在多媒体技术中，处理的信号主要是音频信号，它的频率范围为20Hz~20KHz。幅度又称为响度，即声音的大小，它取决于声波振幅的大小。音色是由混入基音的泛音所决定的，每个基音又都有其固有的频率和不同音强的泛音，从而使得每个声音具有特殊的音色效果。 2.3.1 声音的基本概念

1、WAV文件 WAV文件也称为波形文件，是Windows所使用的标准数字音频，文件的扩展名是WAV。它是对实际声音进行采样所得到的数据。波形文件最大的缺点就是文件太大，不适合长时间记录声音。例如，同样半小时的立体声音乐，MIDI文件只有200KB左右，而WAV文件则要差不多300MB。由于波形文件记录的是声音的数字化数据，所以可用一些声音工具软件对其进行处理，如加快或放慢放音速度，对声音进行重新组合等。 2.3.2 声音文件的格式和分类

2、MIDI音乐 MIDI音乐是（乐器数字接口）的缩写，MIDI文件的扩展名为MID。与波形文件不同，MIDI文件不对音乐进行采样，而是对音乐的每个音符记录为一个数字，所以与波形文件相比文件要小得多，可以满足长时间音乐的需要。此外，MIDI只能记录标准所规定的有限种乐器的组合，而且回放质量受到声音卡的合成芯片的限制。近年来，国外流行的声卡普遍采用波表法进行音乐合成，使MIDI的音乐质量大大提高。 2.3.2 声音文件的格式和分类

3、CD-DA是数字音频（Ccmpact Disc Digital Audio）的英文缩写，即大家日常使用的CD唱片，专业术语把它称为红皮书标准音频，它是一种数字化的声音。以16位，44.1kHz频率进行采样，几乎可以达到完全再现原始声音的效果。在每一张CD唱片上能存放长达72min的高质量的音乐。利用Windows 98的“CD播放器”和“媒体播放机”都可以播放CD音乐。CD音乐不是以磁盘文件方式保存的，因此不能随便将其中一段音乐复制到其他地方，这样，使得CD音乐的使用范围变得比较狭窄。 2.3.2 声音文件的格式和分类

4、 MP3音乐 随着计算机网络的普及和发展，MP3格式的音乐越来越受到人们的欢迎。因为这是一种压缩格式的声音文件，音质好，数据量小是它的最大优点。 MP3是一种数据音频压缩标准方法，它的全称是MPEG－Layer 3，是VCD影像压缩标准MPEG的一个组成部分。用该标准制作储存的音乐就是MP3音乐。因为MP3是经过压缩产生的文件，因此需要一套MP3播放软件进行还原。 2.3.2 声音文件的格式和分类

声音文件的存储量可用下式计算： 存储量（KB）=（采样频率KHZ×采样位数bit×声道数×时间秒）/8 2.3.3 声音文件的存储

1、冗余的基本概念 冗余是指信息存在的各种性质的多余度。通常，图像数据和语音数据的冗余很大。例如，广播员读文稿时每分钟约读180字，一个汉字占两字节，那么可以把所读汉字的文本数据量折算为360字节；但如果对语音直接录音采样，则一秒钟的数据量为64Kb相当于8000B，则一分钟的数据量是480 000B，也就是说语音数据有1000多倍的文本数据冗余。同样，有些图像也存在着很大的冗余。可见，如何压缩图像和语音数据中的冗余是多媒体应用的主要任务之一。 2.4.1 多媒体数据冗余的产生

2、数据冗余的种类 大多数信息中或多或少在存在着各种性质的多余度，在数字化后会表现为各种形式的数据冗余。数据冗余的类别可分为以下几种。（1）空间冗余规则物体和规则背景的表面物理特性都具有相关性，数字化后表现为数据冗余。 2.4.1 多媒体数据冗余的产生

（2）时间冗余 序列图像（如电视图像和运动图像）和语音数据的前后有着很强的相关性，经常包含着冗余。在播出该序列图像时，时间发生了推移，但若干幅画面的同一部位没有变化，变化的只是其中某些地方，这就形成了时间冗余。空间冗余和时间冗余是把图像信号看作概率信号时所反映出的统计特性，因此，这两种冗余也被称为统计冗余。 2.4.1 多媒体数据冗余的产生

（3）结构冗余 数字化图像中的物体表面纹理等结构往往存在着冗余，这种冗余称为结构冗余。当一幅图有很强的结构特性，纹理和影像色调等与物体表面结构有一定的规则时，其结构冗余很大。 2.4.1 多媒体数据冗余的产生

（4）知识冗余 由图像的记录方式与人对图像的知识差异所产生的冗余称为知识冗余。人对许多图像的理解与某些基础知识有很大的相关性。例如，人脸的图像有固定的结构，这类结构可由先验知识和背景知识得到。但计算机存储图像时还得把一个个像素信息存入，这就是知识冗余。 2.4.1 多媒体数据冗余的产生

（5）视觉冗余 人类的视觉系统对于图像的注意是非均匀和非线性的，它并不能感知图像的所有变化。当某些变化不能被视觉所感知，则忽略这些变化，我们仍认为图像是完好的。人类视觉系统的一般分辨能力估计为26灰度等级，而一般图像的量化采用28灰度等级，这样的冗余称为视觉冗余。 2.4.1 多媒体数据冗余的产生

（6）编码冗余 编码冗余又称信息熵冗余。信息熵指一组数据携带的平均信息量。这里的信息量是指从N个不相等可能事件中选出一个事件所需要的信息度量，即在N个事件中辨识一个特定事件的过程中需要提问的最少次数（=log2N比特）。将信息源所有可能事件的信息量进行平均，得到的信息平均量称为信息熵。 2.4.1 多媒体数据冗余的产生

按照解码后的数据与原始数据是否完全一致来进行分类，数据压缩方法可分为两类：无损压缩和有损压缩。按照解码后的数据与原始数据是否完全一致来进行分类，数据压缩方法可分为两类：无损压缩和有损压缩。无损压缩采用可逆编码方法实现的压缩称为无损压缩。这种方法的解码图像与原始图像严格相同，即压缩是完全可恢复的或没有偏差的。有损压缩采用不可逆编码方法实现的压缩称为有损压缩。这种方法的还原图像较之原始图像存在一定的误差，但选择的压缩率应使视觉效果可被接受。 2.4.2 多媒体数据的压缩方法

在多媒体技术的发展过程中，静止的图形和图像压缩标准的制定和推广起到了十分重要的作用。国际标准化组织（ISO）和国际电报电话咨询委员会（CCITT）联合成立的“联合照片专家组”JPEG于1991年3月提出了ISO CD 10918号建议草案：“多灰度静止图像的数字压缩编码”，它包含两部分：第一部分是无损压缩；第二部分是有损压缩，前者不会产生失真，但压缩比很小；后一种算法进行图像压缩信息虽有损但压缩比可以很大。例如，压缩20~40倍时，人眼基本上看不失真。 2.4.3 图形和图像压缩技术

声音和视频压缩标准 （1）可视电话/电视会议压缩标准H.261、 H.261标准采用基于DCT的变换编码以及带运动预测的差分脉码调制（DPCM）预测编码方法的混合编码。（2） MPEG标准活动图像专家组（MPEG）是由国际标准化组织（ISO）和国际电工委员会（IEC）联合成立的专家组，负责开发电视图像数据和声音数据的编码、解码和它们的同步等标准。这个专家组开发的标准称为MPEG标准。 2.4.4 音频和视频压缩技术

第二章 多媒体数据基础