2.54k likes | 2.68k Views
多媒体通信技术. 主讲教师:黄玉兰 学时: 16. 第一章 多媒体通信技术概述 第二章 音频技术基础 第三章 图像技术基础 第四章 视频信息压缩与处理 第五章 多媒体通信系统中的关键技术 第六章 多媒体通信网络技术 第七章 多媒体数据的分布式处理 第八章 多媒体通信应用系统. 本书章节. 第四章 视频信息压缩与处理.
E N D
多媒体通信技术 主讲教师:黄玉兰 学时:16
第一章 多媒体通信技术概述 第二章 音频技术基础 第三章 图像技术基础 第四章 视频信息压缩与处理 第五章 多媒体通信系统中的关键技术 第六章 多媒体通信网络技术 第七章 多媒体数据的分布式处理 第八章 多媒体通信应用系统 本书章节
第四章 视频信息压缩与处理 • 由于图像的数据量非常大,因而无论在存储中还是在传输中,都非常有必要使用图像压缩和处理技术。本章首先介绍了图像处理方法和各种实用编码,如熵编码、预测编码、变换编码、子带编码和小波变换编码等,最后详细介绍了目前国际上通用的图像压缩标准。
本章主要内容 4.1 图像的统计特性 4.2 信息压缩方法及其分类 4.3 无失真图像压缩编码方法4.4 限失真图像压缩编码方法4.5 几种新型的图像压缩编码技术4.6 数字图像处理4.7 图像压缩技术标准
4.1 图像的统计特性 • 由前面的分析可知,一幅图像是由几十万以上的像素构成的。但实际中由于一幅图像的相邻像素之间、相邻行之间以及相邻帧之间都存在着较强的相关性,这样实际有分析价值的图像只占其中的一小部分。 • 所谓图像统计特性是指其亮度、色度(或色差)值或亮度、色度(或色差)抽样值的随机统计特性。通常用“熵值”来表示。 • 可以根据图像的统计特性找出最佳的压缩编码方案,使其编码后的信号速率尽量等于图像的信息熵。
4.1.1 图像的信息量 • 每当我们看书、听电话、看电视时,都可以获得一系列丰富、有意义的消息,因此我们称一个有次序的符号(如状态、字母、数字或电平等)序列就是消息。 • 例如某一个图像信息源所发出的符号集合为X={S1, S2, …, Sn} , Si为其中的某一个符号,可见它能够发出n种符号。
根据信息论的基本知识,从图像信息源X发出符号Si的概率为p(Si),而且p(Si)将满足下列条件:根据信息论的基本知识,从图像信息源X发出符号Si的概率为p(Si),而且p(Si)将满足下列条件: • 这样符号Si所携带的信息量I(Si)可以用下式表示:
上式所定义的信息量也称为自信息量,单位 • 为“bit”,表示在接收者未收到符号Si之前,并不 • 清楚究竟会收到符号集X={S1, S2, …, Sn} 中的 • 哪一个符号,即存在不确定性。当接收者收到符 • 号Si之后,这种不确定性才能消除,这就是通过 • 接收所获得的信息量。
如果从图像信息源X中发送Si的概率越大,则 • 这种不确定性越小,也就是说,接收者所获得的 • 信息量也越小。若p(Si)=1,则表明接收者收到Si • 的事件是一种必然事件,其不确定性为0,因而 • 该事件没有任何有价值的信息。
4.1.2 离散信源 • 如果信息源所发出的符号均取自某一个离散 • 集合,这样的信息源称为离散信源。由信息论的 • 基本理论可知,离散信源X可以用下式描述: • 其中
如果从上述信息源X中所发出的各种符号彼 • 此独立无关,即任意两个相继发出的符号Si和Sj, • Si符号不会对Sj符号构成影响,或者说Sj符号与 • 其前面出现的符号Si无关,我们称这样的图像信 • 息源为“无记忆”的离散信息源。
由一个无记忆的离散信息源所发出的任意长 • 度的符号序列S1,S2……Sn的信息量为 • 从上式可以看出,总信息量等于相继发出的 • 各符号的自信息量之和。
对于实际的图像信息源来说,它所发出的各 • 符号并不是相互独立的,而是具有一定的相关 • 性,即相继发出的符号序列中Si符号的出现与它 • 之前已相继出现的几个符号Si-1,Si-2,……有关, • 这样的信源就是“有记忆”信息源。
4.1.3 图像的信息熵 • 对于无记忆的图像信息源而言,我们无法确切 • 地知道信息源在下一时刻发出的符号是符号集 • X={S1, S2, …, Sn} • 中的哪一个符号,因此信息源所发出的符号Si本身 • 就是一个随机变量,而其信息量I又是Si的函数。 • 由此可知,I也是一个随机变量,这样我们就可 • 以求出图像信息源X发出符号集Sn中各符号的信息 • 量的统计平均(即求其数学期望),从而得到符号 • 集Sn中每个符号的平均信息量。
在信息论中称H(X)为图像信息源X的“熵”,其单在信息论中称H(X)为图像信息源X的“熵”,其单 • 位为bit/符号。
1、无记忆信源的概率分布与熵的关系 • 计算图像的熵的方法有两种: • 其一是对图像信息源的概率分布提出数学模型,然而根据该模型进行熵的计算 • 其二是将图像分割成统计上相互独立的“子像块”,当一幅图像所包含子像块数足够多时,便能具体地测量出每个子像块出现的概率,最后按式(4-5)计算出信息熵。 • 下面观察几种常见的图像信息源。
①均匀分布的图像信息源 • 如果图像信息源的概率分布呈现均匀分布,即各符号出 • 现的概率相等,那么其数学模型可写为: • =常数 (4-6) • 则由式(4-5)可求出该图像信息源的熵H(x)为 • (4-7) • 可以证明,当图像信息源中各符号出现的概率相等 • 时,信源的信息熵最大。
我们现以n=2的情况为例来进行说明。该信源所发出的符号集X={S1.S2}。如果S1出现的概率为p,那么S2出现的概率为1-p,在图4-1中给出了熵与S1出现概率p的关系曲线。从中可以看出,p=0或1时,H(X)=0,而当p=1/2时,H(X)最大,并且等于1bit/符号,其余情况下,所含的信息量总低于1bit/符号。我们现以n=2的情况为例来进行说明。该信源所发出的符号集X={S1.S2}。如果S1出现的概率为p,那么S2出现的概率为1-p,在图4-1中给出了熵与S1出现概率p的关系曲线。从中可以看出,p=0或1时,H(X)=0,而当p=1/2时,H(X)最大,并且等于1bit/符号,其余情况下,所含的信息量总低于1bit/符号。 • 由此可见,数据压缩的方法之一,就是使每个符号所代表的信息量最大。通常通过压缩各信源符号间的冗余度使各信源符号呈现等概率分布来达到各符号所携带的信息量最大。
②正态分布的图像信息源 • 如果图像信息源的概率分布呈现正态分布,则其中符号Si • 的分布概率可表示为 • (4-10) • 在实际图像中,可根据图像的内容(如人的头肩像、景物 • 等)进行分类。通常用一幅或一组典型的测试图像代替这类图 • 像,然后对典型的测试图像求熵,最后利用熵值来研究该类图 • 像的压缩编码方法。 • 假设某一测试图像包含N=256×256个像素,每个像素采 • 用8bit编码,可见相当于有256个灰度等级。如果在该幅测试 • 图中有ni个灰度为i的像素,那么灰度为i的像素出现的概率 • 为 ,这样便可以利用式(4-5)求出该信息源的熵。
例4-1 已知一幅图像包含256×256像素,其中每像素用8bit表示。如果其中包含红色像素13100个,求该像素出现的概率为多少? • 解:
2、信源的相关性与序列熵的关系 • 对于一个无记忆的离散信源,如果已知输出 • 序列中的相邻两个符号X和Y,其中X,Y分别取自 • 于: 该序列{sitj}的平均信息熵称为联合熵:
式中rij为符合Si和tj同时发生时的联合概率, • 因为X和Y彼此独立,故rij=p(Si)q(tj),因此有: • 即:离散无记忆信源所产生的符号序列的熵等于各符号熵之和.
在给定X的条件下,Y所具有的熵称之为条件熵,即:在给定X的条件下,Y所具有的熵称之为条件熵,即: 不难证明: • 许多离散信源都是有记忆的,其前一个符号 • 直接对后面所出现的符号构成影响,或者说后面 • 出现的符号由前面几个出现的符号决定。 • 如相邻2个符号X和Y,此时联合概率 • rij=p(si)pji=q(tj)pij • 其中 pji=p(tj/si),qij=p(si/tj)
由上面的分析可以看出,序列熵与其可能达 • 到的最大值之间的差值就是指该信息源中所含有 • 的冗余度。如果能使信源输出的各符号之间的冗 • 余度越小,那么每个符号所携带的信息量也越 • 大,这样,传送相同的信息量所需要的序列长度 • 也越短,即包含的比特数越少。 • 由此得到另一种数据压缩的方法:去除信源 • 输出各符号间的相关性,其相关性去除越多,则 • 信源特性越趋于无记忆信源的特性。
4.2 信息压缩方法及其分类 • 多媒体信息存在数据量大、数据流具有突发性和 • 码速可变性三大特征。 • 如果一幅图像中代表其亮度、色彩和饱和度的 • 各项分量的带宽分别为4MHz、1.3MHz和0.5MHz,那 • 么根据取样定理的规定,只要当取样频率大于或等 • 于原信号的最高频率的2倍时,才能从取样信号中 • 无失真地恢复原信号。若取等号,并且每个取样值 • 用8bit表示,由此可以计算出一幅图像的数据量: • (4+1.3+0.5)×2×8=92.8Mbit/s • 显然,数据量非常大,很难直接进行保存,因此必 • 须对图像数据进行压缩以适应传输和存储的要求。
4.2.1 图像信息中存在的冗余类型 1、空间冗余 图4-2是一幅图像,其中心部分为一个灰色的方块,可 见在灰色区域中的所有像素点的光强和彩色以及饱和度都是 相同的,因此该区域中的数据之间存在很大的冗余度。可见 所谓的空间冗余就是指一幅图像中存在着许多灰度或颜色相 同的邻近像素,由这些像素组成的局部区域,在此区域中各 像素值具有很强的相关性。 图4-2 空间冗余
空间冗余是图像数据中最基本的冗余。为去除这种冗余,空间冗余是图像数据中最基本的冗余。为去除这种冗余, • 人们通常将其视为一个整体,并用极少的数据量来表示,从而 • 减少邻近像素之间的空间相关性,以达到数据压缩的目的。这 • 种压缩方法称为空间压缩或帧内压缩。
2、时间冗余 由于活动图像序列中的任意两幅相邻的图像之间的时间 间隔很短,因此两幅图像中存在大量的相关信息。如图4-3 所示。从图中可以看出,前后两幅图像的背景没有变化, 所不同的是其中的运动物体的位置随t发生变化,因此这两 幅图像之间存在相关性。此时我们可以在前一幅图像的基 础上,只需改变少量的数据,便可以表示出后一幅图像, 从而达到数据压缩的目的。
在语言中,由于人在说话时发音的音频是一连续的渐变过程,而不是一个完全时间上独立的过程,因而存在时间冗余。在语言中,由于人在说话时发音的音频是一连续的渐变过程,而不是一个完全时间上独立的过程,因而存在时间冗余。 • 时间冗余是活动图像和语音数据中经常存在的一种冗余,这种压缩也称为时间压缩或帧间压缩。
时间冗余 图4-3 时间冗余
信息熵冗余 • 针对数据信息量而言,它代表从图像信息源中发出的一个符号的平均信息量。设某种编码的平均码长单位数据量为 式中I(si)为分配给第si个符号的比特数。
A B C D 1/2 1/4 1/8 1/8 H(X)=1.75bit/字符 X= A B C D 00 01 10 11 C(X)=2bit/字符 A B C D 0 10 110 111 C1(X)=1.75bit/字符
信息熵是针对数据的信息量而言的,它代表从图像信息源中信息熵是针对数据的信息量而言的,它代表从图像信息源中 • 发出的一个符号的平均信息量。设某种编码的平均码长单位数 • 据量为 • L=∑p(Si)·l(Si) • 式中,l(Si)为分配给第Si符号的比特数。 • 这种压缩的目的就是要使L接近于H(x),但实际上 • L=H(x)+e,其巾e为任意小的正数。可见L是以H(X)为下 • 限,即L≥H(x),其含义是指描述某一信息所需的“比特数”大 • 于理论上表示该信息所需要的最小“比特散”.因此它们之间存 • 在冗余,这种冗余被称为信息冗余或编码冗余。
结构冗余 有些图象从大域上看存在非常强的纹理结构,我们称它们在结构上存在有冗余,也称文理冗余。 例如布纹图象和草席图象
知识冗余 有许多图象的理解与某些基础知识有相当大的相关性。 例如,人脸的图象有固定的结构。比如说嘴的上方有鼻子, 鼻子的上方有眼睛, 鼻子位于正脸图象的中线上等等。 这类规律性的结构可由先验知识和背景知识得到, 我们称 此类冗余为知识冗余。
视觉冗余 由于人眼的视觉特性所限,人眼不能完全感觉到图像画 面的所有细小的变化。例如人眼的视觉对图像边缘的剧烈 变化不敏感,而对图像的亮度信息非常敏感,因此经过图 像压缩后,虽然丢掉了一些信息,但从人眼的视觉上并未 感觉到其中的变化,而仍认为图像具有良好的质量。 事实上人类视觉系统一般分辨能力约为26灰度等级,而一 般图象量化采用28灰度等级,这种差别就是视觉冗余。
听觉冗余 人类听觉系统对不同声音的敏感程度不同,而且受环境 的影响,声音之间还存在掩蔽效应。 比如,太高或太低的声音都听不到。在嘈杂的环境下,听不到低的声音。别人的声音可以盖过你的声音。这类冗余我们称为听觉冗余。 消除冗余就是数据压缩的途径!!
4.2.2 图像编码的基本过程 图4-5给出了一种常见的图像通信系统模型,它是由信源、信源编码器、信道编码器、信道、信道解码器、信源解码器和信宿构成。 • 图像通信系统模型 数据 压缩 原始图像 信 源 信 源 编码器 信 道 编码器 符号率:1/Ts 符号率:1/Tc f(x,y) {xt} 有 噪 信 道 {yt} 信 宿 信 源 解码器 信 道 解码器 符号率:1/Ts 符号率:1/Tc f’(x,y) 无噪信道 图4-5 图像通信系统模型
如果忽略噪声的影响,那么数据信息能通过信道实现无如果忽略噪声的影响,那么数据信息能通过信道实现无 • 误传输(无噪声信道) • 如果系统的信源为一个数字信源,那么便可以将一幅光 • 图像f(x,y)转换成具有n个符号的离散随机信号。若该信源 • 是一个恒定信源,则每Ts秒产生一个符号,这样,由信源输 • 出的符号速率为Rs=1/Ts • 信源编码器负责完成数据压缩功能,它对每个符号进行映射变换,从中消除图像信息中的各种冗余信息,使数据得到压缩,而其中的失真又能被人眼的视觉效果所接受。此时所输出的数据速率Rc=1/Tc。通常Rs>Rc. • 如果信道处于理想状态,则信道为一无噪声信道,那么信息通过该信道时,可实现无失真传输,信源解码器接收速率为Rc • 信源解码器是编码器的逆过程,其输出信号直接送往信宿,从而重建图像.
4.2.3 压缩编码方法及其分类 模拟压缩、数字压缩(常用) 1.由于信息可以分为模拟信息和数字信息,因而压缩算法也包括模拟和数字两种。 按恢复的图像性质(根据解码后数据与原始数据是否完 全一致),数字图像压缩方法可以分为可逆编码和不可逆编 码两种。
可逆编码(无失真编码,无损压缩)当系统采用此方法进行数据压缩时,在接收端所获得的解码与原图像完全相同,但无损压缩不能提供较高的压缩比。如Huffman编码、算术编码、行程长度编码等。可逆编码(无失真编码,无损压缩)当系统采用此方法进行数据压缩时,在接收端所获得的解码与原图像完全相同,但无损压缩不能提供较高的压缩比。如Huffman编码、算术编码、行程长度编码等。 • 不可逆编码(有失真编码,有损压缩)顾名思义,在使用这种方法进行数据压缩的图像系统中,其恢复图像存在一定的误差,但该误差可以控制在一定的范围内,而不影响特定环境下人眼的视觉效果,这种压缩编码具有较高的压缩比。 • 如变换编码和预测编码
根据压缩的原理可以分类: • 预测编码 • 这是一种基于图像统计特性的编码方法,其目的是在空间上和时间上减少图像数据间的相关性,从而达到数据压缩的目的,但这是一种有失真的压缩方法,细分起来预测编码又分为帧内编码和帧间编码(后面介绍),其典型的压缩方法有DPCM和ADPCM.
变换编码 • 这也是一种基于统计冗余的压缩编码方法。它是将图像光强矩阵(时域信号)转换到变换域上进行处理。在实际编码中,常常利用图像的统计特性和人眼的视觉特性,选择部分变换系数来进行信息传输,因此其恢复图像中将存在一定的失真(如果传送全部变换系数,那么恢复图像中将不存在失真)。常用的正交变换有离散傅氏变换DFT、离散余弦变换DCT、离散正弦变换DST和K-L变换。
标量量化和矢量量化编码 • 标量量化与矢量量化编码也是一种针对统计冗余而进行压缩的方法。标量量化是指传统的量化,即将有无限电平的幅度值,用有限电平数表示的方法,可见它是一个样点、一个样点地进行量化编码,而在矢量编码中一次可以量化多个样点,矢量量化也是一种限失真编码。
信息熵编码 • 信息熵编码同样是一种基于图像统计特性的编码方法,它是根据信息熵的原理,用最短的位数表示出现概率大的信息,而出现概率较小的信息则用较长的位数来表示,以此达到压缩数据的目的。常见的熵编码有哈夫曼编码、游程编码和算术编码。
子带编码 • 在子带编码中,首先将图像数据转换到频域,然后按频率分成若干子带,对每个子带用一个与其统计特性相适配的编码器进行抽样、量化和编码,并将各子带输出数据合成为数据码流,从而获得压缩数据。而在接收端则对分接和解码后的各子带信号进行合成,从而重建图像。这种编码可使1个子带内的编码噪声限制于本子带内,而不会向其他子带扩散,因此它具有压缩比和信噪比高,图像质量好的特点。
结构编码 • 结构编码是一种第二代编码。它是根据所求出的有关图像中的边界、轮廓、纹理等结构特征参数进行编码,在解码时则根据这些结构和参数信息进行图像合成,从而重建图像。 • 模型编码 • 这是一种基于知识的编码,它首先利用人们对自然知识的了解而形成的规则库,将人脸变化等特征用一系列参数来进行描述,然后通过对模型参数的编码与解码达到压缩图像数据的目的。
4.2.4 数据压缩技术的性能指标 • 压缩比 • 压缩性能通常用压缩比来定义,它是指压缩过程中输入数 • 据量与输出数据量之比. • 设原图像的平均码长为L,压缩后图像的平均码长为Lc,则压缩 • 比为C=L/Lc • 压缩比越大,说明数据压缩的程度越高。 • 除压缩比之外,冗余度和编码效率也是衡量信源特性以 • 及编解码设备性能的重要指标,定义如下: • 冗余度 = • 编码效率 其中H(X)为信源熵。