580 likes | 861 Views
第 6 章 图像压缩. 图像压缩. 压缩模型 信息理论 无损压缩 有损压缩 图像压缩标准. 引言. (一)、图像数据压缩的重要性和必要性: # A4 大小 300dpi 二值扫描 —— 1MB # 640*480 的 24bit 真彩色图像 —— 0.92MB # 3656*2664 的 24bit 电影胶片 —— 29MB #PAL 制数字视频 —— 20M # 高清晰度电视 HDTV —— 166MB. (二)、图像数据压缩的应用领域:
E N D
图像压缩 • 压缩模型 • 信息理论 • 无损压缩 • 有损压缩 • 图像压缩标准
引言 (一)、图像数据压缩的重要性和必要性: # A4大小300dpi二值扫描——1MB # 640*480的24bit真彩色图像——0.92MB# 3656*2664的24bit电影胶片——29MB#PAL制数字视频——20M#高清晰度电视HDTV——166MB
(二)、图像数据压缩的应用领域: 1、办公自动化;2、医学图像处理;3、卫星遥感遥测系统;4、高清晰度电视HDTV;5、可视电话、会议电视;6、移动多媒体图像及视频传输: 彩信业务,手机视频;……凡是涉及到图像数据的传输、交换与存储的领域均要求进行图像数据的压缩。
(三)、图像中冗余信息的主要表现: 1、图像的空间冗余;-象素间冗余 相同的目标 相同的直方图 象素间的相关性不同
2、图像彩色光谱空间的冗余;3、视频图像信号在时间上的冗余;4、图像的视觉心理冗余;——压缩的目的就是去除信息冗余2、图像彩色光谱空间的冗余;3、视频图像信号在时间上的冗余;4、图像的视觉心理冗余;——压缩的目的就是去除信息冗余
如何评价图像编码中的解码图像与原始图像之间的偏离程度?如何评价图像编码中的解码图像与原始图像之间的偏离程度? • 通过保真度(逼真度)准则 • 两大类准则:客观保真度准则,主观保真度准则
客观保真度准则 • 当所损失的信息量可用编码输入图像与解码输出图像的函数表示时,基于客观保真度准则的。 常用的准则有: 均方根误差erms 总误差 均方信噪比SNRrms
主观保真度准则 • 一般情况下,解压图像最终是依靠人的视觉来判断的,用主观保真度准则。 如对电视图像质量进行绝对评价的尺度为
压缩模型 编码器 f^(x,y) 信源编 码器 信道编 码器 信道 信道解 码器 信源解 码器 输入 图像 Encoder Decoder Increases the noise immunity Removes input redundancies
信息理论 (一)、信源空间概述 1、信息:事物运动状态或存在方式的不确定性的描述;2、信源空间:随机符号及其出现概率的空间;3、信源的分类:(1)、 连续信源—离散信源—混合信源;(2)、无记忆信源—有记忆信源(相关信源)—有限长度记忆信源(Markov信源)
(二)、信息的度量1、信息公理(1)、信息由不确定性程度进行度量; 确定事件的信息量为零。(2)、不确定性程度越高信息量越大;(3)、相互独立性与信息量可加性; 独立事件的联合信息等于两个独立事件的信息总和。 满足上述公理的函数为:
2、离散无记忆信源(DNMS)的信息量度量:(1)信源符号 的自信息量定义为: (a)、非负性; (b)、信息量的单位: 底为2时——单位为:比特(bit) 底为e时——单位为:奈特(Nat) 底为10时——单位为:哈特
(2)、信源平均自信息量(信息熵)离散无记忆信源A的平均自信息量(信息熵)定义为:(2)、信源平均自信息量(信息熵)离散无记忆信源A的平均自信息量(信息熵)定义为:
3、平均码字长 • 借助熵的概念可以定义量度任何特定码的性能的准则,即平均码字长度。 • 其中βi为灰度级di所对应的码字长度。的单位也是比特/字符。
4、编码效率 编码符号是在字母集合A={a1,a2,a3,…am}中选取的。如果编码后形成一个新的等概率的无记忆信源,字母数为n,则它的最大熵应为logn比特/符号。因此这是一个极限值。如果H(d)/ =logn,则可以认为编码效率已经达到100%,如果H(d)/ <logn,则可认为编码效率较低。
5、压缩比 压缩比是衡量数据压缩程度的指标之一。目前常用的压缩比定义为 其中LB为源代码长度,Ld为压缩后代码长度,Pr为压缩比。 压缩比的物理意义是被压缩掉的数据占据源数据的百分比。当压缩比Pr接近100%时压缩效果最理想。
6、互信息 信源编码输出为bk给出的关于ai的信息量究竟为多少呢?为此将引入另外一个信息量度-互信息 对给定的两个离散信源X和Y,Y中事件bk的发生给出关于X中事件ai的互信息I(ai:bk)定义为: 其中,p(ai|bk)表示信源编码输出为bk,估计信源输入为ai的条件概率。I(ai|bk)称为条件自信息量,表示在发现信源编码输出为bk,对信源输入为ai的不确定性的猜测或知道bk后ai还保留的信息量。I(ai)表示ai的不确定性。两者值差即为bk解除的ai不确定性的多少。
无损压缩编码 • 哈夫曼编码 • 游程编码 • 无损预测编码
哈夫曼编码 • 50年代提出,一种无损的统计编码方法 • 用变长的码使冗余量达到最小,用一棵二叉树来编码,使常出现的字符用较短的码表示,不常出现的字符用较长的码表示。 用一个例子来介绍哈夫曼编码的步骤
给出一组初始信源的概率分布 • 1、缩减信源符合数量-将概率从大到小排列,再将两个概率最小的符号结合得到1个组合符号,如果剩下的符号多余2个,继续上述过程,直到只剩2个符号为止。 4 2 3 1
2、对每个信源赋值-先从(消减到)最小的信源开始,逐步回到初始信源,过程如表所示。对一个只有2个符号的信源,最短长度的二元码由符号0和1组成,将它们赋予对应最右列2个概率的符号2、对每个信源赋值-先从(消减到)最小的信源开始,逐步回到初始信源,过程如表所示。对一个只有2个符号的信源,最短长度的二元码由符号0和1组成,将它们赋予对应最右列2个概率的符号 1 2 3 4
哈夫曼编码效率 信源熵为: H=-∑Pilog2Pi =-(0.4log20.4+0.3log20.3 +2*0.1log20.1+0.06log20.06+0.04log20.04) =2.14比特/符号
码字长度 平均码字长度:R=∑βiPi R= ∑βiPi =0.4×1+0.3 × 2+0.1 × 3+0.1 × 4+0.06 × 5+0.04 × 5=2.2比特/符号 编码效率:η=H/R(%) η=H/R=2.14/2.2=0.973=97.3%
游程编码-RLC • 根据对各类图像的统计,发现图像信源中象素的空间相关性比较强。在经过采用和量化形成数字彩色图像后,其相邻象素的相关性体现在相邻象素亮度取值变化不大 对典型的黑白文本图像进行分析发现,前一象素为白色象素时,当前象素取值为白的条件概率P(W|W)平均在97%以上,而由白象素变为黑象素的概率P(B|W)仅为3%,类似的,当前一象素为黑,当前象素为黑的条件概率P(B|B)平均为75%,由黑变白的概率P(W|B)仅为25%。 对重复出现的字符、字符连续重复的个数以及起始位置进行编码,就能恢复该字符串 基本RLC结构
从RLC基本数据占用3个字节,即只有当重复字符串长度大于24(即连续有24个象素取值相同)时,才有数据压缩效益。从RLC基本数据占用3个字节,即只有当重复字符串长度大于24(即连续有24个象素取值相同)时,才有数据压缩效益。 先判断游程长度,再决定是否使用RLC 从根本上讲,游程编码依然是通过去除图像象素间的相关性,来达到数据压缩的目的 但是它不仅仅只利用一个相邻象素的信息,实际上,利用了图像多个象素间的相关性,其熵为高阶熵 数字传真压缩编码标准 二值文本图像
相邻像素间的空域相关性 无损预测编码 • 预测编码有线性预测和非线性预测两大类,可以在一幅图像内进行,即所谓的帧内预测法,也可以在多幅图像之间进行,即所谓的帧间预测法。 • 线性预测法通常称为差值脉冲编码调制法(Differential Pulse Code Modulation),简称DPCM 相邻帧之间的时域相关性
该象素的当前或现实值与预测值的差 fn + 符号编 码器 输入图像 压缩图像 S - 预测器 整数 舍入 预测误差, en f^n en + fn 解压图像 压缩图像 符号解 码器 S + 预测器 f^n 差组成 预测误差序列 预测误差的熵为信源的高阶熵 • 预测编码的基本思想:通过仅提取每个象素中的新信息并对它们编码,来消除象素间的冗余 预测误差:en=fn-f^n
通过预测可以消除相当多的象素间冗余,所以预测误差的概率密度函数一般在0点有1个高峰,并且与输入灰度值分布相比,其方差较小,事实上,预测误差的概率密度函数一般用0均值不相关拉普拉斯概率密度函数表示通过预测可以消除相当多的象素间冗余,所以预测误差的概率密度函数一般在0点有1个高峰,并且与输入灰度值分布相比,其方差较小,事实上,预测误差的概率密度函数一般用0均值不相关拉普拉斯概率密度函数表示 pe(e) =
有损压缩 • 有损预测编码 • 变换编码
e.n e n 量化器 符号编 码器 压缩图像 输入图像 S fn - f.n 预测器 S f^n e.n 压缩图像 符号解 码器 解压图像 S f^n 预测器 有损预测编码 在无损预测编码系统基础上,加1个量化器构成,如图所示
量化器插在符号编码器与预测误差产生处之间,把原来无损编码器中的整数舍入模块吸引进来,它将预测误差映射进有限个输出e.n中,e.n确定了有损预测编码中的压缩量和失真量量化器插在符号编码器与预测误差产生处之间,把原来无损编码器中的整数舍入模块吸引进来,它将预测误差映射进有限个输出e.n中,e.n确定了有损预测编码中的压缩量和失真量 为接纳量化步骤,需要改变无损编码器,以使编码器和解码器所产生的预测能相等 从上图可以看出,将有损编码器的预测器放在1个反馈环中,这个环的输入是过去预测和与其相对应的量化误差的函数: f.n=e.n+f^n 这样一个闭环结构,其目的是能防止在解码器的输出端产生误差
f^n=af.n-1 +c 对en>0 e.n= -c 其它 德尔塔调制(DM)是1中最简单的有损预测编码方法,其预测器和量化器分别定义为: 其中a是预测系数(一般小于等于1),c是1个正的常数 因为量化器的输出可用单个位符表示(输出只有2个值),所以上图编码器中的符号编码器只用长度固定为1bit的码,由DM方法得到的码率是1比特/象素
DM编码示例 取上述公式中的a=1和c=6.5。设输入序列为{14,15,14,15,13,15,15,14,20,26,27,28,27,27,29,37,47,62,75,77,78,79,80,81,82,82}。编码开始时,先将第一个输入象素直接传给编码器。在编码器和解码器两端都建立初始条件f.0=f0=14后,其余的f^,e,e.,和f.可用上述公式计算得到 给出DM编码例子,如表所示
f,f. 信号f 信号f. 斜率过载 颗粒噪声 n 2 4 6 8 10 24 26 12 14 16 18 20 22 画出对应表中的输入和输出(f和f.) 2点值得指出: 1、当c远大于输入中的最小变化时,如在n=0到n=7的相对平滑区域,DM编码会产生颗粒噪声。 2、当c远小于输入中的最大变化时,如在n=14到n=19的相对陡峭区间,DM编码会产生斜率过载。 对大多数图像而言,上述2种情况分别会导致图像中目标边缘发生模糊和整个图像产生纹状表面
DCT编码 • 基于离散余弦变换(DCT)的编码方法是JPEG算法的核心内容。 • 该算法包括两个不同层次的系统:其一为基本系统(baseline system),采用顺序工作方式编码,只采用哈夫曼编码,解码只能存储两套哈夫曼表;而另一个增强系统,采用累进工作方式,它是基本系统的扩充和增强,采用了有适应能力的算术编码,如图给出编解码过程
DCT变换-JPEG采样的是8×8大小的子块的二维离散余弦变换DCT。在编码器的输入端,首先把原始图像顺序地分割成一系列8×8的子块。设原始图像的采样精度为P位,是无符号整数,然后把(0,2p-1)范围的无符号整数变成[-2p-1,2p-1-1]范围内的有符号整数,以此作为DCT的输入。在解码器输出端,经离散余弦反变换IDCT后又得到一系列8×8块的图像数据块,将其数值范围由[-2p-1,2p-1-1] 再变回[0,2p-1]范围内的无符号整数,即获得重构的图像。
量化-为了达到压缩数据的目的,对DCT系数F(u,v)需作量化处理。量化处理是一个多对一的映射,它是造成DCT编解码信息失真的主要根源。量化有均匀量化和非均匀量化等方法 • DC系数的编码和AC系数的行程编码-64个变换系数经量化处理后,坐标u=v=0是直流分量DC系数,即64个空域图像采样值的平均值,相邻8×8块之间的DC系数有强的相关性。编码方式如图所示。在JPEG中对DC系数采样DPCM编码,其余63个AC交流系数采样行程编码
熵编码-为了进一步达到压缩数据的目的,需要对DC码和AC行程编码的码字再作基于统计特性的熵编码。在JPEG中建议采样两种熵编码方法,即哈夫曼编码和自适应二进制算术编码
图像压缩标准 • 二值图像压缩标准 • 静止图像压缩标准 • 序列图像压缩标准
现在称为ITU(international telecommunication union) 二值图像压缩标准 • G3和G4-由CCITT国家电话电报咨询委员会(consultative committee of the international telephone and telegraph)的两个小组(Group3和Group4)负责制定的,最初为传真应用而设计 非自适应编码方式 通过8组具有代表性的“实验”图来评判 打印文字、几种语言手写文字、线绘图 JBIG(joint bilevel imaging group)-这个标准是由ISO和CCITT两个组织的二值图联合组预1991年制定的。
G3和G4是非自适应技术的,所以对半调灰度图像编码是常产生扩展的效果(而不是压缩)。G3和G4是非自适应技术的,所以对半调灰度图像编码是常产生扩展的效果(而不是压缩)。 JBIG的目标之一就是采用1种自适应技术,以解决这个问题。另外也想使压缩方法可用于与上述8幅不同类型的图,以及渐进的传输与重建应用 采用自适应技术,其编码效率比G3和G4要高
静止图像压缩标准 • JPEG(joint picture expert group)-对静止灰度或彩色图像的压缩,由上述2个组织的灰度图联合专家制定,于1991年开始使用的,实际上定义了三种编码系统 (1)基于DCT地有损压缩编码基本系统,可用于绝大多数压缩应用场合 (2)用于高压缩比、高精度或渐进重建应用的扩展编码系统 (3)用于无失真应用场合的无损系统
图像应用系统想与JPEG兼容,必须支持JPEG基本系统,但另一方面,JPEG并没有规定文件格式、图像分辨率或所用彩色空间模型,这样它就有可能适用于不同应用场合图像应用系统想与JPEG兼容,必须支持JPEG基本系统,但另一方面,JPEG并没有规定文件格式、图像分辨率或所用彩色空间模型,这样它就有可能适用于不同应用场合 对录像机质量的静止图像的压缩率一般可达25:1 JPEG的基本系统: 编码器 源图像 DCT变换 量化器 熵编 码器 压缩图像 输入和输出数据的精度都是8bit,但量化DCT值的精度是11bit
JPEG2000-于1997年开始征集提案的-采用小波子带编码作为核心编码方案JPEG2000-于1997年开始征集提案的-采用小波子带编码作为核心编码方案 相比JPEG而言,不仅能提高对图像的压缩质量,尤其是低码率时的压缩质量,而且还将得到许多增加了的功能,包括根据图像质量、视觉感受和分辨率进行渐进传输,对码流的随机存取和处理,开放结构、向下兼容等 应用范围: *文献图像 *医疗成像*传真技术 *安全像机*互连网 *远程传感*扫描仪 *数字化图书馆*电子摄影
序列图像压缩标准 • 两大系列:1、国际电信联盟 ITU(CCITT)H.26X系列 主要在通信传输领域内应用2、国际标准化组织 ISO MPEG-X系列 应用范围很宽-视频图像压缩编解码
H.261 • 由CCITT于1990年制定的序列灰度图像压缩标准,主要为电视会议等应用而制定,也称为P×64标准(P=1,2,…30),其码流可为64,128,…1920kbit/s。它可允许带宽为1.544Mbit/s以小于150ms的延迟传输运动视频 它将前面介绍的基于DCT的压缩方法进行了扩展,并将减少帧间冗余的方法也包含量进来。 包含两个最基本的步骤:
帧间预测误差 量化间隔值 编码输出 变长 编码 缓冲 存储 ∑ DCT 量化器 图像输入 帧间预测值 IDCT 反量化 量化后的帧间预测误差 ∑ 重建图像数据 运动 补偿 帧存 储器 滤波器 运动矢量 运动估值 (1)对序列中的第一帧(或某参考帧)图用类似于JPEG中用的DCT压缩,以减少帧内冗余度 (2)估计目标的运动(通过计算当前帧与下1帧间的相关),以确定如何压缩下1帧,以减少帧间冗余度
H.262标准ITU为基于ATM宽带网络的视频会议而制定的,与ISO的MPEG-2标准完全一样。H.262标准ITU为基于ATM宽带网络的视频会议而制定的,与ISO的MPEG-2标准完全一样。 H.263标准-同H.261编码相同,进行一些改进 1、半像素的运动补偿-可提高运动补偿算法块匹配的预测性能2、改进的游程编码3、减小一般性的比特开销4、增加了可选模式5、算术编码替代游程编码或Huffman编码6、增强的运动预测7、双向预测代替了单纯的单向预测