第 6 章自适应差分脉码调制

第6章自适应差分脉码调制 计算机学院陈加忠 chenjz70@263.net 027 87541764

6.1 概述 • 几十年来，人们一直致力于压缩数字化语音占用频带的工作，也就是在相同质量指标下，努力降低数字化语音比特率，以提高数字通信系统的频带利用率 • 语音压缩方法有DPCMSBC ATC CELP MPLPC VQ ADPCM • ADPCM在更低的码率下(16-8kbps)，质量明显下降

6.2 DPCM基本原理 P141

6.3 ADPCM基本原理 P142 • 极点预测器 • 预测误差滤波器 • 重建滤波器

6.4 语音压缩编码 • 原理框图

6.4.1 语音编码技术概述 • 语音编码：移动通信数字化的基础第1/2代蜂窝系统根本区别 • 语音编码的意义： • 提高通话质量 (数字化+信道编码纠错) • 提高频谱利用率 (低码率编码) • 提高系统容量 (低码率，语音激活技术)

子带编码 频域自适应变换域编码波形编码器非差分 PCM 时域 DPCM ADPCM APC 差分语音编码器 M 连续可变斜率M 多脉冲激励LPC 码本激励LPC 线性预测编码矢量和激励LPC 参量编码器信道声码器共振峰声码器声码器倒频谱声码器语音激励声码器 6.4.2 语音编码分类

6.4.3 语音编码分类 • 波形编码：将时域模拟话音的波形信号进过采样、量化和编码形成数字语音信号---《现代通信原理》 • 编码速率较高，16k~64k • 包括：PCM，ADPCM，M，CVSDM，APC等 • 占用较高带宽，适合有线 • 参量编码：基于人类语音的产生机理建立数学模型，根据输入语音得出模型参数并传输，在收端恢复。 • 编码速率较低，1.2~4.8 kbps • 包括各种线形预测编码(LPC)方法和余弦声码器 • 语音质量中等，不满足商用要求 • 混合编码：波形编码+参量编码 (LPAS) • 包括GSM的RPE-LPC编码和VSELP编码

6.4.4 语音编码的标准 • G.711 PCM (64k bps) • G.721 ADPCM (32k bps) • G.722 7kHz带宽64k bps速率内的音频编码 • G.723 6.3k/5.6k 双速率多媒体语音编码 • G.728 16k bps 语音编码 LD-CELP • G.729 8k bps多媒体语音编码

6.4.5 语音编码的发展 • 极低速率语音编码，600bps • 高保真语音编码 • 自适应多速率语音编码 • 新的编码分析技术： • 非线形预测 • 多精度时频分析技术(子波分析技术) • 高阶统计分析技术

6.4.6 线形预测编码的原理 • 原理：模型化人类语音信号产生的机制，提取模型参数，并且只传输模型的参数。 • 语音信号的产生模型： • 语音的产生，声带和声道 • 不同语音产生的原因：声音激励源和声道不同 • 声音分类：浊音和清音 • 发声过程 • 口腔和鼻腔形成时变滤波器

6.4.7 清音和浊音 清浊音频谱清浊音信号

基音周期 声道参数清/浊音开关周期脉冲发生器时变数字滤波器随机噪声发生器 G 6.4.8 语音产生模型 • 语音模型的建立：1. 产生激励，2.响应 • 模型参数：基音，共振峰频率及强度，清浊音判决 • 低码率编码 • 码率降低有限 • 合成的语音波形失去了自然度和音质

6.4.9 LPC语音编码 • 使误差均方最小，可求得一组预测系数{ak}， • 传送：预测系数，基音周期合增益，清浊音判决

6.5 图像编码 • 变换： • 编码

6.5.1 图像压缩标准 • 可压缩的原因 • 已有的标准

6.5.2 编码与变换、量化 • 为什么要变换和量化变换量化熵编码高质量编码器具有优良频率特性的滤波器作变换工具，有利于得到平稳的能量分布，有利于进一步的量化处理原始信号的信息损失主要发生在量化阶段，好的量化能以尽可能少的量化误差换取最小的码率 = +

6.6 DFT与DCT • DFT变换结果有虚部和实部 • 对DFT变换系数量化后，吉布斯效应明显 • 把x(n)对称延拓，可以消除其中的虚部，得到DCT变换

6.6.1 正交变换的一个例子 假设图象的大小只有一个4×4的块，即一共16个点，其中每个象素点都有一定的值，我们把这个值叫灰度值。对图象而言，这些值为0~255之间的整数。假设一幅4×4的图象，它的灰度值如下：

下面我们对这个4×4的图象做变换，变换矩阵我们选：下面我们对这个4×4的图象做变换，变换矩阵我们选：一般我们希望它是正交矩阵，即变换矩阵和它的逆矩阵的乘积，为单位矩阵，即：

对上述图像作变换，可以验证： = 我们希望这个过程是可逆的，即可以验证：

6.6.2 二维4×4 DCT变换 若表示矩阵对应元素相乘，d=b/c，那么上式可以表示为时，为最优变换矩阵

6.6.3 二维4×4 DCT整数变换 在这里，d取5／2，非常接近最优值此时，，得到整数变换矩阵的正变换为：

6.6.4 二维4×4 DCT变换与量化 对于9比特的预测误差数据做变换，变换矩阵每一行绝对值之和的最大值为14，因此对于变换后的矩阵元素需要位来表示。现在大多数处理装置（如CPU，DSP）为32位宽，用上述变换进行处理就没有数据溢出的危险。一旦得到变换后的系数，我们就可以对变换系数进行量化操作。对于某个量化步长QStep，对应一个量化参数Q，量化参数Q的取值范围为0到44整数，量化就是把变换得到的结果都除以QStep：

可以得到： 可以得到其中，，floor表示向负无穷取整。量化参数Q与量化步长QStep的对应关系如表1。从表1中可以看出，量化参数Q每增加5时，量化步长QStep就随之翻倍增加。

表1 量化参数Q与量化步长QStep的对应关系

6.7 小波变换与QMF • Moret首先提出了小波的概念(Moret小波函数是Grossmann和Morlet在1984年提出的)，在很多学者的共同努力下，小波理论得到了完善和发展。特别是Mallat，他提出的多分辨率分析(Multiresolution analysis, MRA)理论，对小波构造理论起到了十分重要的作用。 • 1976年，Crochiere等人首先把子带编码应用于语音编码。在语音编码中，用作频谱QMF (Quadrature mirror filter)滤波器能够很好地解决过度带频率混叠问题，而且很自然地，人们把QMF引入二维信号处理。 • 子带就是小波分解后，得到不同的频带分量的时域或者空域表现。 • 子带编码的基本思想是，把信号分成多个子带，然后对各个子带进行编码。

6.7.1 QMF滤波器 • 混叠问题(aliasing) • 从信号处理角度看：QMF滤波器能够很好地解决过度带频率混叠问题。同理：假设：得到：

6.7.2 小波分解 • 从函数正交分解角度看：小波分解能够很好地解决信号的重构问题。 • Meyer于1985-1986年度在Boubaki研讨会上提出了二进小波概念，完善了QMF滤波器的理论，为QMF把频谱以二分分解提供了理论依据。 • 对于具有紧支的标准正交函数系，任何连续可积函数的取样值为： • 那么，x(t)可以写成： • 可以证明， (t-n)对不同的n正交，等价于： • 由于 (t-n)对不同的n正交，对x(t)的小波分解算法可以写成：

Mallat提出了多分辨率分析(Multiresolution analysis, MRA)理论，希望得到图象3个方向的纹理特征，以便机器识别

6.7.3 小波和QMF的比较 • 完备性概念 • 具有相同的信号完全重构的条件 • 具有相同的信号分解和重构的算法 • 小波分解采用的是L2空间中完备的正交基 • 小波理论，能构造出相同抽头(Taps)下，不同性能的滤波器 • 小波分析有更广泛的应用，除了编码，还能用在信号检测、微分方程、曲面拟合等领域。

6.7.4 正交小波的构造

根据MRA的思想，Daubechies设计了正交性能良好的高低通滤波器组，但是它们不对称即不满足线性相位，因此不能完全重构图象的边界根据MRA的思想，Daubechies设计了正交性能良好的高低通滤波器组，但是它们不对称即不满足线性相位，因此不能完全重构图象的边界

6.7.5 双正交小波的构造

3/5双正交小波 ¼ ½ ¼ -1/8 ¼ ¾ ¼ -1/8

3/5小波分解与重构中的对齐问题 x2 x1 x0x1 x2 …… xn-4 xn-3 xn-2 xn-1 xn-2 ck -1/8 1/4 3/4 1/4 -1/8…………-1/8 1/4 3/4 1/4 -1/8 dk (-1)n 1/4 1/2 1/4 …………………………1/4 1/2 1/4 0 c0 0 c1 0 c2…….cn-2 0 cn-1 0 cn-1 1/4 1/2 1/4 ……………………………………………..1/4 1/2 1/4 0 d0 0 d0 0 d1……. dn-2 0 dn-1 0 dn-2 (-1)n -1/8 1/4 3/4 1/4 -1/8 -1/8 1/4 3/4 1/4 -1/8 分解取偶数点，重构时补0在奇数点，分解时在奇数点，补0在偶数点。然后以边界点为中心对称延拓，分解和重构时延拓方式是一样的。

6.7.6 矢量小波(Multiwavelets)

SOM多重小波具有很好的低通、带通和高通特性，具有提高编码质量的潜力SOM多重小波具有很好的低通、带通和高通特性，具有提高编码质量的潜力

6.7.7 零树量化(EZW SPIHT)

6.7.8 Wavelet与DCT的比较(Y)

Wavelet与DCT的比较(U V)

Wavelet变换编码, 20.98 dB DCT变换编码, 17.95 dB 小波变换可以有效的克服块效应

(a)Lenna原图 (b)0.005bpp, PSNR=20.76dB (c) 0.01bpp, PSNR=22.72dB (d) 0.02bpp, PSNR=24.21dB (e) 0.05bpp, PSNR=27.30dB (f)0.1bpp, PSNR=28.81dB 小波编码在高码率和低码率情况下都取得很很好的实验结果

6.7.9 小波变换编码具有可伸缩性 编码的尺寸可伸缩性编码的质量可伸缩性

小波编码的数据结构的量化手段十分有利于可伸缩性编码和解码小波编码的数据结构的量化手段十分有利于可伸缩性编码和解码

6.8 视频编码与H.264 随着数字技术的发展，欣赏数字影视成为大众娱乐生活的重要内容。数字影视以数字信号形式，或者说以bit的形式在各种介质（或者叫存储器）存储和传输。我们希望在容量有限的存储器内存放更多的电影数量，或者希望在网络点播中看到更流畅的电影作品。然而存储器的容量或者网络能提供的带宽总是不能满足人们不断增长的需要，这就推动了视频压缩编码技术的发展。

对于CIF格式的视频流，它的画面大小是352×288个象素，每个象素点用8个bit来表示，对于黑白的画面来说，一幅画面需要352×288×8=811,008bit，如果是彩色画面，则需要1,216,512。为了欣赏到连续的画面，根据人类的视觉特性，每秒差不多要播放25个这样的画面（或者叫帧），才不会有快镜头的感觉（比如象卓别林的老电影）。那么，对于一部60分钟长的电影，它需要的存储量为1,216,512×25×60×60=109,486,080,000，约为13,685,760,000个字节，即13个G的存储空间。市场上的硬盘目前流行的一般为150个G，也就是说，这么一个硬盘里面只能放10部电影，这远远不能满足我们实际的需要。而实际上，150G的硬盘至少可以存放100部高质量的电影，这正是通过视频压缩手段才能做到这一点的。对于CIF格式的视频流，它的画面大小是352×288个象素，每个象素点用8个bit来表示，对于黑白的画面来说，一幅画面需要352×288×8=811,008bit，如果是彩色画面，则需要1,216,512。为了欣赏到连续的画面，根据人类的视觉特性，每秒差不多要播放25个这样的画面（或者叫帧），才不会有快镜头的感觉（比如象卓别林的老电影）。那么，对于一部60分钟长的电影，它需要的存储量为1,216,512×25×60×60=109,486,080,000，约为13,685,760,000个字节，即13个G的存储空间。市场上的硬盘目前流行的一般为150个G，也就是说，这么一个硬盘里面只能放10部电影，这远远不能满足我们实际的需要。而实际上，150G的硬盘至少可以存放100部高质量的电影，这正是通过视频压缩手段才能做到这一点的。

6.8.1 视频编码框架

帧k-1（参考帧） 帧k（当前帧）搜索窗口块 6.8.2 运动预测

=1 △ =4 △ =2 △ 帧前当 4 前面个参考帧 • 多参考帧技术——如果在整个宇宙中找到的最亮的恒星，一定不会比在整个银河系中找到的暗同一帧中的不同块的预测值可以在不同的参考帧中参。而且考帧越多，越能找到符合要求的预测值。以硬件的计算、存储能力为代价

第 6 章自适应差分脉码调制