第三讲

第三讲 MTI 多媒体技术 JIANGDA 话音编码（Speech Coding）

主要内容 • 话音的形成原理 • 话音编译码器原理 • 脉冲编码调制（PCM） • 增量调制与自适应增量调制 • 自适应差分脉冲编码调制（ADPCM） • 子带编码 • 其他编码

课前思考 • 是否可以采取合成方式产生音乐呢？答案是肯定的，电子乐器的蓬勃发展也已经证实。自1976年应用调频(FM)音乐合成技术以来，其乐音已经很逼真。1984年又开发出另一种更真实的音乐合成技术－－波形表(Wavetable)全成。目前这两种音乐合成技术都应用于多媒体计算机的音频卡中。　　带着下面的问题学习： • 一个乐音必备的三要素是什么？ • 乐音和噪音的主要区别是什么？ • 什么是调频音乐合成？ • 什么是波表合成？ • 什么是MIDI？ • 什么情况下使用MIDI？

课前思考 • 　　在多媒体或虚拟现实系统中增加声音是非常必要的，然而，要使多媒体和虚拟现实系统中的声音具有真实世界的声音特性，却不是件容易的事。那时，声音不仅以响度表明她的存在，而且还以它的方向感信息显示出空间特性。我们称这种声音为三维真实感声音。　　近年来，用计算机来生成真实感声音已引起广泛的关注。研究者首先从声音的本质入手，继而研究人对不同声音的感知特性。从这些原本属于物理声学和心理声学的研究结果中找到了影响人类对三维真实感声音感知的重要因素。

话音的形成原理 肺中的空气受到挤压形成气流，气流通过声门（声带）沿着声道（由咽、喉、口腔等组成）释放出去，就形成了话音。气流、声门可以等效为一个激励源，声道可以等效为一个时变滤波器（共振峰）。话音信号具有很强的相关性（长期相关、短期相关）。

话音的分类 • 浊音（voiced sounds）：声道打开，声带在先打开后关闭，在此期间声带要发生振动。浊音的激励源被等效为准周期的脉冲信号。 • 清音（unvoiced sounds）：声门打开，声带不振动，声音靠空气在声道里高速收缩产生。清音的激励源被等效为一种白噪声信号。 • 爆破音（plosive sounds）：声道关闭之后产生压缩空气然后突然打开声道所发出的声音。 • 混合音

话音编码概要 浊音段的波形举例浊音段的功率普密度举例清音段的波形举例清音段的功率谱密度举例

话音技术的研究热点 • 话音压缩编码（Speech Coding） • 话音识别（Speech Recognition） • 文本话音转换（Text To Speech）

话音编译码器 A/D 话音编码信道编码信道 D/A 话音译码信道译码

衡量话音编码器的参数 • 数据输出速率 • 延迟时间 • 话音质量 • 价格

话音编译码器的分类 • 波形编译码器（waveform coder）：不利用生成话音的信号的任何知识，将话音视为一种普通的声音，直接对波形信号进行采样和量化。例如PCM、DPCM、ADPCM等。 • 音源编译码器（Source coder）：也叫参数编译码器、声码器（vocoder）。它从话音波形信号中提取生成话音的参数，使用这些参数通过话音生成模型重构出话音。 • 混合编译码器（Hybrid coder）：综合使用上述两种技术。使用的激励信号波形尽可能接近于原始话音信号的波形。例如CELP。

三种话音编译码器的对比

波形编译码器 • 波形编译码的想法是，不利用生成话音信号的任何知识而企图产生一种重构信号，它的波形与原始话音波形尽可能地一致。 • 时域法(time domain approach) • 脉冲编码调制(pulse code modulation，PCM)，它仅仅是对输入信号进行采样和量化。 • 差分脉冲编码调制(differential pulse code modulation，DPCM) • 自适应差分脉冲编码调制(adaptive differential PCM，ADPCM)。 • 频域法(frequency domain approach) • 子带编码(sub-band coding，SBC) ； • 自适应变换编码(adaptive transform coding，ATC)。

音源编译码器 • 音源编译码的想法是从话音波形信号中提取生成话音的参数，使用这些参数通过话音生成模型重构话音。 • 混合编译码 • 混合编译码的想法是企图填补波形编译码和音源编译码之间的间隔。 • 时域合成-分析(analysis-by-synthesis,AbS)编译码器； • 等间隔脉冲激励(regular-pulse excited,RPE)编译码器； • 码激励线性预测CELP(code excited linear predictive)编译码器 • 混合激励线性预测(mixed excitation linear prediction，MELP) 。

语音信号的冗余度 • 幅度非均匀分布 • 样本之间的相关性 • 周期之间的相关性 • 基音之间的相关性 • 静止系数（话音间隙） • 长期相关性（long term correlation）

脉冲编码调制（PCM） • Pulse Code Modulation

PCM编码框图

脉冲编码调制（PCM） • PCM的编码：它的输入是模拟声音信号，输出是PCM样本。 • 图中的“防失真滤波器”是一个低通滤波器，用来滤除声音频带以外的信号； • “波形编码器”可暂时理解为“采样器”，“量化器”可理解为“量化阶大小(step-size)”生成器或者称为“量化间隔”生成器。

PCM的量化方式 均匀量化与非均匀量化

均匀量化 • 均匀量化就是采用相同的“等分尺”来度量采样得到的幅度，也称为线性量化，如图所示。量化后的样本值Y和原始值X的差E=Y-X称为量化误差或量化噪声。

非均匀量化 • 非线性量化的基本想法是，对输入信号进行量化时，大的输入信号采用大的量化间隔，小的输入信号采用小的量化间隔。这样就可以在满足精度要求的情况下用较少的位数来表示。声音数据还原时，采用相同的规则。 • 在非线性量化中，采样输入信号幅度和量化输出数据之间定义了两种对应关系，一种称为μ律压扩(companding)算法，另一种称为A律压扩算法。

非均匀量化

非均匀量化 • 对小信号采用小的量化间隔，对大信号采用大的量化间隔，这样可以用较少的位数编码。 • 对大信号来说，虽然绝对量化误差较大，但是因为：（1）大信号出现的机会不多，（2）信噪比（相对误差）与小信号是一致的，所以对总的话音质量影响不大。 • 非均匀量化也是一种压缩。

µ律压扩与A律压扩 • m律(m -Law)压扩(G.711)主要用在北美和日本等地区的数字电话通信中。 x为 x 为输入信号，规格化为－1<= x <=1 sgn(x)为x的极性 m为确定压缩量的参数，它反映最大量化间隔和最小量化间隔之比，取100 <=m<= 500。

µ律压扩与A律压扩 A律(A-Law)压扩(G.711)主要用在欧洲和中国大陆等地区的数字电话通信中 0 <= |x| <= 1/A 1/A<= |x| <= 1 对于采样频率为8 kHz，样本精度为13位、14位或者16位的输入信号，使用m律压扩编码或者使用A律压扩编码，经过PCM编码器之后每个样本的精度为8位，输出的数据率为64 kb/s。这个数据就是CCITT推荐的G.711标准。

PCM在通信中的应用 • PCM编码早期主要用于话音通信中的多路复用。 • 频分多路复用 (frequency-division multiplexing，FDM) • 这种方法是把传输信道的频带分成好几个窄带，每个窄带传送一路信号。 • 时分多路复用(time-division multiplexing，TDM) • 这种方法是把传输信道按时间来分割，为每个用户指定一个时间间隔，每个间隔里传输信号的一部分，这样就可以使许多用户同时使用一条传输线路。这是数字通信的主要手段。

PCM与时分多路复用（TDM）

自适应量化阶 差分脉冲编码调制（DPCM) 产生误差 xk ek e’k 量化器 • 关键在于预测器与量化器的设计 - 逆量化器 e’’k x’’k x’k 预测器自适应预测

DPCM系统原理框图

差分脉冲编码调制（DPCM) e’k e’’k x’k 逆量化器 x’’k 预测器译码过程

预测方程式 线性预测：如果ai是常数，则为时不变线性预测，否则为自适应线性预测最简单的预测方程：

最简单的DPCM

增量调制(△M) 增量调制 (deltamodulation，DM) 是一种预测编码技术，是对实际的采样信号与预测的采样信号之差的极性进行编码，将极性变成“0”和“1”这两种可能的取值之一。如果实际的采样信号与预测的采样信号之差的极性为“正”，则用“1”表示；相反则用“0”表示。DM编码系统又称为“1位系统”。

增量调制(△M) • 简介 • 由于增量调制编码（DM）的简单性，它已成为数字通信和压缩存储的一种重要方法。 • 很多人对最早在1946年发明的DM系统做了大量的改进和提高工作。后来的自适应增量调制ADM系统采用十分简单的算法就能实现32 kb/s～48 kb/s的数据率，而且可提供高质量的重构话音，它的MOS评分可达到4.3分左右。 • MOS(Mean Opinion Score，是确定语音质量的常用测试方法，它是为国际电联(ITU)推荐的测试)

增量调制(△M) • 增量调制(△M,delta modulation,DM) • 它是一种预测编码技术，是PCM的一种变形。 • DM是对实际的采样信号与预测的采样信号之差的极性进行编码，极性+为“1”，负为“0”。图 DM波形编码示意图

增量调制(△M) • 在DM波形编码示意图中，可以看到： • 采样点i=1,预测值y[1]= △,实际输入大于预测值，因此x[1]=1；……i=5，预测值y[5]=4△,实际输入小于预测值，x[5]=0；…… • 增量调制器的输出不能保持跟踪输入信号的快速变化，称为增量调制器的斜率过载(slope overload)。这是人们关注的焦点，也促使了ADM(adaptive delta moudulation)的研究。 • 在输入信号缓慢变化的部分，即输入信号与预测信号的差值接近零的区域，增量调制器的输出出现随机交变的“0”和“1”，称为增量调制器的粒状噪声(granular noise)，这种噪声不能消除。

自适应增量调制(ADM) • CVSD（连续可变斜率增量调制）：如果编码器的输出连续出现三个相同的值，量化阶就加上一个大的增量；反之，就加一个小的增量。

自适应脉冲编码调制（APCM） • APCM是一种根据输入信号幅度大小自动改变量化阶大小的一种波形编码技术。

APCM • 为了使增量调制器的量化阶△能自适应，也就是根据输入信号斜率的变化自动调整量化阶△的大小,以使斜率过载和粒状噪声都减到最小。 • 1971年Song提出自适应增量调制技术：每当输出不变时量化阶增大50%；每当输出值变化时量化阶减小50%，使粒状噪声减到最小。 • 1970年Greefkes提出的连续可变斜率增量调制器(congtinuously variable slope delta modulation,CVSD)：如果输出连续出现3个相同的值，量化阶就加上一个大的增量，反之，就增加一个小的增量。 • 20世纪80年代，Motorola实现了CVSD算法的芯片，……。

自适应脉冲编码调制 • 自适应脉冲编码调制(APCM) • APCM(adaptive pulse code modulation)是一种根据输入信号幅度大小自调节量化阶大小的一种波形编码技术。 • 有两种调节量化阶的方法，如图所示： • 前向适应(forward adaptation)：根据未量化的样本值的均方根值来估算输入信号的电平，以此确定量化阶，并对其电平进行编码作为边信息传送到接收端。 • 后向适应(backward adaptation)：从量化器刚输出的样本中提取量化阶，它不需要传送边信息。

自适应脉冲编码调制 (a) 前向自适应 (b) 后向自适应图 APCM方块图

差分脉冲编码调制(DPCM) • DPCM 是利用样本与样本之间的信息冗余度来进行编码的一种数据压缩技术。 • DPCM根据过去的样本去估算(estimate)下一个样本信号的幅度大小，这个值称为预测值，然后对实际信号值与预测值之差进行量化编码，从而减少了表示每个样本信号的位数。 • DPCM与PCM的不同是，PCM直接对采样信号进行量化编码，而DPCM是对实际信号值与预测值之差进行量化编码（差值）。

差分脉冲编码调制(DPCM) • 差分脉冲编码调制的概念如图所示图差分脉冲编码调制(DPCM)方块图

差分脉冲编码调制(DPCM) • 【例】设DPCM系统预测器的预测值为前一个样值，假设输入信号已经量化，差值不再进行量化。 • 若系统的输入为{0 1 2 1 1 2 3 3 4 4 …} • 则预测值为{0 0 1 2 1 1 2 3 3 4 …} • 差值为{0 1 1 –1 0 1 1 0 1 0 …}，差值的范围比输入样值的范围有所减小，可以用较少的位数进行编码。

自适应差分脉冲编码调制 自适应差分脉冲编码调制（ADPCM）综合了APCM的自适应特性和DPCM系统的差分特性

自适应差分脉冲编码调制 • ADPCM是利用样本与样本之间的高度相关性和量化阶自适应来压缩数据的一种波形编码技术，CCITT为此制定了G.721推荐标准，这个标准叫做32 kb/s ADPCM。在此基础上还制定了G.721的扩充推荐标准G.723，使用该标准的编码器的数据率可降低到40 kb/s和24 kb/s。 • G.721 的输入信号是G.711 PCM代码，它的数据率为64 kb/s。而G.721 ADPCM的输出是用4位表示的差分信号，它的采样率仍然是8 kHz，它的数据率为32 kb/s，这样就获得了2∶1的数据压缩。

子带编码 (SBC) • 子带编码（SBC，Sunband Coding）是一种在频率域中进行数据压缩的方法。 • 首先用一组带通滤波器将输入信号分成若干个在不同频段上的子带信号，然后将这些子带信号经过频率搬移转变成基带信号，再对它们在奈奎斯特速率上分别重新取样。 • 取样后的信号经过量化编码，并合并成一个总的码流传送给接收端。在接收端，首先把码流分成与原来的各子带信号相对应的子带码流，然后解码、将频谱搬移至原来的位置，最后经带通滤波、相加，得到重建的信号。

子带编码 (SBC) 编码器解码器

子带－自适应差分脉冲编码调制

帧间预测编码 • 帧间预测编码是利用视频图像帧间的相关性，即时间相关性，来达到图像压缩的目的，广泛用于普通电视、会议电视、视频电话、高清晰度电视的压缩编码

第三讲

第三讲

Presentation Transcript