第 4 章：音频信息及其处理

第4章：音频信息及其处理 卢燕飞 yflu@bjtu.edu.cn 《多媒体通信》

概述 • 1.声音媒体的重要性 • 声音是人们用来传递信息最方便、最熟悉的方式； • 现代通信首先就是从语音的传输开始； • 声音是多媒体计算机技术的一个标志 • 早期的PC是聪明的哑巴, 后来利用PC的扬声器能够发出一点音效。 • 目前计算机具有强大的语音处理功能，包括： • 语音的数字化、压缩和还原； • 语音的合成和识别；《多媒体通信》

2.数字音频处理涉及的内容包括： • 音频传播媒体特征,也即声波的物理特性。 • 音频的记录和产生方式，包括模/数、数/模转换,数据压缩和声音合成。 • 音频数据的编辑处理。 • 3.对音频信号的处理方法大致可分为两类： • 数字音频方式； • 分析－合成的方式。《多媒体通信》

第1节：音频信号 • 1、音频信号的特征 • （1）声音的基本定义： • 声音是由于空气振动引起耳膜的振动，由人耳所感知。 • 根据声波的特征，可把音频信息分类为规则音频和不规则声音。 • 规则音频又可以分为语音、音乐和音效。 • 规则音频是一种连续变化的模拟信号,可用一条连续的曲线来表示，称为声波。《多媒体通信》

（2）声音的三个要素是音调、音强和音色 • 声音可以用一个简单的数学模型来表示： • An ：表示信号模型的幅度，与音强关联； • ωn：表示信号模型的频率，与音调关联； • ψn：表示信号模型的相位，与音色关联；《多媒体通信》

声音的几个特性 • 音频与音调： • 频率是指信号每秒钟变化的次数; • 人对声音频率的感觉表现为音调的高低，在音乐中称为音高。人类发出的声音频率大约是从80HZ~3.4KHZ; • 音调正是由频率ω所决定的; • 音乐中音阶的划分是在频率的对数坐标（20×log）上取等分而得的：《多媒体通信》

音阶与频率 《多媒体通信》

幅度与音强 • 人耳对于声音细节的分辨只有在强度适中时才最灵敏。人的听觉响应与强度成对数关系。一般的人只能察觉出3 分贝的音强变化，再细分则没有太多意义。 • 我们常用音量来描述音强，以分贝（dB=20log）为单位。在处理音频信号时，绝对强度可以放大，但其相对强度更有意义，一般用动态范围定义： • 动态范围＝20×log（信号的最大强度 / 信号的最小强度）（dB）《多媒体通信》

音宽与频带 • 频带宽度或称为带宽，它是描述组成复合信号的频率范围《多媒体通信》

2、音频信号的指标 • 频带宽度： • 音频信号的频带越宽，所包含的音频信号分量越丰富，音质越好。 • 动态范围: • 动态范围越大，信号强度的相对变化范围越大，音响效果越好。 • 信噪比： • 信噪比SNR（Signal to Noise Ratio）是有用信号与噪声之比的简称。噪音可分为环境噪音和设备噪音。信噪比越大，声音质量越好。《多媒体通信》

主要声音应用的频率范围 《多媒体通信》

人类对于声音的认知范围 《多媒体通信》

第2节：数字音频 • 1、声音信号与模拟的电信号之间的转换 • 是人类对声音进行各种处理的基础 • 是人类实现电话通信的基石； • 是声音进一步数字化进行计算机处理的首要环节； • 通过麦克风（MIC）使声音信号变成电信号； • 通过扬声器使电信号还原成声音信号；《多媒体通信》

2、数字音频原理 • 由于音频信号是一种连续变化的模拟信号，而计算机只能处理和记录二进制的数字信号，因此，由自然音源而得的音频信号必须经过一定的变化和处理，变成二进制数据后才能送到计算机进行再编辑和存贮。计算机处理 A/D D/A 声音电信号声音电信号《多媒体通信》

声音信号数字化 • 声音进入计算机的第一步就是数字化，数字化实际上就是采样和量化。 • 连续时间的离散化通过采样来实现，就是每隔相等的一小段时间采样一次，这种采样称为均匀采样(uniform sampling)； • 连续幅度的离散化通过量化(quantization)来实现，就是把信号的强度划分成一小段一小段，如果幅度的划分是等间隔的，就称为均匀量化，否则就称为非均匀量化。《多媒体通信》

数字化的概念 《多媒体通信》

（1）PCM编码原理 • 模拟信号转换成数字信号的过程称为模/数转换（A/D） • 采样：在时间轴上对信号数字化； • 量化：在幅度轴上对信号数字化； • 编码：按一定格式记录采样和量化后的数字数据。 • 脉冲编码调制PCM（Pulse Code Modulation）是一种模数转换的最基本编码方法。《多媒体通信》

PCM编码过程 • 编码的过程 • 首先用一组脉冲采样时钟信号与输入的模拟音频信号相乘，相乘的结果即输入信号在时间轴上的数字化； • 然后对采样以后的信号幅值进行量化。最简单的量化方法是均衡量化，这个量化的过程由量化器来完成(一般我们会采用非均匀量化方式)； • 对经量化器A/D变换后的信号再进行编码，即把量化的信号电平转换成二进制码组，就得到了离散的二进制输出数据序列x ( n )，n表示量化的时间序列，x ( n )的值就是n时刻量化后的幅值，以二进制的形式表示和记录。《多媒体通信》

PCM编码示意图 《多媒体通信》

3、数字音频的技术指标 • （1）采样频率 • 采样频率是指一秒钟内采样的次数。 • 采样频率的选择应该遵循奈奎斯特（Harry Nyquist）采样理论： • 根据该采样理论，CD 激光唱盘采样频率为44KHz，可记录的最高音频为22KHz，这样的音质与原始声音相差无几，也就是我们常说的超级高保真音质。一般的电话系统的采样频率是8KHZ；《多媒体通信》

（2）量化位数(采样精度)： • 量化位是对模拟音频信号的幅度轴进行数字化，它决定了模拟信号数字化以后的动态范围。由于计算机按字节运算，一般的量化位数为8位和16位。量化位越高，信号的动态范围越大，数字化后的音频信号就越可能接近原始信号，但所需要的存贮空间也越大。 —量化有均匀量化和非均匀量化之分；《多媒体通信》

采样精度的另一种表示方法是信号量化噪声比，简称为量化信噪比(signal-to-noise ratio，SNR)，并用下式计算： • SNR＝ 20 log (Vsignal/ Vnoise) • 其中：Vsignal表示信号电压，Vnoise表示噪声电压；SNR的单位为分贝(db) • 例1：假设Vnoise＝1，采样精度为1位表示Vsignal＝21，它的信噪比SNR＝6分贝。 • 例2：假设Vnoise＝1，采样精度为16位表示Vsignal＝216，它的信噪比SNR＝96分《多媒体通信》

声音的分贝数 《多媒体通信》

（3）声道数： • 有单声道和双声道之分。双声道又称为立体声，在硬件中要占两条线路，音质、音色好，但立体声数字化后所占空间比单声道多一倍。 • （4）数据通信速率：每秒钟数字音频信号产生的数据量《多媒体通信》

第3节：音频编码算法 • 1、编码的作用 • 采用一定的算法来压缩数字数据以减少存贮空间和提高传输效率。 • CD-DA音乐光盘上的数据没有压缩每秒的数据量是1411kbit/s • (44.1k*16*2)*(60*60)/8=635M • mp3音频数据每秒的数据量是128kbit/s • 128kbit/s*60*60/8=57.6M • 目的：在保证声音质量的前提下，减少数字音频信息的数据量； • 压缩算法包括有损压缩和无损压缩；《多媒体通信》

数字音频处理的基本过程 • 量化：均匀、非均匀、自适应、矢量量化； • 编码：波形编译码、音源编译码、混合编译码《多媒体通信》

2、音频信号压缩方法分类 • (1)波形编译码器 • 波形编译码的想法是，产生一种重构信号（不利用音频信号本身的任何知识），它的波形与原始话音波形尽可能地一致。 • 本质上，就是通过采样、量化的方法，以数字编码的方式来表现模拟的语音信号； • 一般来说，这种编译码器的复杂程度比较低，数据速率在16 kb/s以上，质量相当高。低于这个数据速率时，音质急剧下降。 • 最简单的波形编码是脉冲编码调制(PCM)，它仅仅是对输入信号进行采样和量化。《多媒体通信》

PCM编码的基本过程 《多媒体通信》

预测技术 • 预测技术在话音编码中普遍使用，这种技术是企图从过去的样本来预测下一个样本的值。 • 差分脉冲编码调制(differential pulse code modulation，DPCM)：利用话音样本之间存在相关性，对预测的样本值与原始的样本值之差进行编码。 • 自适应差分脉冲编码调制(adaptive differential PCM，ADPCM)：DPCM编译码器对幅度急剧变化的输入信号会产生比较大的噪声，改进的方法之一就是使用自适应的预测器和量化器；《多媒体通信》

子带编码(sub-band coding，SBC) • 实现方法： • 输入的话音信号被分成好几个频带(即子带)； • 变换到每个子带中的话音信号都进行独立编码，例如使用ADPCM编码器编码； • 在接收端，每个子带中的信号单独解码之后重新组合，然后产生重构话音信号。《多媒体通信》

子带编码的的优点 • 对于不同的子带可以使用不同的编码策略 • 对听觉感知比较重要的子带信号，编码器可分配比较多的位数来表示它们，于是在这些频率范围里量化噪声就比较低。 • 对于其他的子带，由于对听觉感知的重要性比较低，允许比较高的量化噪声，于是编码器就可以分配比较少的位数来表示这些信号。 • 自适应位分配的方案也可以考虑用来进一步提高音质。 • 子带编码的其他特点: • 需要用滤波器把信号分成若干个子带，比使用简单的ADPCM编译码器复杂； • 增加了更多的编码时延。 • 与大多数混合编译码器相比，子带编译码的复杂性和时延相对来说还是比较低的。《多媒体通信》

(2)音源编译码器 • 音源编译码的想法是从话音波形信号中提取生成话音的参数，使用这些参数通过话音生成模型重构出话音。针对话音的音源编译码器叫做声码器(vocoder); 《多媒体通信》

声码器的基本原理 《多媒体通信》

音源编译码器的特点 • 在话音生成模型中，声道被等效成一个随时间变化的滤波器，叫做时变滤波器(time-varying filter)，它由白噪声(无声话音段)激励，或者由脉冲串(有声话音)段激励。 • 编码的结果就是滤波器的规格、发声或者不发声的标志和有声话音的音节周期，并且每隔10～20 ms更新一次; • 声码器的模型参数既可使用时域的方法也可以使用频域的方法确定；《多媒体通信》

声码器的特点： • 声码器的数据率在2.4 kb/s左右，产生的语音虽然可以听懂，但其质量远远低于自然话音。 • 增加数据率对提高合成话音的质量无济于事，这是因为受到话音生成模型的限制。 • 尽管它的音质比较低，但它的保密性能好，因此这种编译码器一直用在军事上。 • 对于调制解调信号、传真信号等，采用此方法，效果很差；《多媒体通信》

(3)混合编译码 • 混合编译码的想法是企图填补波形编译码和音源编译码之间的间隔。 • 波形编译码器虽然可提供高话音的质量，但数据率低于16 kb/s的情况下，在技术上还没有解决音质的问题； • 声码器的数据率虽然可降到2.4 kb/s甚至更低，但它的音质根本不能与自然话音相提并论。 • 历史上出现过很多形式的混合编译码器，但最成功并且普遍使用的编译码器是时域合成-分析(analysis-by-synthesis，AbS)编译码器。《多媒体通信》

AbS编译码器的一般结构如图（编码器） 《多媒体通信》

译码器 《多媒体通信》

AbS编译码器的工作过程 • AbS编译码器把输入话音信号分成许多帧(frames)，一般来说，每帧的长度为20 ms。 • 合成滤波器的参数按帧计算，然后确定滤波器的激励参数。从前图a)可以看到，AbS编码器是一个负反馈系统，通过调节激励信号可使话音输入信号与重构的话音信号之差为最小，也就是重构的话音与实际的话音最接近。这就是说，编码器通过“合成”许多不同的近似值来“分析”输入话音信号，这也是“合成-分析编码器”名称的来由。 • 在表示每帧的合成滤波器的参数和激励信号确定之后，编码器就把它们存储起来或者传送到译码器。在译码器端，激励信号馈送给合成滤波器，合成滤波器产生重构的话音信号，如前图所示。《多媒体通信》

混合编码方式目前在，通道受限的系统中应用广泛；混合编码方式目前在，通道受限的系统中应用广泛； • GSM手机应用的“规则脉冲激励编解码器”RPE； • IP电话应用的码激励线性预测编解码器CELP； • 评价混合编码器的一个重要因素： • 延时《多媒体通信》

三种话音编译码器比较 • 话音编译码器分成以下三种类型： • 波形编译码器(waveform codecs)； • 音源编译码器(source codecs)； • 混合编译码器(hybrid codecs)。 • 一般来说，波形编译码器的话音质量高，但数据率也很高；音源编译码器的数据率很低，产生的合成话音的音质有待提高；混合编译码器使用音源编译码技术和波形编译码技术，数据率和音质介于它们之间。《多媒体通信》

下图表示了目前这三种编译码器的话音质量和数据率的关系下图表示了目前这三种编译码器的话音质量和数据率的关系《多媒体通信》

3、主要的音频压缩算法 《多媒体通信》

其它音频编码标准 • G.721 ，1990年被 G.726取代： • 编码速率：16, 24, 32, and 40 Kbps • 编码方法：ADPCM • G.722：􀂄 • 应用：宽带电话 0~8KHz ，优于G.726 • 技术： Subband + ADPCM • 0~4 KHz and 4~8KHz subbands • 低频子带： 48 Kbps • 高频子带： 16 Kbps • 总比特率 : 64 Kbps 《多媒体通信》

其它音频编码标准（续） • G.728：􀂄性能优于： G.721 • 16 Kbps format only • 采用LD-CELP (Low-Delay CELP) 代替ADPCM ； • 使用索引来表示激励码，可以使传输错误最小化； • G.729：􀂄 第一个实现 8 Kbps编码速率的音频CODEC • 质量不逊 G.726 (32 Kbps) • 延时：小于 16 ms • 具有噪声适应性； • CS-ACELP • Conjugate Structure-Algebraic CELP • 特殊的码表结构有助于快速查询； • 后续的版本有 G.729A 和 G.729B 《多媒体通信》

MP3各种应用的性能指标 《多媒体通信》

主要音频压缩标准的质量等级 MOS： Mean Opinion Score：5 (Excellent) ~ 1 (bad) 《多媒体通信》

第4节：PC机上数字音频知识 硬件：音频卡软件：音频编解码器《多媒体通信》

1、WINDOWS环境数字音频技术的应用过程 各种应用程序媒体控制接口（MCI）音频编解码器各种声音设备驱动声卡《多媒体通信》

2、数字音频的文件格式 • 在计算机上数字音频产生的数据一般以一定的文件格式存贮 • .wav格式主要用在PC上； • WAVE格式是一种Windows 下通用的数字音频标准，用Windows的媒体播放器可以播放。 • 在WINDOWS系统下还有一些数字音频音频文件格式：vox； rm；ra等 • MP3格式目前得到了广泛的应用； • .au主要用在Unix工作站上； • .aiff和snd主要用在苹果机和SGI的工作站上；《多媒体通信》

第 4 章：音频信息及其处理

第 4 章：音频信息及其处理

Presentation Transcript