2.1 声音及其分类 2.1.1 声音的概念声音是通过空气传播的一种连续的波，由空气振动引起耳膜的振动，由人耳所感知。

第2章声音媒体 • 2.1 声音及其分类 • 2.1.1 声音的概念 • 声音是通过空气传播的一种连续的波，由空气振动引起耳膜的振动，由人耳所感知。

2.1.2 声音的分类 声音被分为无规则的噪音和有规则的音频信号；有规则音频信号是一种连续变化、周期性的模拟信号,可用一条连续的曲线来表示，称为声波。 • 波形文件:包括了所有的声音文件。 • 语音:是波形文件，是一种特殊媒体。 • 音乐:规范的符号化了的声音，这种符号就是乐谱。

2.1.3 声音的三要素 • 模拟声波信号曲线为一系列正弦波的线性叠加 . • 声波信号是由基音和泛音组成。 • 频率最低的音波称为基频或基音 . • 除此之外的音波都称为泛音，其频率是基频的整数倍。

音调：声音的高低叫做音调(pitch)。音调与声音的频率有关。 • 音色：与波形相关，取决于声波的频谱，即由混入基音的泛音所决定的。 • 音强：即声音的响亮程度，与声音信号的幅度成正比。用声音信号幅度取对数后再乘20所得值来描述声强，以分贝（dB）为单位，此时称为音量。

2.2 音频信号 2.2.1 音频音频是指人类听觉所感知范围内的频率，也称声频。 • 次声波(subsonic)：频率低于20Hz的信号。 • 超声波(ultrasonic)：频率高于20KHz的信号。 • 音频(Audio) :频率范围是20Hz～20KHz的声音信号，是人耳能听到的声音信号，次声波和超声波之间的音频为可听声波，即属于多媒体音频信息范畴。

2.2.2 声音质量的度量 • *客观质量度量——即音频信号的技术指标，如：频带宽度、动态范围和信噪比； • *主观质量度量 • *在语音评价过程中，主观的质量评价较客观的质量评价更为恰当。

1.客观评价指标(1)频带宽度 • *声音信号是由许多频率不同的分量信号组成的复合信号。 • *复合信号的频率范围称为频带宽度。 • * 频带越宽，包含的音频信号越丰富，*通常将音质定义为4个等级标准：

(1)频带宽度

1.客观评价指标(2)动态范围 • *声音的动态范围：音频信号的最大强度与最小强度之比。 • *动态范围越大，说明音频信号的相对变化范围大，则音响效果越好。

SNR= 有用信号的平均功率噪声的平均功率 1.客观评价指标(3)信噪比 • *信噪比是有用信号与噪声之比的简称。 • *噪音可分为环境噪音和设备噪音， • *通常信噪比分为系统输入信号的信噪比SNR（in）和系统输出信号的信噪比SNR（out）。 • *信噪比越大，声音质量越好。信噪比的表达式如下：

2.主观度量法

2.3 声音信号数字化2.3.1 声音信号数字化过程 • *数字化过程：模拟数字转换（A/D）转换过程。 • *采样（sampling）：时间上进行离散化处理，即每隔相等的一段时间在声音信号波形曲线上采集一个信号样本。 • *量化 (quantization)：对采样后的声音信号幅值进行离散化处理。如果幅度的划分是等间隔的，就称为线性量化，否则就称为非线性量化。 • *编码：将采样和量化后的数字化声音信息以二进制形式并按照一定的数据格式进行表示。

2.3.2数字化声音的技术指标1.采样频率 • *采样频率是指单位时间内的采样次数。 • *奈奎斯特（Harry Nyquist）采样理论：只要采样频率f(1/T)高于输入信号最高频率的两倍，则经过采样后的采样信号能够包含原模拟信号的全部信息，且经过反变换和低通滤波后可不失真地恢复原模拟信号。 • *电话话音的信号频率约为3.4 kHz，采样频率就选为8 kHz.CD 激光唱盘采样频率为44.1KHz，可记录的最高音频为22.05KHz。 • *采样的三个标准频率分别为：44.1KHz，22.05KHz和11.025KHz。

2.3.2数字化声音的技术指标2.量化精度 • *量化精度是指对模拟音频信号的幅度进行数字化二进制表示的位数，它决定了模拟信号数字化以后的动态范围。 • *一般的量化精度为8位或16位。 • *量化位数越高，信号的动态范围越大，量化精度越高，但所需要的存贮空间也越大。

2.3.2数字化声音的技术指标3.声道数 • 声道数指的是一次同时产生的声波组数。 • （1）单声道 • 缺乏位置感 • （2）立体声 • *声音在录制过程中被分配到两个独立的声道，但所占空间比单声道多一倍。 • *这种技术在音乐欣赏中尤为有用， • *依然是许多产品遵循的技术标准。

2.3.2数字化声音的技术指标3.声道数 • （3）四声道环绕 • 规定了4个发音点：前左、前右，后左、后右，同时建议增加一个低音音箱，以加强对低频信号的回放处理(4.1声道音箱系统广泛流行的原因)。 • （4）5.1声道 • 运用于各类传统影院和家庭影院中，一些知名的声音录制压缩格式，都以5.1声音系统为技术蓝本的。 • 增加了一个中置单元,负责传送低于80Hz的声音信号，在欣赏影片时有利于加强人声，把对话集中在整个声场的中部，增加整体效果。 • （5）7.1声道 • 它在5.1的基础上增加了中左和中右两个发音点。当然由于成本比较高，趋于流行还有待时日。

2.3.2数字化声音的技术指标4.编码算法 • *作用：采用一定的格式记录数字数据；采用一定的算法压缩数字数据减少存贮空间和提高传输效率。 • *压缩算法包括有损压缩和无损压缩；有损压缩指解压后数据不能完全复原，要丢失一部分信息。 • *压缩编码的基本指标之一就是压缩比，音频数据压缩比=压缩后的音频数据/压缩前的音频数据。 • *它通常小于1，压缩比越大，信息丢失越多、信号还原后失真越大。

2.3.2数字化声音的技术指标5.数据率及数据文件格式2.3.2数字化声音的技术指标5.数据率及数据文件格式 • *数据率为每秒位数，它与信息在计算机中的实时传输有直接关系，而其总数据量又与计算机的存储空间有直接关系。 • *用数字音频产生的数据一般以WAVE的文件格式存贮，以“.WAV”作为文件扩展名。是Windows 下通用的数字音频标准，用Windows的媒体播放器可以播放。 • *MP3的应用虽然很看好，但目前还需专门的播放软件，如RealPlayer等。

2.3.3数字化声音的质量和存储量 • * 数据量（Byte）=(采样频率×量化精度×声道 • 数×声音持续时间)/8 • * CD格式1秒： (采样频率×量化位数×声道数×声音持续时间)/8 ＝（44.1k ×16×2×1）/8=0.176MB/s • * 一个小时CD格式的音乐需要635MB的存贮空间，其实CD最长的重放时间为74分钟。 • * 5.1声道每秒钟的数据量为： • (采样频率×量化位数×声道数×声音持续时间)/8 ＝（44.1k ×16×5.1×1）/8 =0.45MB/s， • * 一个小时的多声道格式的音乐需要1.62GB的存储空间，远远大于CD的容量。

常用的采样指标及等效音质 • 数字音频等级

2.4 MIDI接口和音乐合成 • MIDI（Musical Instrument Digital Interface）是电子乐器数字接口的缩写，是数字音乐/电子合成乐器国际标准 . • MIDI是一个协议，它不是把音乐的波形进行数字化采样和编码，而是将数字式电子乐器的弹奏过程记录下来，只包含用于产生特定声音的指令. • 电脑把这些指令交由音频卡去合成相应的声音，根据记录的乐谱指令，通过音乐合成器生成音乐声波，经放大后由扬声器播出。

2.4 MIDI接口和音乐合成 • 最初，同一MIDI文件在不同的设备会出现完全不同的放声效果。 • GM（GENERAL MIDI，通用MIDI）标准得到了Windows操作系统的支持。它规定了前128中常用乐器的音色编排方式，例如1号是钢琴，66号是萨克斯管等等，它实际上是对MIDI规范的补充。 • ROLAND公司——GS(General Synthesizer，通用合成器)标准兼容GM的基础上，提供比GM标准数量更多的打击乐器组合更多的特殊音响。 • Yamaha公司——基于GM标准的XG（Extended General MIDI，扩展的通用MIDI）标准。

2.4 MIDI接口和音乐合成 • MIDI文件的大小要比WAV文件小的多，即一分钟的WAV文件约要占用10MB的硬盘空间，而一分钟的MIDI却只有区区的3.4KB。 • CMF文件是随音频卡一起使用的音乐文件，于MIDI文件非常相似，只是文件头略有差别； • WINDOWS使用的RIFF文件的一种子格式，称为RMID，扩展名为RMI。

2.4.1 MIDI术语 • （1）MIDI文件 • MIDI文件是存放MIDI信息的标准文件格式，MIDI文件中包含音符、定时和多达16个通道的演奏定义。每个通道的演奏音符信息包括：键、通道、号、音长、音量和力度（击键时，键达到最低位置的速度）。 • （2）音乐合成器（Musical Synthesizer） • 首先利用数字信号处理器或其它芯片来产生音乐或声音，然后通过声音产生器和扬声器发出声音。合成器发声的质量和声部取决于合成器能够同时播放的独立波形的个数即泛音的合成。 • （3）复音（Polyphony） • 复音指合成器同时支持的最多音符数。

2.4.1 MIDI术语 • （4）多音色（Timbre） • 同时演奏几种不同乐器时发出的声音，它着重于同时演奏的乐器数。 • （5）MIDI标准 • MIDI电子乐器：能产生特定声音的合成器，其数据传送符合MIDI通信约定。 • MIDI消息 ( message ) 或指令：乐谱的一种记录格式，相当于乐谱语言。 • MIDI接口（interface）：MIDI硬件通信协议。 • MIDI通道 ( channel )：共16个通道，每种通道对应一种逻辑的合成器。 • MIDI文件：由控制数据和乐谱信息数据构成。 • 音序器 ( Sequencer )：用来记录、编辑和播放MIDI文件的软件。

2.4.2用PC机构成的MIDI系统 使用PC机构造MIDI系统：可把MIDI接口和MIDI声音模块组合在PC添加卡上。多媒体个人计算机MPC规范就要求PC添加卡上必须有这样的声音模块，称为合成器(synthesizer)。电脑播放MIDI文件，必须使用合成器。

MIDI合成器的产生方式 • (1)FM合成器(FM synthesis) • 通过已有的电子波形来产生声音的合成器. • 产生各种逼真的乐音是相当困难的，有些乐音几乎不能产生。 • (2)波表合成器(wave table synthesis) • 乐器的声音样本存储在音频卡波形表中，播放时从波形表中取出来。 • 可以产生更逼真的声音。

2.4.3 MIDI文件的特点 • MIDI数据量比声音文件小的多，采用MIDI格式记录比采用WAVE格式记录的数据量小两个数量级以上。 • MIDI配音方便，例如当多媒体系统中播放波形声音文件时(如图片的一段解说词)，此时若还需配上某种音乐作为解说的效果时，不可能同时调用两个波形声音文件，而播放MIDI文件记录下来的音乐就很方便了。

2.4.3 MIDI文件的特点 • 编辑灵活。在音序器的帮助下，用户可以随意修改曲子的速度、音调、音色等属性，也可以改换乐器的种类，从而产生合适的音乐。 • 表现能力弱。不能与真正的乐器完全相似。不能模拟出自然界中其它非乐曲类声音。音质有待提高。

2.5 音频文件格式2.5.1声音文件格式 • (1)波形文件 • *扩展名为WAV，Windows本身存放数字声音的标准格式 • *通用性的数字声音文件格式. • *未经压缩处理的音频数据，直接记录声音的波形. • *但文件体积都很大（1分钟的CD音质需要10M字节），不适于在网络上传播。 • *WAV格式使用媒体播放机可以直接播放。

2.5.1声音文件格式 • (2)MPEG-3 • *扩展名为MP3，最流行的声音文件格式， • *压缩率大，高达10:1～12:1，一分钟CD音质的音乐，未经压缩需要10MB存储空间，而经过MP3压缩编码后只有1MB左右， • *音质基本保持不失真， • *在网络可视电话通信方面应用广泛， • *但和CD唱片相比，音质不能令人非常满意。

2.5.1声音文件格式 • (3)CD Audio音乐CD • *扩展名CDA，是唱片采用的格式， • *又叫“红皮书”格式， • *记录的是波形流，绝对的纯正、HIFI。 • *无法编辑，文件长度太大。 • (4)Creative Musical Format • 扩展名CMF，是Creative公司的专用音乐格式，和MIDI差不多，只是音色、效果上有些特色，专用于FM音频卡，但其兼容性也很差。

2.5.1声音文件格式 • (5)VOC文件 • *Creative公司波形音频文件格式，也是声霸卡（sound blaster）使用的音频文件格式。 • (6)Real Audio • *扩展名RA、RAM，这两种格式是Real公司开发的主要适用于网络上实时数字音频流技术的文件格式。 • *由于它的面向目标是实时的网上传播，所以在高保真方面是远远不如MP3，但在只需要低保真的网络传播方面却无人能及。 • *要播放RA、RAM，需要使用Real Player。

2.5.2 MIDI文件格式 • (1)MIDI • *扩展名MID，产业标准，其科学性、兼容性、复杂程度 • *短小，一个六分多钟、有16个乐器的文件也只是80多KB； • *缺点是播放效果因软、硬件而异。使用媒体播放机，好的播放效果，电脑必须支持波表功能。 • (2)RMI文件 • Microsoft公司的MIDI文件格式，包括图片标记和文本。

2.6 音频卡及其应用2.6.1 音频卡功能 (1)音频信号的录制与播放 • 完成音频信号的A／D和D／A变换，将音频信号通过音频卡录入计算机，并以文件的形式进行保存。在需要播放时，只需调出相应的声音文件进行播放，就像普通录放机一样。从而使计算机既有图像显示，又有声音输出。 • 音频卡还可以与CD-ROM驱动器相连，实现对CD唱片、VCD、MP3音乐的播放。

2.6 音频卡及其应用2.6.1 音频卡功能 • 音频信号编辑与合成——数字音频编辑器，它可以对声音文件进行多种特殊效果处理，对音乐爱好者都是非常有用的。 • MIDI接口和音乐合成——乐器数字接口的标准，它规定了电子乐器与计算机之间相互数据通信的协议。通过软件，计算机可以直接对外部电子乐器进行控制和操作。

2.6.2 音频卡工作原理

2.6.3 音频卡安装和使用

2.6.4 音频软件的使用 • Windows本身自带的录音机:使用它可录音，只能录制1分钟的声音文件. • 音频卡自带的工具:如果你的计算机安装有声音卡，一般来说都附带有音频软件。 • 网络上下载的工具:如Cool Edit工具，就可以在网上下载免费试用版。类似的工具还有goldwave公司的声音工具，Cakewalk，Cubase等。

2.7 语音输入输出技术 • 2.7.1 语音识别语音识别以语音为研究对象，是语音信号处理的一个重要研究方向，是模式识别的一个分支，其目的就是要让机器具有人的听觉功能，在人机语音通讯中“听懂”人类口述的语言。

语音识别的识别内容可分为 : • 狭义的语音识别（Speech Recognition）:排除不同人的发音差异（如发声频率。说话习惯，口音等），力求提取代表语意的共性特征，“理解”发音人所说的话。 • 说话人语音识别（Speaker Recognition） :又称为话者识别，是寻求不同说话人的个性特征，以辨认出说话人的身份。

语音识别的两大阶段: • 训练阶段：在机器中建立被识别语音的标准样板或模型库，或者对已存在机器中的样板或模型做特定发音人的适应性修改。 • 识别阶段：将被识别的特征参量提取出来进行模式匹配，相似度最大者即为被识别语音。

语音识别的两大阶段:

2.7.2 语音合成 1.语音合成的基本概念语音合成包含两种可能实现的途径。一种是所谓的录音／重放模式，使机器再生一个预先存入的语音信号，就像普通的录音机一样，不同之处是采用了数字存储技术。另一种可能是采用数字信号处理的方法，将人类发声过程看作是一个模拟声门状态的源，去激励一个表征声道谐振特性的时变数字滤波器，这个源可能是周期脉冲序列，它代表浊音情况下的声带振动，或者是随机噪声序列，代表不出声的清音。

语音数据的存储 • 语音数据的存储形式可分为两大类：波形存储和参数存储，取决于合成算法。为减少数据量，一般要对语音数据进行压缩。 • 波形存储方式:存储数字化的语音波形数据。常用的编码方式有PCM，ADPCM等。波形存储方式的主要优点是编码和解码算法简单，易于实时实现，缺点是数据量大。 • 参数存储方式:存储从语音信号中提取的参数，常用的有LPC参数，ISP(1SF)，共振峰参数等。参数存储方式的主要优点是数据量小，易于实现韵律修改，但有限的参数很难表述自然语音的细微变化。

文语转换技术 • 文语转换过程先将文字序列转换成音韵序列，再由语音合成器生成语音波形。 • 第一步涉及语言学处理，例如分词、字音转换等，以及一整套有效的韵律控制规则； • 第二步需要先进的语音合成技术，能按要求实时合成出高质量的语音流。 • 文语合成系统需要一套复杂的文字序列到音素序列的转换程序，也就是说，文语转换系统不仅要应用数字信号处理技术，而且必须有大量的语言学知识的支持。 • 语音合成是最基本的部分，任何语言合成系统都包括文语转换系统，都离不开语音合成器。

语音合成系统的组成部分 • 文本分析:使计算机从文本中认识文字,知道要发什么音、怎么发音。还要让计算机知道，在文本中，哪些是词，哪些是短语或句子，发音时应该到哪里停顿及停顿多长时间等。 • 韵律生成 :早期均采用基于规则的方法。要求系统设计人员花费大量的时间和精力去研究不同语种普遍存在的韵律特征，生成语音的自然度受到较多的限制。只追求发音的自然，掩盖了人的个性。 • 语音合成 :从参数合成到拼接合成，再到两者的逐步结合。

习题 • 1在多媒体中，声音媒体主要分为几类？ • 2说明声音媒体所具有的四要素？ • 3请阐述模拟声音信号数字化的基本构成？ • 4请阐述影响数字化声音信号声音质量的几个主要因素？ • 5请列举一些常见的声音文件格式，并简单说明比较？ • 6请阐述音频卡应具有的基本功能？ • 7简述语音识别的工作原理？

2.1 声音及其分类 2.1.1 声音的概念 声音是通过空气传播的一种连续的波，由空气振动引起耳膜的振动，由人耳所感知。