音频素材制作与处理

音频素材制作与处理 第五章

声音 • 声音是人类表达思想和情感的重要媒介，是用于传送信息的媒体。不同类型的声音会给人带来不同的感受，优美的乐音令人心情舒畅，繁杂的噪音使人疲劳紧张。 • 在多媒体技术领域，声音主要表现为语音、自然声和音乐。 • 本章介绍音频信号的特点、模拟音频与数字音频的基本概念、语音合成技术与识别技术、音频处理软件Adobe Audition基本功能介绍以及利用本软件实现相应音频素材制作技术等理论知识与应用方法。

模拟音频 • 声音是由物体振动产生的。 • 正在发声的物体称为声源。 • 声音的产生：声源振动，通过空气等介质，把这种振动以机械波的形式传向远方，这就是声波。声波传入人的耳朵，促使耳膜产生振动，这种耳膜的振动被传导到人的听觉神经，就产生了对“声音”的感觉。

声音是振动的波，是随时间连续变化的物理量，是连续的模拟信号，即模拟音频信号。声波与普通波形一样，可以用以下三个物理量来描述：振幅、周期、频率。声音是振动的波，是随时间连续变化的物理量，是连续的模拟信号，即模拟音频信号。声波与普通波形一样，可以用以下三个物理量来描述：振幅、周期、频率。（1）振幅是声音波形振动的幅度，表示声音的强弱。（2）周期是声音波形完成一次全振动经过的时间，也是两个连续波峰之间的时间长度。（3）频率是声音波形在一秒钟内完成全振动的次数，表示声音的音调。

声音具有三个要素：音调、音色和音强。 （1) 音调代表声音的高低。频率越高，音调越高。（2）音色是声音的特色。声音分纯音和复音两种类型。纯音的振幅和周期均为常数；复音是具有不同频率和不同振幅的混合声音，是影响声音特色的主要因素。自然界的大部分声音是复音。（3) 音强是声音的强度，常说的“音量”就是指音强。音强与声波的振幅成正比，振幅越大，强度越大。声音录制完毕后音强即随之确定，通过播放设备的音量控制，可改变聆听时的强度。

声音频率是指声音信号每秒钟变化的次数。 • 频率小于20Hz的信号称为亚音信号，或次音信号； • 频率范围为20-20000Hz的信号称为音频信号。 • 高于20000 Hz的信号称为超音频信号。 • 在多媒体技术中，处理的信号主要是音频信号，它包括音乐、语音及自然界的各种声响。

模拟音频信号通常是被转换为电信号来进行处理的。大多数电信号的处理方法一直是采用模拟元部件（如晶体管、变压器、电阻、电容等）对模拟音频信号进行处理。模拟音频信号通常是被转换为电信号来进行处理的。大多数电信号的处理方法一直是采用模拟元部件（如晶体管、变压器、电阻、电容等）对模拟音频信号进行处理。

模拟音频的特点 • 1、模拟音频信号的频率范围 • 模拟音频信号由许多频率不同的信号组成，每个信号都有各自的频率范围，这个组合信号被称为复合信号。频率范围也叫“频域”或“频带”，不同种类的声源频带是不同的。人耳听到的声音频带范围是有限的，频率低于20Hz和高于20000Hz的声音信号人类听不到，即表示人耳的可听域在 20-20000Hz之间。

不同声源的频带宽度

模拟音频的连续性 • 模拟音频是在时间上和幅值上都连续变化的信号，构成声音数据前后之间具有强烈的相关性。连续波形上的任何一点都代表了特定的声音信息。因此，模拟录音过程需要将连续变化的声音波形转换为连续变化的电信号，再作用于磁性存储设备的磁头，产生连续的强度不同的磁场，磁化磁带上的磁性材料。

模拟音频的声音质量 • 模拟音频的声音质量简称“音质”，与音色和频率范围有关。悦耳的音色、宽广的频率范围，能够获得更好的音质。 • 影响音质的因素主要与声音还原设备有关。其次，噪声也是影响音质的重要因素，在录制声音时，音频信号幅度与噪声幅度的比值越大越好。 • 模拟信号的一个重要的缺点就是噪声容限较低，抗干扰能力差，在录音过程中，噪声的影响是限制模拟音频信号质量的重要原因。

数字音频 • 数字音频是以二进制的方式记录的音频，是模拟音频的数字化表达。相对于模拟音频，数字音频可以表现出更好的音质效果。 • 数字音频技术是指利用数字技术处理声音的方法。 • 数字音频可以以声音文件WAV格式或者MIDI格式在磁盘中保存。通常，通过计算机的声卡（也称音频卡）将模拟音频进行模拟/数字转换，将模拟信号进行采样和量化处理，就可以得到数字音频信号了。

数字音频信号特点 • 数字音频信号可以通过计算机进行加工和处理，如进行编辑、合成、静音、增加混响、调整频率等，使得声音效果能更有力的烘托主题的气氛，因此对于多媒体展示系统、多媒体广告、视频特技等领域，数字音频信号显得更加重要。

数字音频信号特点 • 在声音存储方面，传统的模拟音频信号记录在磁带或者唱片等模拟介质中。模拟介质的缺点是难以保存。并且存储效率很低，成本很高。数字音频信号可以文件的形式存储在光存储介质或磁存储介质中，实现永久保存。 • 在声音处理方面，模拟音频信号的修正工作非常复杂。数字音频技术在后期的音频处理过程中，可以非常容易的进行多种修正以及加工，例如改变音高、纠正语音错误、变换节奏，甚至可以增加大量的声音效果。极大程度的简化了音频编辑工作的难度。

数字音频信号特点 • 在声音的压缩方面，模拟音频的压缩率很难提高。而数字音频技术在数据的压缩方面具有绝对优势。例如目前最流行的MP3音频格式，压缩率达到了7％左右，同时还能保持良好的音质。

模拟音频信号转换为数字音频信号 • 将模拟音频信号转换为数字音频信号的过程就是对于模拟音频信号的数字化过程。模拟音频信号的数字化过程需要三个步骤：采样、量化和编码。

采样 • 采样就是每隔一定的时间间隔，抽取模拟音频信号的一个瞬时幅度值也称作采样值，采样后所得出的一系列在时间上离散的采样值称为样值序列。采样后的样值序列在时间上是离散的。

量化 • 采样只是在时间上实现了离散化。其音频脉冲信号的幅度仍然是模拟的，因此，还必须对幅度进行离散化处理，这个过程称为量化。 • 量化的过程如下：先将整个幅度划分成为有限个小幅度(量化阶距)的集合，把落入同一阶距内的幅度值归为一类，并赋予相同的量化值。

编码 • 采样和量化之后的音频信号还必需转换为数字编码脉冲才是数字信号，这一转换过程称为编码。最简单的编码方式是二进制编码。就是用n比特二进制码来表示已经量化了的采样值，每个二进制数对应一个量化值，然后把它们排列，得到由二值脉冲组成的数字信息流。

数字音频文件的类型 • WAV格式：微软公司开发，用于windows平台，是最早的数字音频格式。 • MIDI格式：MIDI格式是Musical Instrument Digital Interface的缩写，又称作乐器数字接口，是数字音乐/电子合成乐器的统一国际标准。在MIDI文件中存储的是一些指令，把这些指令发送给声卡，由声卡按照指令将声音合成出来。 • CDA格式：CDA格式是CD音乐格式，取样频率为44.1kHz，16位量化位数，CDA格式存储采用了音轨的形式，记录的是波形流，是一种近似无损的格式。 • MP3格式：MP3格式是MPEG-1 Audio Layer 3。MP3能够以高音质、低采样率对数字音频文件进行压缩。

数字音频文件的类型 • MP3Pro格式：MP3Pro格式可以在基本不改变文件大小的情况下改善MP3的音质。 • WMA格式：WMA格式是Windows Media Audio的缩写，是微软公司开发的网络音频格式。其压缩率一般可以达到1:18。 • MP4格式：MP4格式采用“知觉编码”为关键技术的压缩技术。只有特定的用户才可以播放。MP4的压缩比可达到1:15，体积较MP3更小，但音质却没有下降。 • QuickTime格式：QuickTime格式是苹果公司推出的一种数字流媒体，它面向视频编辑、Web网站创建和媒体技术平台，QuickTime支持几乎所有主流的个人计算平台。

数字音频文件的类型 • DVD Audio格式：DVD Audio格式是新一代的数字音频格式，是音乐格式的DVD光碟，可容纳74分钟以上的录音。 • MD格式：MD格式是MiniDisc缩写，是Sony公司的一种音频文件格式。采用了ATRAC算法，可以在一张尺寸较小的光盘中存储60－80分钟采用44.1khz采样的立体声音乐。 • RealAudio格式：RealAudio格式是由Real Networks公司推出的一种文件格式，可以实时传输音频信息，尤其是在网速较慢的情况下，仍然可以较为流畅地传送数据。现在的RealAudio文件格式主要有RA、RM、RMX三种，这些文件的共同性在于随着网络带宽的不同而改变声音的质量，在保证大多数人听到流畅声音的前提下，令带宽较宽的听众获得更好的音质。

数字音频文件的类型 • VOC格式：VOC格式常用在DOS程序和游戏中，它是随声卡一起产生的数字声音文件，与WAV文件的结构相似。 • AU 格式：AU格式是应用于互联网上的多媒体声音。AU文件是UNIX操作系统下的数字声音文件。 • MAC格式：MAC格式是Apple公司开发的，被Macintosh平台和多种Macintosh应用程序所支持。 • AAC格式：AAC格式是高级音频编码的缩写。AAC是MPEG-2规范的一部分。AAC的音频算法在压缩能力上远远超过了以前的一些压缩算法（比如MP3等）。AAC可以在比MP3文件缩小30%的前提下提供更好的音质。

数字音频的质量与数据量 • 音频数字化就是将模拟声音波形数字化，以便利用数字计算机进行处理。影响数字音频信号质量的技术指标主要包括采样频率、采样精度、声道数和编码算法。

采样频率 • 采样频率是对声音波形每秒钟进采样的次数。奈奎斯特理论指出：采样频率不应低于声音信号最高频率的两倍，这样就能把以数字表达的声音还原为原来的声音，这叫做无损数字化。如果一个信号中的最高频率为f，采样频率最低要选择2f。例如：电话话音的信号频率约为3.4kHz，采样频率就选为8kHz。人的听觉的频率上限在20kHz左右。为了使声音不发生失真，采样频率一般在40kHz左右。如44.lkHz。采样频率越高，声音失真越小、音频数据量越大。

采样精度 • 采样精度是每次采样的数据位数。数位是每个采样点的振幅动态响应数据范围，经常采用的有8位、12位和16位。采样量化位数越高音质越好，数据量也越大。

声道数 • 声道数表示一次采样的声音波形数。如果每次生成一个声波数据，称为单声道；每次生成二个声波数据，称为立体声(双声道) 。若每次生成多个声道，则音频数据量会更大。

声音数字化的采样频率和采样精度越高，结果越接近原始声音，但记录数字声音所需存储空间也随之增加。未经压缩的音频文件所需的存储空间的计算公式如下：声音数字化的采样频率和采样精度越高，结果越接近原始声音，但记录数字声音所需存储空间也随之增加。未经压缩的音频文件所需的存储空间的计算公式如下： • 存储容量(字节)= (采样频率*采样精度)/8×声道数×时间 • 例如，数字激光唱盘CD－DA的标准采样频率为44.lkHz，采样数位为16位，立体声。则激光唱盘一分钟音乐需要的存储量为: 44.1*1000*l6*2*60/8 = 10.584 MB

编码算法 • 编码的作用体现在两个方面，一是采用一定的格式来记录数字数据，二是采用一定的算法来压缩数字数据以减少存贮空间和提高传输效率。 • 压缩比是压缩编码的基本指标，表示音频压缩的程度，是压缩后的音频数据量与压缩前的音频数据量的比值。压缩程度越大，信息丢失越多、信号还原后失真越大。根据不同的应用，应该选用不同的压缩编码算法。

语音合成技术 • 语音合成是指利用计算机合成语音的一种技术，使计算机能够产生高清晰度、高自然度的连续语音，具有类似于人一样的说话的能力。 • 语音合成技术可以通过将预先录制并存储的语音信号重新播放来实现，或者采用数字信号处理的方法，生成各种音调的语音。 • 语音合成可分为三个层次，分别是“文字到语音”的合成（Text-To-Speech）；“概念到语音”的合成（Concept-To-Speech）；“意向到语音”的合成（Intention-To-Speech）。要合成出高质量的语言，不仅要对语言进行理解，还必须遵循人类语言的一些表达规则，如语义学规则、词汇规则、语音学规则。

常用的语音合成方法 • 参数合成法是通过调整合成器参数实现语音合成。 • 基音同步叠加法是对时域波形拼接实现语音合成，在音色和自然度方面相比参数合成法有很大程度提高。 • 基于数据库的语音合成方法是采用预先录制各种可能语境下的语音单元并保存在数据库中，建立一个庞大的语音数据库。再从数据库中选择并拼接出各种语音内容。由于声音来源于自然音，因此清晰度和自然度都非常高。

语音合成的技术方式 • 波形编辑合成。以语句、短语、词或音节为合成单元，经数据压缩，组成一个合成语音库。重放时，根据待输出的信息，在语料库中取出相应单元的波形数据，串接或编辑在一起，经解码还原出语音。这种合成方式，也叫录音编辑合成，合成单元越大，合成的自然度越好，系统结构简单，价格低廉，但合成语音的数码率较大，存储量也大，因而合成词汇量有限。

语音合成的技术方式 • 参数分析合成。以音节、半音节或音素为合成单元。首先对所有合成单元的语音进行分析，提取语音参数，经编码后组成一个合成语音库；输出时，根据待合成的语音的信息，从语音库中取出相应的合成参数，经编辑和连接，顺序送入语音合成器。在合成器中，通过合成参数的控制，将语音波形重新还原出来。

语音合成的技术方式 • 规则合成。通过语音学规则来产生目标语音。规则合成系统存储的是较小的语音单位。当输入字母符号时，合成系统利用规则自动地将它们转换成连续的语音波形。

文语转换系统 • 文语转换系统是将文字内容转换为语音输出的语音合成系统。文本分析器根据发音字典，将输入的文本字符串分解为带有属性标记的词和读音符号，再根据语义规则和语音规则，为每一个词、每一个音节确定重音等级和语句结构及语调，以及各种停顿等。这样文字串就转变为符号代码串。采用前面介绍的合成技术的一种或者是几种的结合，合成出输出语音。

语音合成技术特点 （1）自然度（2）清晰度（3）表现力（4）复杂度

语音合成系统应用 • 目前，语音合成技术开始广泛应用于金融、邮电、工商、政府机关、交通、教育、游戏等领域。此外还有一些教育娱乐软件、普通话教学软件、游戏软件中都使用了语音合成技术。

语音识别技术 • 语音识别技术是让计算机通过识别和理解过程把语音信号转变为相应的文本或命令的技术。即让计算机能够听懂人类的语言。是目前信息技术领域重要的科技发展技术之一。 • 例如：IBM的语音识别软件ViaVoice，可以帮助人们通过话筒用语音向字处理软件输入文字，能识别英语、意大利语、德语、法语、日语、汉语等语种，已经得到了广泛的使用。

语音识别的关键技术 • 语音识别技术主要包括特征提取技术、模式匹配技术及模型训练技术三个方面。 • 语音识别所应用的模式匹配和模型训练技术主要有动态时间归正技术、隐马尔可夫模型和人工神经网络技术。

音频处理软件Adobe Audition • Adobe Audition软件是一款多轨音频制作软件。具有高级混音、编辑、控制和特效处理能力。 2006年1月，升级至2.0版。 • Adobe Audition拥有集成的多音轨和编辑视图、实时特效、环绕支持、分析工具、恢复特性和视频支持等功能，为音乐、视频、音频和声音设计专业人员提供全面集成的音频编辑和混音解决方案。 • Adobe Audition广泛支持工业标准音频文件格式，包括WAV、AIFF、MP3、MP3PRO和WMA，还能够利用达32位的位深度来处理文件，取样速度超过192kHz，从而能够以最高品质的声音输出磁带、CD、DVD或DVD音频。

Adobe Audition基本功能 （1）录音 Adobe Audition能够实现高精度声音的录制，可以导入视频文件到Abobe Audition，实现对视频的同步配音。（2）混音通过混音功能可以将多个音轨声音混合在一起，输出综合的声音效果。（3）声音编辑例如声音的淡入淡出，声音移动和剪辑，音调调整，播放速度调整等。

Adobe Audition基本功能 （4）效果处理软件本身自带了效果器，如压缩器、限制器、噪声门、参量均衡器、合唱效果器、延迟效果器、回升效果器等。（5）降噪降噪功能可以实现在不影响音质的情况下，最大程度地减少噪声。（6）声音压缩可以将音频文件压缩为容量较小的MP3、MP3Pro等文件格式，同时最大程度地保持声音的音质。（7）协同创作能够与多种音乐软件协同运行，一起实现整个音乐创作的过程。

Adobe Audition基本应用 • Adobe Audition 2.0 音频处理软件具有三种编辑模式界面，分别是多轨编辑模式、单轨编辑模式以及CD模式。多轨编辑模式界面如下：主要包括：菜单栏、工具栏、文件/效果器列表栏、音轨显示区、基本功能区和电平显示区。

菜单栏 • File（文件） • Edit（编辑） • Clip（剪辑） • View（查看） • Insert（插入） • Effects（效果） • Options（选项） • Windows（窗口） • Help（帮助）

文件/效果器列表栏 • 其中文件栏可以对音轨显示区打开的波形文件以列表的方式显示出来，便于对音频文件的管理和操作。 • 通过效果器栏中的效果可以直接对各个音轨进行处理，制作各种音频效果。

音轨显示区 • 通过多个音轨的音频剪辑和处理，实现对整体音乐效果的控制。音轨显示区包含音轨属性面板和音轨波形显示窗两个部分。其中属性面板主要实现对当前音轨的音量调节、相位调节、以及静音、独奏和录音等选项。而波形显示窗则显示当前声音文件所包含的不同音轨的声音波形。

走带控制器 时间面板缩放面板选择/查看面板工程属性面板基本功能区 • 控制以及观测音频文件的功能区域，包括走带控制器面板、时间面板、缩放面板、选择/查看面板、工程属性面板。

电平显示区 • 显示音频电平的高低情况，即音频的音量大小。

Abobe Audition 2.0 单轨操作界面 单轨操作界面只有一个音轨，并且没有针对这个音轨的属性面板。在单轨模式下，主要进行的操作内容是针对此音轨波形的效果处理、降噪处理等等。

音频素材制作－采集与录制 • 音频采集与录制是音频处理软件的最基本的功能。在进行音频录制前，需要安装关于音频录制或者采集的外围设备，例如麦克风或CD唱机等设备。 • 录音前的声卡设置，在音量控制窗口/选项/属性

音频素材制作与处理

音频素材制作与处理

Presentation Transcript