1.14k likes | 1.35k Views
第 3 章 音频. 音频 (audio) 指人能听到的声音,包括语音、音乐和其它声音 ( 声响、环境声、音效声、自然声 ) 。 3.1 声音 3.2 音频信号的数字化 3.3 数字音频技术与格式 3.4 MIDI 3.5 音频编码 3.6 语音处理简介. 3.1 声音. 3.1.1 声波 声音 (sound) 是一种由机械振动引起可在物理介质(气体、液体或固体)中传播的纵向压力波(纵波或疏密波)。称振动发声的物体为声源。声音在真空中不能传播,我们主要讨论声音在空气中的传播
E N D
第3章 音频 音频(audio)指人能听到的声音,包括语音、音乐和其它声音(声响、环境声、音效声、自然声)。 • 3.1 声音 • 3.2 音频信号的数字化 • 3.3 数字音频技术与格式 • 3.4 MIDI • 3.5 音频编码 • 3.6 语音处理简介
3.1 声音 3.1.1 声波 • 声音(sound)是一种由机械振动引起可在物理介质(气体、液体或固体)中传播的纵向压力波(纵波或疏密波)。称振动发声的物体为声源。声音在真空中不能传播,我们主要讨论声音在空气中的传播 • 声波(sound wave)指在物理介质中传播的声音。声音的强弱体现在声波压力的大小上,音调的高低体现在声音的频率上。因此,声波可用振幅和频率这两个基本物理量来描述: • 振幅:声波的振幅 (amplitude) A定义为振动过程中振动的物质偏离平衡位置的最大绝对值 • 频率:声波的频率(frequency) f 定义为单位时间内振动的次数,单位为赫兹Hz(每秒钟振动的次数)
声速 • 声音在空气中传播的速度几乎不受气压大小的影响,但是受气温的影响很大。在气温为t℃时的声速: c = 331.5 * (1 + t / 273)1/2 ≈ 331.5 + 0.6 t (m/s) 例如在室温(15℃)下,声速c ≈ 340 m/s。
波长与频率 • 声音的波长(wave length)λ定义为声音每振动一次所走过的距离,单位为米(m)。声波的波长与频率的关系为(其中c为声速): λ= c / f (m)
纯音与复音、基频与谐频 • 纯音(pure tone)——具有单一频率的声音 • 复音(complex tone)——具有多种频率成分的声音。普通的声音(如人讲话和乐器演奏)一般都是复音 • 和谐的复音由基音(fundamental tone)和谐音(harmonic tone)所组成 • 基音的频率是和谐复音中的最低频(通常具有最大振幅),称为基频(fundamental frequency) • 谐音(也叫泛音[overtone])的频率是基频的整数倍,称为谐频(harmonic frequency) • 基音决定声音的高低(音调),谐音则决定声音的音品(音色)
声音三要素 • 声音的感知特性主要有音调、响度和音色,称之为声音的三要素: • 音调——人耳对声音高低的感觉称为音调(tone)。音调主要与声音的频率有关,但不是简单的线性关系,而是成对数关系。除了频率外,影响音调的因素还有声音的声压级和声音的持续时间。音调的单位为美(mel) • 响度——声音的响度(loudness)就是对声音强弱的主观感知。声音的大小在客观上一般用声级(soundlevel)表示,其单位为分贝(dB),无量纲,人能感知的声音大小的范围一般为0~120dB。主观感觉的声音强弱则使用响度“宋(sone)”或响度级“方(phon)”来度量 • 音色——音色(timbre)是人们区别具有相同的响度和音调的两个(不同发声体所发出)声音的主观感觉,也称为音品。例如,每个人讲话都有自己的音色;每种乐器都有各自的音色。音色主要是由复音中不同谐音的分布和组成所决定的,影响音色的因素还有声音的时间过程
3.1.2 频率范围 • 声音 • 人类听觉:20Hz~20kHz • 人声:80Hz~3400Hz • 语音:300Hz~3000 Hz • 传统乐器:16Hz~7kHz • 钢琴:27.5Hz~4186Hz • 声乐:87Hz(男低音)~1318Hz(花腔女高音)
器乐的频率 • 传统乐器的发声范围为16Hz (C2)~7kHz(a5),如钢琴的为27.5Hz (A2)~4186Hz(c5) • 乐理的音高采用12平均律,将8度(倍频)音,按2的指数分为12份(2^1200),每份相当于一个半音(100音分) • 可把音高分为若干组,低音用大写字母,高音用小写字母,更低/高的音在大/小写字母后用数字下/上标表示其级别,如标准音:a1 = 440Hz,中央C:c1 = 261.6255653Hz • 8度音的频率差一倍,如a2 = 2×a1 = 2×440Hz = 880Hz,C1 = 2*C2 = 2×16.35Hz = 32.70Hz
声乐 • 声乐指人唱歌,可以按照男、女、童和高、中、低等来进行分类 • 声乐的频率范围为87Hz(男低音) ~ 1318Hz (花腔女高音) • 一般歌手的音域都有两个8度左右的宽度,但是有少数通俗唱法歌手的音域只有8度宽
3.1.3 音量 • 音量([sound] volume)即声音的强弱,可以用声压(级)、声强(级)和声功率(级)来度量 • 声压(sound pressure) P = 空气压强 - 大气压 • 一个标准大气压=1.03*10^5Pa。人耳对1kHz频率声音之听阈的声压约为2*10^-5Pa,痛阈的声压约为20Pa,正常说话时的声压约为0.02~0.03Pa,是标准大气压的千万分之二、三。 • 由于人耳对声压的感知范围大(相差约一百万倍),而且人的听觉与声压不是线性关系,而是近似于对数关系。所以常按对数式分级(level)办法来表示声音的大小 • 声压级(sound pressure level): 其中,参考声压Pref取为1kHz的听阈声压(2*10^-5Pa),声压级的值无量纲,单位为dB(decibel分贝)。如1kHz频率声音的听阈之声压级=20*lg1=0dB,痛阈之声压级=20*lg10^6 =120dB。声压变化10倍,声压级才变化20dB。
3.1.4 听觉系统的感知特性 • 人耳分为外耳、中耳和内耳三个部分: • 外耳由耳廓和耳道构成 • 鼓膜处在外耳和中耳之间 • 中耳包含三根听骨及通向咽腔的耳咽管 • 内耳则包括耳蜗、前庭、三半规管和听神经等部分。内耳中的前庭器和半规管内,主要含平衡觉感受器,与听觉无关
耳蜗与柯蒂器 • 耳蜗(cochlea)是一种充满液体的卷曲结构,大小如一颗豆子。管长35mm,卷绕两圈半,成蜗壳状 • 耳蜗内部被两个膜(前庭膜和基膜)分隔,中间形成的一个楔形剖面部分,称为蜗管 • 蜗管内部的复杂结构称为柯蒂器(organ of Corti)是外周听觉系统的核心部分。
对音强的感知 • 在物理上,声音的大小使用客观测量单位来度量,即声压用Pa(帕)或N/m2(牛顿/平方米)、声强用W/m2(瓦特/平方米)、声功率用W(瓦)、声级用dB(分贝) • 在心理上,主观感觉的声音强弱使用响度(loudness)或响度级(loudness level)来度量 • 响度的单位为“宋(sone)”,为了对响度进行计算,定义声级为40dB的1kHz标准音的响度等于1宋 • 定义响度级的值为1kHz标准音的声级的dB值,单位为“方(phon)”
响度S与响度级P之间的关系 可见,40方为1宋,2宋比1宋响1倍,3宋比1宋响2倍,其余可依次类推 • 听阈(hearing/audibility threshold)——人耳朵刚刚可以听见时的声音强度。此时的主观响度级定为0方 • 痛阈(pain threshold)——使人的耳朵刚刚感到疼痛时的声音强度。此时的主观响度级定为120方 • 实验表明,听阈和痛阈都是随频率变化的
对音高的感知 • 客观上用频率来表示声音的音高,其单位是Hz。而主观感觉的音高(音调)单位则是“美[尔](Mel)”和“巴克(Bark)” • 主观音高与客观音高的关系是: 其中f的单位为Hz,这也是两个既不相同又有联系的单位
掩蔽效应 • 掩蔽效应——一种频率的声音阻碍听觉系统感受另一种频率的声音的现象 • 掩蔽可分成频域掩蔽和时域掩蔽等 • 频域的纯音掩蔽——一个强纯音会掩蔽在其附近同时发声的弱纯音。也称为同时掩蔽(simultaneous masking) • 一般来说,弱纯音离强纯音越近就越容易被掩蔽 • 由于声音频率与掩蔽曲线不是线性关系,为从感知上来统一度量声音频率,引入了“临界频带(critical band)”的概念 • 临界频带表示的是人耳对两个纯音叠加时的分辨能力。通常将从20 Hz到20 kHz范围分成24个临界频带,临界频带的中心频率越高,其带宽也越大 • 临界频带的单位也叫Bark(巴克),即1 Bark = 一个临界频带的宽度
复音掩蔽与时域掩蔽 • 复音掩蔽——复音由多种频率的声音组成,人耳能分辨出复音所包含的各种分音,从而感受到它的音色。由于纯音的掩蔽效应可能使得复音中的部分分音人耳听不到,使得原来的音色发生改变,称之为复音掩蔽效应 • 时域掩蔽——除了同时发出的声音之间有掩蔽现象之外,在时间上相邻的声音之间也有掩蔽现象,称为时域掩蔽 • 时域掩蔽又分为超前掩蔽(pre-masking)和滞后掩蔽(post-masking) • 产生时域掩蔽的主要原因是人的大脑处理信息需要花费一定的时间。一般来说,超前掩蔽很短,只有大约5~20 ms,而滞后掩蔽可以持续50~200 ms
3.1.5 声道 • 声道(sound channel/track)是分开录音然后结合起来以便同时听到的一段声音 • 单声道——早期的声音重放(playback/reproduction)技术落后,只有单一声道(mono/monophony),只能简单地发出声音(如留声机、调幅AM广播) • 双声道——后来有了双声道的立体声(stereo)技术(如立体声唱机、调频FM立体声广播、立体声盒式录音带、激光唱盘CD-DA),利用人耳的双耳效应,感受到声音的纵深和宽度,具有立体感 • 环绕声——现在又有了各种多声道的环绕声(surround sound)重放方式(如4.1、5.1、6.1、7.1声道),将多只喇叭(扬声器speaker)分布在听者的四周,建立起环绕聆听者周围的声学空间,使听者感受到自己被声音包围起来,具有强烈的现场感(如电影院、家庭影院、HDTV、DVD/BD、dts-CD)
C = Center中 • L = Left左 • R = Right右 • S = Surround环绕 • B = Back后 • LFE = Low Frequence Enhancement低频增强(也叫woofer,低音喇叭 / 低音炮),因低音通道LFE的方向性不强,且频率 < 200Hz [一般为15~120Hz],故称为0.1声道)
3.2 音频信号的数字化 • 声音用电表示时,声音信号在时间和幅度上都是连续的模拟信号。为了便于计算机处理,同时也为了信号在复制、存储和传输过程中少受损害,需要将模拟信号数字化 • 模拟信号(analog signal):在时间和幅度上都是连续的信号 • 数字信号(digital signal) :时间和幅度都用离散的数字表示的信号 • 模数转换(A/D=Analog-to-Digital):从模拟信号到数字信号的转换 • 数模转换(D/A=Digital-to-Analog):从数字信号到模拟信号的转换
音频信号的数字化 • 将音频信号数字化,实际上就是对其进行采样和量化。即:数字化=采样+量化 • 采样(sampling):连续时间的离散化通过采样来实现,就是每隔相等的一小段时间取一次声波振幅的样值,这种采样称为均匀采样 • 量化(quantization):连续幅度的离散化通过量化来实现,就是把信号的强度划分成一小段一小段,在每一段中只取一个强度的等级值(一般用二进制整数表示),如果幅度的划分是等间隔的,就称为线性量化,否则就称为非线性量化
从声音到计算机数据再到声音之全过程的设备/技术示意图从声音到计算机数据再到声音之全过程的设备/技术示意图 话筒 采样—A/D(声卡) —量化 D/A(声卡) 喇叭/耳机 声波→电平信号→离散时间信号→数字信号→电平信号→声波 时间幅度连续 时间离散 时间幅度离散 时间幅度连续 幅度连续 • 声音数字化需要确定采样频率和量化精度 • 采样频率(sampling frequency) :每秒钟采集的声音样本数 (常用的采样频率有:8kHz、11.025kHz、22.05kHz、44.1kHz、48 kHz ) • 量化精度(quantizing precision):每个声音样本的二进制位数(bps = bit per sample) (常用的采样精度为8bps、12 bps、16bps、20bps、24bps )
奈奎斯特(Nyquist)采样定理 • 当采样频率不低于声音信号最高频率的两倍时,可把以数字声音信号无损地还原成原来的模拟声音信号,这叫做无损数字化(lossless digitization) • 采样定理可用公式表示为 fs ≥ 2 f或 Ts ≤ T/2 其中fs为采样频率、f为被采样信号的最高频率、 Ts为采样周期、T为最小采样间隔
声音质量和数据率 AM (amplitude modulation):调幅广播 FM (frequency modulation):调频广播 DAT (digital audio tape) :数字音带
3.3 数字音频技术与格式 • 数字音频数据的种类 • 波形数据:声波通过声/电和A/D而得到的量化后的采样数据。数字化的波形数据又有两类存储方式: • 文件存储:有多种文件格式,如wav、au、aiff和snd • 非文件存储:激光唱盘(CD-Audio)和数字录音带(DAT) • MIDI数据:MIDI 是乐器和计算机之间交换音乐信息所使用的标准语言。MIDI数据只是一些指令。所以,与波形文件相比,MIDI文件非常小。常见的MIDI文件格式为PC机上扩展名为.mid文件
3.3.1 文件格式 常见音频文件的扩展名: • aiff(Audio Interchangeable File Format):Apple计算机上的声音文件存储格式 • ape(猿) :Monkey Audio公司的无损音频文件存储格式 • au(audio):Sun和NeXT公司的声音文件存储格式,主要用在Unix工作站上 • flac(Free Lossless Audio Codec) :Xiph.Org 基金会的无损音频文件存储格式 • mid(MIDI):PC上的MIDI文件存储格式
mp3(MPEG-1 Audio Layer III):压缩波形音频文件存储格式 • mp4/m4a:MPEG-4 Audio/Video或AAC编码 • ra(RealAudio) / .rm(RealMedia):RealNetworks公司的流式音频/媒体文件格式 • wav (waveform): Windows采用的(无损)波形声音文件存储格式 • seq(sequence):MIDI文件存储格式 • snd(sound) : Apple计算机上的声音文件存储格式 • wma (Windows Media Audio):Microsoft公司的流式音频文件格式
WAV文件格式 • 波形音频文件(The Waveform Audio File Format)(*.WAV)是Microsoft为Windows设计的多媒体文件格式RIFF(The Resource Interchange File Format,资源交换文件格式)中的一种(另一种常用的为AVI)。RIFF由文件头、数据类型标识及若干块(chunk)组成 • 注意: • 多字节整数的低位在前,同Intel CPU • 单字节样本值v为无符号整数(0~255),实际样本值应为v-128;多字节样本值本身就是有符号的,可直接使用 • 各种文件格式可参见网站:http://www.wotsit.org
3.3.2 音频技术 • 杜比实验室(Dolby Lab)——是由Ray Dolby于1965年创建于英国的一家专攻音频的压缩和复制的美国公司 • Dolby Surround / Dolby Prologic(杜比环绕声 / 杜比逻辑[定向])——1976年/1986年推出、模拟(无压缩)、4声道(左中右后[后左右相同])、用于电影院 • Dolby Digital(杜比数字)= AC-3 (Audio Code Number 3,音频编码3号) ——1992年推出、数字编码(压缩12倍)、5.1声道、48KHz采样、用于电影院、DVD和HDTV • 2003年推出的Dolby Digital EX(杜比数字扩展)支持6.1声道 • 2004年推出的Dolby Digital Plus(杜比数字+)支持多达13.1声道 • Dolby TrueHD(杜比真高清)——2005年推出的一种为蓝光盘开发的无损音频编码格式,码率可达18Mbps、8个以上全频带的24-bit/96 kHz声道、被HDMI(High-Definition Media Interface,高清介质接口)所支持、被Blu-ray Disc选为可选音频格式
DTS(Digital Theater System,数字影院系统)——由美国的DTS公司于1993年推出、数字编码(压缩4倍)、5.1声道、48KHz采样、用于电影院和DVD • DTS-ES(扩展环绕):6.1声道、用于家庭影院 • DTS-HD(高清):支持虚拟的无限多个环绕声通道、是BD的一种可选环绕声格式 • AAC(Advanced Audio Coding,先进音频编码) ——由AT&T、杜比实验室、Fraunhofer IIS和索尼四个公司于1997年4月共同开发出的一种有损音频压缩技术,支持8 kHz~96 kHz采用频率、1~ 48.16个声道、16个配音声道和16个数据流,是MPEG-2/4的重要组成部分,用于DVD和MP4等
3.3.3 音频光盘 • CD-DA(Compact Disc-Digital Audio,紧凑光盘—数字音频)——Philips与Sony公司于1981年联合推出的一种可以存储74分钟无损数字音频数据的直径12厘米的光盘,一般称为数字激光唱盘,简称为CD。它采用PCM技术、44.1kHz采样频率、16位量化、双声道立体声、最大码率1.4Mbps,存储容量为680MB • HDCD(High Definition Compatible Digital,高清晰兼容数字)——由Keith Johnson和Pflash Pflaumer于1991年开发出的一种专利技术、1996年他们二人创立了PMI (Pacific Microsonics Incorporated,太平洋微指令公司),微软公司于2000年9月收购了PMI,并获得了其HDCD技术。HDCD采用20位量化、88.2kHz采样、记录在CD-DA 16位样本数据的最低一位,需专门的解码器,不然只能用作(少一位有效样本数据的)普通CD
DTS-CD——由DTS公司于1997年推出的一种存储74分钟的5.1声道、48KHz采样、20bit量化的DTS音频的CD-DA光盘,采用的是APT-X100数字压缩技术(压缩4倍),播放DTS-CD光盘需要支持DTS格式的CD或DVD播放机和支持DTS信号的功放,在只支持普通CD-DA的光盘机/功放上播放DTS-CD盘时,听到的是白噪声。DTS-ES CD支持6.1声道 • DVD-Audio——是DVD论坛(先锋、松下、东芝、日立等公司)于1999年3月提出的一种数字音频格式,采用DVD介质存储、PCM技术、5.1声道、96kHz采样、24位量化、135分钟、最大码率9.6Mbps • SACD(Super Audio CD,超级音频CD)——飞利浦与索尼公司于1997年9月推出的一种数字音频格式,采用DVD介质存储和DSD (Direct Stream Digital,直接数字流) 技术编码,5.1声道、2.82MHz采样、1位量化、74分钟
3.4 MIDI • MIDI = Musical Instrument Digital Interface(乐器数字接口)是音乐合成器(music synthesizers)、乐器和计算机之间交换音乐信息所使用的标准协议 • MIDI是乐器和计算机使用的标准语言,是一套指令(即命令的约定),它指示乐器即MIDI设备要做什么及怎么做,如演奏音符、加大音量、生成音响效果等。MIDI不是声音信号,在MIDI电缆上传送的不是声音,而是发给MIDI设备或其它装置让它产生声音或执行某个动作的指令 • MIDI常用作背景音乐:因为MIDI音乐可以和其它的媒体(如数字电视、图形、动画、话音等)一起播放,这样可以加强演示效果
MIDI的优点 • 生成的文件比较小:因为MIDI文件存储的是命令,而不是声音波形 • 容易编辑:因为编辑命令比编辑声音波形要容易得多
简史 • 1920s:出现第1种流行的(声音单一)电子合成器、60年代 Robert Moog设计了首台广泛使用的模拟电子合成器、70年代初期出现了计算机音乐合成器,但各个厂商的产品互不兼容 • 1981年11月:Sequential Circuits公司的Dave Smith写出通用合成器接口USI协议提交给音频工程协会;经过对USI的改进和扩展,美国和日本的主要合成器制造商在1982年6月的美国全国音乐商协会NAMM展上,提出MIDI规范 • 1983年8月:公布MIDI 1.0详细规范(Detailed Specification),1995年1月推出版本v95.1,1995年9月v95.2,1996年3月v96.1,2001年11月推出v96.1的第二版
1991年9月:控制MIDI标准的两个组织——MIDI制造商协会MMA(http://www.midi.org/)与日本MIDI标准委员会JMSC——提出通用MIDI级别1 (GM1)规范(General MIDI 1 Specification),1999年11月推出GM2规范,2003年9月推出GM2规范的1.1版 • 2001年8月31日:MMA推出可扩展音乐格式XMF (eXtensible Music Format) 1.0、2003年8月推出XMF 1.0.1、2004年12月推出XMF 2.0 • 2003年7月:MMA和AMEI(日本的电子音乐工业协会)批准MIDI XML规范 • 2004年11月:MMA又推出了用于3G移动通信的SP-MIDI(Scalable Polyphony MIDI Specification,可伸缩多音调MIDI规范) • 新标准MIDI 2.0或HD-MIDI(High-Definition Protocol,高清协议)目前还在制定过程中