第 12 章语音增强技术

第12章语音增强技术 §12.1 语音增强技术的概念和研究的意义 §12.2 噪声度量、特性和评价 §12.3 语音增强的原理和方法

§12.1 语音增强技术的概念和研究的意义 一、语音增强的定义二、语音增强研究的意义

一、语音增强的定义 语音增强是指当语音信号被各种各样的噪声干扰、甚至淹没后，从噪声背景中提取有用的语音信号，抑制、降低噪声干扰的技术。一句话，从含噪语音中提取尽可能纯净的原始语音。

二、语音增强的意义 1. 日常生活中，经常会遇到在噪声干扰下进行语音通信的问题。例如在汽车、火车上使用移动电话，旁人的喧闹声，马路旁和市场里的公用电话等。 2. 军事通信中，指挥员的作战命令和战斗员的战情汇报都需要用语音来表达，由于战斗环境中的声环境恶劣，特别是炸弹产生的冲击性噪声，使有用信号完全淹没在噪声中。

（3）窃听技术中需要语音增强 （4）语音识别技术需要语音增强在实际生活中，语音信号无时无地不受各种噪声干扰。人们正常的生活环境就是一个声级为60dB左右的噪声环境。被强噪声污染的场合，噪声达120dB以上。

§12.2 噪声度量、特性和评价 一、噪声的分类和度量二、噪声的特性

一、噪声的分类和度量 1.噪声的定义：噪声是扣除被测信号真实值后的各种测量值，可能来自外界环境、物理系统、操作人员等。广义将噪声称为干扰。

2.噪声的分类 按产生原因和按噪声性质分类。（1）产生原因：产生于物理系统外部，并以声、光、电、机械等方式作用于物理系统，称为外部噪声；物理系统内部产生的噪声称为内部噪声，例如量子噪声等。

（2）按性质分为：脉冲噪声（爆炸、撞击和放电）和连续噪声；周期性周期（如交流电的干扰）和非周期性噪声；按统计特性分为：平稳噪声（如白噪声）和非平稳噪声（如色噪声）；按噪声和信号相关的性质分为加性噪声和乘性噪声。（2）按性质分为：脉冲噪声（爆炸、撞击和放电）和连续噪声；周期性周期（如交流电的干扰）和非周期性噪声；按统计特性分为：平稳噪声（如白噪声）和非平稳噪声（如色噪声）；按噪声和信号相关的性质分为加性噪声和乘性噪声。我们研究的噪声是声音的一种，它具有声波的一切特性，称之为声噪声。

3.噪声的度量 声压、声强和声功率（1）声压级(SPL)：Lp=20lg(P/P0) P0＝20uPa （2）声强级： LI=20lg(I/I0) I0=1012W/m2 （3）声功率级： Lw=20lg(W/W0) W0=1012W

声压和声压级表征声音在物理上的强弱，它是对噪声的客观评价，不能表征人对声音的主观感觉。响应级和响度是人耳对噪声的主观评价的基本量之一。响度的单位为宋（Sone）响度级的单位为方（phon），在数值上等于1kHz纯音的声强级。声压和声压级表征声音在物理上的强弱，它是对噪声的客观评价，不能表征人对声音的主观感觉。响应级和响度是人耳对噪声的主观评价的基本量之一。响度的单位为宋（Sone）响度级的单位为方（phon），在数值上等于1kHz纯音的声强级。噪声度量的另一个参数就是信噪比。 SNR=SNRout/SNRin

二、噪声的特性 从统计特性的角度讲：平稳噪声和非平稳噪声。白噪声是平稳噪声中的一种，其频谱和功率谱为常数，其概率密度分布是满足正态分布。

§12.3 语音增强的原理和方法 一、频域语音增强技术二、时域语音增强技术三、时频语音增强技术四、麦克风阵列语音降噪技术

一、频域语音增强技术 是语音信号中的一种重要技术，由于其原理简单所以被广泛使用，如手机中的降噪处理就是采用的此方法，美国NCT的Clear Speech产品中，就是应用的这技术。谱相减法是频域语音增强技术的常用方法。 1. 谱相减法的基本原理描述 2. 谱相减法的数学推导 3. 谱相减法的特点

将含噪语音信号和有声/无声判别得到的纯噪声信号进行DFT变化，从含噪语音谱幅度的平方中减去纯噪声的谱幅度的平方，然后开方，得原始语音谱幅度的估值，再借用含噪语音的相位，进行IDFT变化，得到增强的语音。将含噪语音信号和有声/无声判别得到的纯噪声信号进行DFT变化，从含噪语音谱幅度的平方中减去纯噪声的谱幅度的平方，然后开方，得原始语音谱幅度的估值，再借用含噪语音的相位，进行IDFT变化，得到增强的语音。

2. 谱相减法的数学推导 首先假设语音和噪声信号是线性叠加的，且噪声是平稳的，噪声与语音信号不相关。 x(n)=s(n)+d(n) X(ejw)=S(ejw)+D(ejw) 简写为： X(w)=S(w)+D(w) X(w)• X*(w)=(S(w)+D(w)) • (S(w)+D(w))* 展开得到： |X(w)|2=|S(w)|2+|D(w)|2+ S(w) • D*(w) + S*(w) • D (w)

对上式两边取数学期望有： E[ |X(w)|2 ]= E[ |S(w)|2 ]+E[ |D(w)|2 ]+ E[ S(w) • D*(w) ] + E[ S*(w) • D (w) ] 由于噪声与语音信号不相关，且傅立叶变换不会改变信号之间的相关性，上式中，最后两项均为0。则上式简化为： E[ |X(w)|2 ]= E[ |S(w)|2 ]+E[ |D(w)|2 ]

利用语音信号的短时平稳性，加之噪声信号的平稳性。由于傅立叶变换不会改变信号的统计特性，在一帧中，X(w) 、S(w)和D(w)都是平稳的。因此，在一帧内可用单个值来代替均值。 |X(w)|2 ＝|S(w)|2 +|D(w)|2 利用有声/无声判决的纯噪声信号d'(n)与d(n)不完全一致，因此： |S'(w)| 2 ＝|X(w)|2 －|D'(w)|2 ＝|S(w)|2 +|D(w)|2 －|D'(w)|2 s'(n)=IDFT[ |S'(w)| ejarg(X(jw))]

3. 谱相减法的特点 (1)原理简单，只需要一个话筒，故又称为单话筒语音降噪。话筒输出谱相减法处理话音噪声

(2) 需要无声和有声判决，在信噪比大的情况下，使用短时平均能量等参数可达到效果。 (3)由于该方法存在的前提条件要求噪声平稳，因此当噪声特性变化时，消噪效果可能会变差，这时需要重新拾取噪声特性。

(4)由于噪声的随机分布的范围广，因此相减时，若该帧某频率点上的噪声谱幅度分量大时，就会有很大一部分残留，在频谱上呈现随机起伏的尖峰。在听觉上形成有节奏的类似音乐的残留噪声，又称为背景音乐噪声。背景音乐噪声损伤了语音的质量，降低了可懂度和清晰度，是该类方法最大的缺点。

蓝色为原始含噪语音 黄色为谱相减处理的结果

二、时域语音增强技术 语音增强中另一常用技术，其特点是对语音的损伤小。在消噪过程中，一般需要二个以上话筒，采用自适应滤波算法。故常常将时域语音增强技术称为自适应语音降噪技术（Adaptive noise canceling ANC）。

主话筒和参考话筒获得的信号是语音和噪声在话筒处迭加后的混合信号。主话筒和参考话筒获得的信号是语音和噪声在话筒处迭加后的混合信号。主话筒+ 输出 + 话音 - 参考话筒自适应滤波器噪声

1. 自适应消噪的基本原理描述 主信号s+n0，为有用信号s（来自信号源）和一个与它不相关的噪声信号的混合而成。 n1为另外拾取的噪声参考信号，与n0相关。主输入信号x=s+n0 + 输出s’ + - n’ 参考输入n1 自适应滤波器

将参考信号n1通过自适应滤波器后，得到信号n’(n)，此信号与n0(n)基本一致。将参考信号n1通过自适应滤波器后，得到信号n’(n)，此信号与n0(n)基本一致。 x(n)-n’(n)=s(n)+n0(n)-n’(n)=s(n)+e(n)=s’(n) s’(n)中仍然包含部分噪声(e(n))，要使这部分噪声小，达到完全消除噪声的目的(e(n)=0)，则n’(n) 尽可能与n0(n)一致。常常引入s’(n)调节滤波器的参数，形成自适应地修改滤波器的参数，使e(n)的均方误差最小。

滤波器为FIR滤波器，其直接结构为： n1(n) z-1 z-1 z-1 h(0) h(1) h(2) h(N-1) n’(n) 每一时刻刷新滤波器系数h(i) n’(n)= n1(n)h(0)+ n1(n-1)h(1)+ … + n1(n-N+1)h(N-1) s’(n)=x(n)-n’(n)

如何更新滤波器的系数，采用e(n)的均方误差最小的准则，形成LMS（Least mean Square）算法。为了便于讲解，将第n个时刻的所有滤波器系数h(i),写为hi(n),则有： n’(n)= n1(n)h0(n)+ n1(n-1)h1(n)+ ... + n1(n-i)hi(n)+ ... + n1(n-N+1)hN-1(n)

n1(n) n1(n-1) n1(n-N+1) 第n个采样时刻：（1）拾取x(n)和n1(n)信号（2）n’(n)=n1(n)h0(n)+n1(n-1)h1(n)+ +n1(n-i)hi(n)++n1(n-N+1)hN-1(n) （3）s’(n)=x(n)- n’(n) （4）hi(n+1)=hi(n)+2*u*s’(n)*n1(n-i) {i=0~N-1} （5）输出s’(n)

n1(n) z-1 z-1 z-1 h0(n) h1(n) h2(n) hN-1(n) + － n’(n) s’(n) + ＋ x(n)

2. 自适应消噪的实现框图 模拟放大抗混叠滤波两路 A/D DSP 一路 D/A 输入输出在DSP中实现核心LMS算法，采样率为8kHz,利用DSP串行口或定时器中断，每隔125us中断一次，读入两路数据，将参考数据按照先入先出的顺序排列，进行滤波，用主通道信号减去滤波后的数据，得到增强后的信号，将此信号输出，修改滤波器权系数。

主输入信号（收音机失谐纯噪声） 抗交叉串扰自适应滤波消噪输出结果

3. 影响自适应消噪效果的因素 （1）参考信号中含有语音成分，则通过滤波后，n’(n)信号中含有有用信号成分，经过相减后，将主通道信号减去一部分，损伤了有用信息。主话筒 + 输出 + 话音 - 参考话筒自适应滤波器噪声

可以证明，输出信号的信噪比和参考信号的输入信噪比有如下关系：可以证明，输出信号的信噪比和参考信号的输入信噪比有如下关系：可见，当参考通道的输入信噪比愈强，噪声抵消系统输出信噪比愈差，所以，为了获得好的噪声抵消系统性能，应使参考通道检测的信号尽可能小。

（2）主输入信号和参考输入信号中含有非相关的噪声成分m0和m1 。自适应滤波只能将两个输入中的噪声相关部分滤掉，则当信号不相关时，则无法消除。 m0 主话筒+ 输出 + 话音 - 参考话筒自适应滤波器噪声 m1

原始含噪语音 基本自适应抗噪输出结果

三、时频语音增强技术 为了达到更好的消噪效果，可将自适应消噪技术和谱相减结合起来。自适应消噪谱相减消噪主输入信号增强语音参考信号

原始含噪语音 基本自适应抗噪输出结果自适应抗噪与谱相减相结合后的输出结果

Clear Speech Speaker ClearSpeech Speaker is a digital speaker that removes up to 95% of background noise from the receive side of any two-way radio communication. The most common complaint about mobile communications is background noise. ClearSpeech™-Speaker is a high-tech, low cost solution that enhances the audio quality of car and truck fleet, emergency vehicle, marine, and ham radio communications. List Price: $179.95 Our Price: $149.95

四、麦克风阵列语音降噪技术 由于自适应语音降噪技术消除的是两个话筒中的噪声相关部分。因此当增加一个话筒，则增加一份与主话筒噪声相关的部分，采用自适应滤波，则可将主话筒的噪声消除一部分。主话筒+ 输出 + 话音 - - 参考话筒1 自适应滤波器噪声参考话筒2 自适应滤波器

蓝色为原始噪声；黄色为双话筒自适应语音降噪处理结果；紫色为三个麦克风自适应语音降噪处理结果。蓝色为原始噪声；黄色为双话筒自适应语音降噪处理结果；紫色为三个麦克风自适应语音降噪处理结果。

有源降噪技术(有源消声) 一、噪声控制的引入二、噪声控制的分类三、有源噪声控制的原理四、有源噪声控制的应用

一、噪声控制的引入 随着现代工业的发展，噪声污染已经成为一个世界性的问题。传统的噪声控制主要是消声，诸如用吸声材料等，但是存在对低频噪声无能为力的缺点。而日常生活密切相关的噪声却大多以低频噪声为主，如家用电器中的空调、冰箱的噪声。因此提出新的噪声控制方法的必要。

从军事角度讲，舱室的降噪具有实际应用意义。例如，军用飞机、战车、舰艇和航天飞行器的舱内噪声高，对乘员的听力、通话、健康和操作的影响非常不利且降低战斗力，因此要从技术上解决舱室内噪声的来源，并进行噪声控制。从军事角度讲，舱室的降噪具有实际应用意义。例如，军用飞机、战车、舰艇和航天飞行器的舱内噪声高，对乘员的听力、通话、健康和操作的影响非常不利且降低战斗力，因此要从技术上解决舱室内噪声的来源，并进行噪声控制。

二、噪声控制的分类 通过吸声处理来达到控制噪声的目的，属于被动式或无源控制方法，称之为无源噪声控制（Passive Noise Control）。随着电子技术的发展，采用有源器件（放大器、话筒和扬声器），利用声波干涉的原理，人为产生一列与原噪声幅度相同相位相反的声波，与原噪声抵消，以达到噪声控制的目的，这类噪声控制方法称之为有源噪声控制（Active Noise Control）。

简单的有源噪声控制 Speaker 噪声放大电路 Microphone 局部静区

第 12 章 语音增强技术