基于神经网络的语音识别技术研究

基于神经网络的语音识别技术研究 郑林制作

1 语音识别基础 目前主流的语音识别技术是基于统计模式识别的基本理论。一个完整的语音识别系统可大致分为三部分： (a)语音特征提取：目的是从语音波形中提取随时间变化的语音特征序列。 (b)声学模型与模式匹配(识别算法)：声学模型是识别系统的底层模型，并且是语音识别系统中最关键的一部分。声学模型通常由获取的语音特征通过训练产生，目的是为每个发音建立发音模板。在识别时将未知的语音特征同声学模型(模式)进行匹配与比较，计算未知语音的特征矢量序列和每个发音模板之间的距离。

声学模型的设计和语言发音特点密切相关。声学模型单元大小(字发音模型、半音节模型或音素模型)对语音训练数据量大小、系统识别率，以及灵活性有较大影响。 (c)语义理解：计算机对识别结果进行语法、语义分析。明白语言的意义以便做出相应的反应，通常是通过语言模型来实现。

1.1 语音识别面临的问题 • 。

高保真设备上录制语音，尤其要在无噪环境下录音。然而，当语音处理由实验室走向实际应用时，环境噪声的存在所带来的问题就变得越来越重要。特别是线性预测作为语音处理技术中最有效的手段，恰恰是最容易受噪声影响的。高保真设备上录制语音，尤其要在无噪环境下录音。然而，当语音处理由实验室走向实际应用时，环境噪声的存在所带来的问题就变得越来越重要。特别是线性预测作为语音处理技术中最有效的手段，恰恰是最容易受噪声影响的。 3.语音识别基元的选择问题。即如何根据存储空间和搜索速度的要求，选择合适的识别单元，如词、音节、音素。一般来讲，识别的词汇量越大，所选基元应越小。 4.端点检测。语音信号的端点检测是进行语音识别的第一步。研究表明，即使在安静的环境下，语音识别系统一半以上的识别错误来自端点检测器。提高端点检测技术的关键在于寻找稳定的语音参数。 5.还有大词汇连续语音识别的训练工作量和识别速度问题、局势问题以及关键词检测技术，以及对用户的错误操作不正确响应问题等。 6.另外，对于人类由中枢神经控制的记忆机理、听觉理解机理、联想判断机理等，人们目前仍知之甚少。

1.2 本文的主要工作 • 本文的主要工作是对现有的语音识别算法进行改进和验证，在前人研究的基础上，研究了语音信号参数的提取方法和常用识别算法，重点研究了HMM在语音识别中的应用，包括模型的原理，模型的建立、训练和识别等过程，对HMM模型的原理和核心算法和实际应用中的问题进行了深入的研究，提出了基于HMM/NPN的语音识别模型和算法，并验证。第1章绪论介绍了语音识别的历史和现状，所面临的问题，识别的基础和本文所做的工作及内容安排;第2章语音识别的系统描述和特征参数提取，重点在语音的预处理和LPCC和MFCC参数提取过程。第3章常用的训练和识别方法，重点介绍VQ、HMM、NN模型及一些算法。

2 系统描述和特征参数提取 • 2.1预处理 • （1）语音采样 • 语音信号是随时间而变的一维信号，它所占据的频率范围可达10kHz以上，那么根据取样定理则其采样频率至少为20kHZ，但是对语音清晰度可懂度有明显影响的成分最高频率约为5.7kHZ，CCTT(国际电报电话咨询委员会)推出的数字电话G.7建议采样率为skHZ，只利用了3.4kHZ以内的信号分量，虽然这样的采样频率对语音清晰度是有损害的，但受损害的只有少数辅音，而语音信号本身冗余度是比较大的，少数辅音清晰度下降并不明显影响语句的可懂度。

(2)预加重 • 由于语音信号S(n)的平均功率谱受声门激励和口鼻辐射的影响，高频端大约在800Hz以上按6dB/倍频程跌落，所以求语音信号频谱时，频率越高相应的成分越小，高频部分的频谱比低频部分的难求，为此要在对语音信号S(n)进行分析之前对其高频部分加以提升。使信号的频谱变得平坦，保持在低频到高频的整个频带中，能用同样的信噪求频谱，以便于频谱分析或声道参数分析。通常的措施是用一阶数字滤波器实现预加重，其公式表示为:

H(z)=1- @ （2-1） 0.9<<1.0式中@为预加重系数，群值接近于1，典型值为0.94。这样，预加重网络的输出和输入的语音信号s(n)的关系可用一差分方程表示: s(n)=s(n)-s(n-1)

（3）加窗 • 语音信号是一种典型的非平稳信号，其特性是随时间变化的，但是语音的形成过程是与发音器官的运动密切相关的，这种物理运动比起声音振动速度来讲要缓慢得多，因此语音信号常常可假定为短时平稳的，即在10-20ms的时间段内，其频谱特性和物理特征参量可近似地看作是不变的。这样，就可以采用平稳过程的分析处理方法来处理了。由这个假定导出了各种“短时”处理方法，以后讨论的各种语音信号都是分隔为许多短段(帧)语音再加以处理。这些短段语音就好像是来自一个具有固定特性的持续语音片断一样。对每一短段语音进行处理就等效于对固定特性的持续语音进行处理。短段语音之间彼此经常有一些重叠，对每一帧的处理结果可用一个数或是一个组数来表示。因此语音信号经过处理后将产生一个新的依赖于时间的数据系列，这些数据用于描述语音信号

的特征。设原始语音信号采样系列为S(n)，将其分成一些短段，等效于乘以幅度为1的窗函数。当窗函数幅度不是1而是按一定函数取值时，所分成的短段语音的各个取样值将受到一定程度的加权。对语音信号的各个短段进行处理，实际上就是对各个短段进行某种变换或施以某种运算，其一般式为：的特征。设原始语音信号采样系列为S(n)，将其分成一些短段，等效于乘以幅度为1的窗函数。当窗函数幅度不是1而是按一定函数取值时，所分成的短段语音的各个取样值将受到一定程度的加权。对语音信号的各个短段进行处理，实际上就是对各个短段进行某种变换或施以某种运算，其一般式为：

（4）短时能量 • 短时能量序列反映了语音振幅或能量随着时间缓慢变化的规律。从原始语音信号图中可以看到语音信号幅度随时间有相当的变化，特别是清音段的幅度一般比浊音段的幅度小很多，语音信号的短时能量给出了反映这些幅度变化的一个合适的描述方法。 • 语音信号s（n）的短时能量的定义为：

式中窗函数w(n)为上面讨论的任意一种，这里窗长N的选择对于反映语音信号的幅度变化起着决定的作用。如果N很大，它等效于很窄的低通滤波器，此时瓦随时间的变化很小，不能反映语音信号的幅度变化，信号的变化细节就看不出来;反之，N太小时，滤波器的通带变宽，En随时间有急剧的变化，不能得到平滑的能量函数。因此，窗口长度的选择应合适。短时平均能量的主要用途有：式中窗函数w(n)为上面讨论的任意一种，这里窗长N的选择对于反映语音信号的幅度变化起着决定的作用。如果N很大，它等效于很窄的低通滤波器，此时瓦随时间的变化很小，不能反映语音信号的幅度变化，信号的变化细节就看不出来;反之，N太小时，滤波器的通带变宽，En随时间有急剧的变化，不能得到平滑的能量函数。因此，窗口长度的选择应合适。短时平均能量的主要用途有： • (a)区分清音段和浊音段，语音为浊音时的短时能量值比清音时大得多，根据语音信号短时能量值的变化，可大致判定浊音变为清音和清音变为浊音的时刻。

(b)在高信噪比的语音信号中，可以用来区分有无语音，此时，无语音信号的噪声能量很小，而有语音信号时短时能量值显著地增大到某一数值，由此可以区分语音信号的开始点和终止点。但是，瓦值对于高电平信号非常敏感(因为计算时用的是信号的平方)，因此在实际使用时需加以处理，例如取对数等，以便将数值限制在一定的范围内。(b)在高信噪比的语音信号中，可以用来区分有无语音，此时，无语音信号的噪声能量很小，而有语音信号时短时能量值显著地增大到某一数值，由此可以区分语音信号的开始点和终止点。但是，瓦值对于高电平信号非常敏感(因为计算时用的是信号的平方)，因此在实际使用时需加以处理，例如取对数等，以便将数值限制在一定的范围内。

（5）短时平均过零率 • 过零分析是语音时域分析中简单的一种，顾名思义，过零就是信号通过零值。对于连续语音信号，可以考察其时域波形通过时间轴的情况。而对于离散时间信号，如果相邻的取样值改变符号则称为过零。由此可以计算过零数，过零数就是样本改变符号的次数。单位时间内的过零数称为平均过零数。语音信号S(n)的短时平均过零率定义为：

（6）语音信号的端点检测 • 端点检测是指从背景噪声中找出语音的开始和终止点，是语音处理领域的基本问题，特别是在孤立词语音识别中，找出每个单字的语音信号范围是很重要的，确定语音信号的开始和终止可以减少系统的大量计算，使系统运行效率得到很大的提高。在比较安静的环境下，仅依靠短时能量与平均过零率这两个特征参数就可以较好地完成语音信号的起点判决。但需要指出的是，这两个特征比较容易受外界噪声的干扰，鲁棒性(orbus)t较差，当语音信号的信噪比较低时，信号的短时能量和平均过零率将受到很大的影响。端点检测的两级判断方法:基于能量的过零率的端点检测一般使用两级判决法，

在开始进行端点检测之前，首先为短时能量和过零率分别确定两个门限。一个是比较低的门限，其数值比较小，对信号的变化比较敏感，很容易就会被超过。另一个是比较高的门限，数值比较大，信号必须达到一定的强度，该门限才可能被超过。低门限被超过未必就是语音的开始，有可能是时间很短的噪声引起的，高门限被超过则可以基本确信是由于语音信号引起的。整个语音信号的端点检测可以分为四段:静音、过渡音、语音段、结束。在静音段，如果能量或过零率超越了低门限，就应该开始标记起点，进入过渡段。在过渡段中，由于参数的数值比较小，不能确信是否处于真正的语音段，因此只要两个参数的数值都回落到低门限以下，就将当前状态恢复到静音状态。

而如果在过渡段中两个参数中的任一个超过了高门限，就可以确信进入语音段了，并标记起始点。如果当前状态之前处于语音段，而此时两个参数的数值降低到底门限以下，并且持续时间大于设定的最长时间门限，那么就认为语音结束了，返回到参数数值降低到底门限以下的时刻，标记结束点。一些突发性的噪声也可以引起短时能量或过零率的数值很高，但是往往不能维持足够长的时间，如门窗的开关，物体的碰撞等引起的噪声，这些都可以通过设定最短时间门限来判别。而如果在过渡段中两个参数中的任一个超过了高门限，就可以确信进入语音段了，并标记起始点。如果当前状态之前处于语音段，而此时两个参数的数值降低到底门限以下，并且持续时间大于设定的最长时间门限，那么就认为语音结束了，返回到参数数值降低到底门限以下的时刻，标记结束点。一些突发性的噪声也可以引起短时能量或过零率的数值很高，但是往往不能维持足够长的时间，如门窗的开关，物体的碰撞等引起的噪声，这些都可以通过设定最短时间门限来判别。

2.2 特征参数提取 • 经过前而对语音信号的分析可以导出许多语音特征参数，这些语音特征参数是分帧提取的，每帧特征参数构成一个矢量，因此，语音特征是一个矢量序列。语音信号中提取出来的特征参数经过数据压缩后便可作为语音的模板。因此，特征参数的选择对识别性能至关重要，选择的标准要尽量满足: • (a)能有效的表征语音特性; • (b)各阶参数间有很好的独立性; • (c)特征参数的计算方便简单，最有高效的算法，以保证识别的实时性要求。

Mel频标倒谱系数MFCC • Mel频标倒谱系数(MelFrequeneyCepstrumCoeffieientMFCC)不LPCC等通过对人的发声机理的研究而得到的声学特征，MFCC是受人的听觉系统研究成果推动而导出的声学特征。该特征是在Mel标度频率域中提取出来的倒谱参数MFCC的提出基于下列两点研究成果:首先，人类对单个音调的感知强度近似与该音调频率的对数成正比。Mel频率表达了这种语音频率与“感知频率”的对应关系。在Mel频率域内，人对音调的感知度为线性关系，举例来说，如果两段语音的Mel频率相差两倍，则人耳听起来两者的音调也相差两倍。

其次，当同时发出两个频率相近的音调时，人只能听到一个音调。只有当两个频率分量相差一定带宽时，人类才能将其区分。这个带宽被称为临界带宽(CritiealBandwidth)，其计算公式如下.其次，当同时发出两个频率相近的音调时，人只能听到一个音调。只有当两个频率分量相差一定带宽时，人类才能将其区分。这个带宽被称为临界带宽(CritiealBandwidth)，其计算公式如下. • Mel频率与线性频率的转换公式为：

这样，我们可以构造临界频带滤波器组(CritiaclBnadFilterBnak)模仿人耳的感知特性。这组滤波器的中心频率在Mel频率域内呈线性分布，其带宽在临界带宽之内。这样，我们可以构造临界频带滤波器组(CritiaclBnadFilterBnak)模仿人耳的感知特性。这组滤波器的中心频率在Mel频率域内呈线性分布，其带宽在临界带宽之内。 • MFCC参数是先将原始频域信号通过一组临界频带滤波器组，变换到Mel频率域，然后通过离散余弦变换转换到倒谱域求得，

通过对人的听觉机理的研究发现，当两个频率相近的音调同时发出时，人只能听到一个音调。临界带宽指的就是这样一种令人的主观感觉发生突变的带宽边界，当两个音调的频率差小于临界带宽时，人就会把两个音调听成一个，这称之为屏蔽效应。Mel刻度是对这一临界带宽的度量方法之一。Mel频率倒谱系数首先是将信号频谱的频率轴变换为Mel刻度，再变换到倒谱域得到的倒谱系数。其计算过程如下:通过对人的听觉机理的研究发现，当两个频率相近的音调同时发出时，人只能听到一个音调。临界带宽指的就是这样一种令人的主观感觉发生突变的带宽边界，当两个音调的频率差小于临界带宽时，人就会把两个音调听成一个，这称之为屏蔽效应。Mel刻度是对这一临界带宽的度量方法之一。Mel频率倒谱系数首先是将信号频谱的频率轴变换为Mel刻度，再变换到倒谱域得到的倒谱系数。其计算过程如下: • (1)将信号进行短时傅里叶变换得到其频谱。 • (2)求频谱幅度的平方，即能量谱，并用一组三角形滤波器在频域对能量进行带通滤波。这组带通滤波器的中心频率是按Mel频率刻度均匀排列的(间隔150Mel，带宽30OMel)，每个三角形滤波器的两个底点的频率分别等于相邻的两个滤波器的中心频率，即每两个相邻的滤波器的过渡带互相搭接，且频率响应之和为l。滤波器的个数通常与临界带数相近，设滤波器数为M，滤波后得到的输出为:X(k)，k=l，2，…，Mo

3 常用的训练和识别方法 • 要建立一个性能优越的语音识别系统仅有好的语音特征还不够，还要有好的语音识别模型和算法。为了研究方便，通常将语音识别系统为两部分:声学层部分主要研究如何充分利用语音信号中的信息;语音学层部分主要研究如何充分利用己有语音学知识来提高系统的识别率。本章主要讨论系统底层部分所涉及的模型和算法。语音识别过程是根据模式匹配原则，计算未知语音模式与语音模板库中的每一个模板的距离测度，从而得到最佳的匹配模式。

矢量量化 • 矢量量化是由标量量化推广和发展而来的一种编码技术，其基础是信息论中的“率一失真”理论，可看作是香农信息论在信源编码理论方面的一个发展。在标量量化中，整个动态范围被分成若干个小区间，每个小区间有一个代表值，对于一个输入标量信号，量化时落小区间的值就用 • 这个代表值代替。如果我们用线性空间的观点来看这个问题，标量量化可看成是一维矢量的量化。矢量量化的研究目的在于针对特定的信息源和矢量维数，找到一种优化的矢量量化器，使它能够在量化速率一定时给出最低的畸变。由于矢量量化充分利用了矢量中各分量间隐含的各种内在关系，因此比标量量化性能优越，且随着矢量维数的增加，这种优越性越明显。

基于神经网络的语音识别技术研究

基于神经网络的语音识别技术研究

Presentation Transcript