390 likes | 569 Views
以能量為基礎之語音正規化方法研究及其於語音端點偵測之應用 On the Study of Energy-Based Approaches for Speech Feature Normalization and Apply to Voice Active Detection. 指導教授:陳柏琳 博士 研究生:陳鴻彬. 大綱. 研究動機 參考文獻 研究內容 實驗設定 實驗結果 語音端點偵測之應用 結論與未來展望. 研究動機. 噪音能量
E N D
以能量為基礎之語音正規化方法研究及其於語音端點偵測之應用On the Study of Energy-Based Approaches for Speech Feature Normalization and Apply to Voice Active Detection 指導教授:陳柏琳 博士 研究生:陳鴻彬
大綱 • 研究動機 • 參考文獻 • 研究內容 • 實驗設定 • 實驗結果 • 語音端點偵測之應用 • 結論與未來展望
研究動機 • 噪音能量 • 從生活經驗中可以知道噪音對語音的干擾,最直接的方式就是讓噪音能量大過語音能量。此時交談中的人們會要求說話者放大音量,或將噪音來源去除。 • 噪音能量對語音辨識系統的干擾 • 語音辨識系統中的聲學模型,無論是在乾淨環境下或噪音環境下所訓練。無法避免的是開放式環境充斥著各種不同能量大小的噪音,聲學模型不可能完全適用於各種環境,結果使得辨識率大幅下降。
參考文獻 • 對數能量特徵值之強建式技術 • 作法上分為三類 : • 同時針對訓練語料和測試語料用同方法做處理 • 音框能量消去法 (FES ) • 靜音音框對數能量正規化法I (SLEN I) • 靜音音框對數能量正規化法II (SLEN II) • 針對訓練語料的對數能量特徵值做處理 • 對數能量動態範圍正規化法I (LEDRN I) • 針對測試語料的對數能量特徵值做處理 • 對數能量動態範圍正規化法II (LEDRN II)
音框能量消去法 (FES ) • 音框能量消去法 • 基本上有三個假設: • 首先假設噪音訊號對語音訊號的影響是加成性的改變 • 第二假設噪音能量和語音對數能量之間互不相干擾 • 最後假設語音訊號的能量值與噪音訊號的能量值彼此獨立 • 根據上述假設與處理方法,我們可以令 、 與 分別為音框 的噪音語音能量、乾淨語音能量以及噪音能量 • 三者間如下式的關係:
音框能量消去法 (FLES ) • 噪音能量估測 • 實驗上假設每一語句的前K個音框屬於噪音音框,以取得估計值 • 音框能量消去 • 採用噪音遮蔽法以防止能量出現負值來取得近似的乾淨語音訊號能量
靜音音框對數能量正規化法I (SLEN I) • 假設: • 能量特徵最重要的是不受噪音能量干擾的語音能量曲線部分而非噪音能量干擾的失真部分,也就是說一段語音整體的能量曲線比音框能量的降低或昇高還重要,若可以保留清晰的曲線,就可以得到好的辨識率。 • 作法:依假設,找出波型中非語音的部份 • 利用語音端點偵測(VAD)的方法找出非語音區間作進階處理 • 使用能量偵測法判斷並正規化為一個常數值
靜音音框對數能量正規化法II (SLEN II) • 法II同法I之假設 • 作法:利用變動音框位移方式作為噪音音框的選擇方法
對數能量動態範圍正規化法I (LEDRN I) • 能量現象: • 語音能量曲線,波峰部位不容易受到噪音影響;而在波谷部位易受到噪音嚴重干擾,以致於乾淨環境與噪音環境下,能量特徵上有不匹配的現象 • 目標: • 針對訓練語料做處理,使訓練語料的能量特徵值與噪音環境下的能量特徵值互相匹配 • 作法: • 利用線性處理,使得能量特徵波峰值維持不變,而波谷的值相對上升以達到訓練與測試的訊號能有匹配的效果。
對數能量動態範圍正規化法I (LEDRN I) • 具體作法: • 對每一則訓練語句的所有個音框能量中找出最大對數能量值以及最小對數能量值 • 預期測試語音的噪音干擾大小決定一個動態能量的範圍 • 偵測訓練語句,當音框中最小對數能量值小於最小目標對數能量值,則對訓練語句中每個音框的對數能量作更新
對數能量動態範圍正規化法I (LEDRN I) • 線性更新法 • 非線性更新法
對數能量動態範圍正規化法II (LEDRN II) • 能量現象: • 語音能量曲線,波峰部位不容易受到噪音影響;而在波谷部位易受到噪音嚴重干擾,以致於乾淨環境與噪音環境下,能量特徵上有不匹配的現象 • 目標: • 針對測試語料做處理,使測試語料的能量特徵值與乾淨訓練環境下的能量特徵值互相匹配 • 作法: • 利用線性處理,使得能量特徵波峰值維持不變,而波谷的值相對下降以達到訓練與測試的訊號能有匹配的效果。
對數能量動態範圍正規化法II (LEDRN II) • 具體作法: • 對每一則訓練語句的所有個音框能量中找出最大對數能量值以及最小對數能量值 • 預期訓練語音的最小對數能量值決定一個動態能量的範圍 • 對所有測試語句中每個音框的對數能量作更新
對數能量動態範圍正規化法II (LEDRN II) • 線性更新法 • 非線性更新法
研究內容 • 無噪音干擾情況下 • 通常一段無雜訊的語句中,有語音的段落其對數能量特徵值會較高;反之若無語音出現的段落其對數能量特徵值則會接近於一穩定的低能量值 • 有噪音干擾情況下 • 對數能量較高的音框僅有輕微的影響;相反地,在對數能量較低的音框則會有嚴重的影響
研究內容 • 噪音能量干擾語音能量特徵的影響變化 • 利用曲線擬合方式,求得的噪音之音框對數能量的回歸曲線 • 當受到噪音影響時使得對數能量產生非線性的失真: • 在對數能量較高的音框僅有輕微的影響 • 在對數能量較低的音框上則會有嚴重的影響
對數能量尺度重刻法I(LER I) • 基於上述的觀察,本論文提出對數能量尺度重刻法I • 基本想法 • 將原特徵能量值乘上該特徵值所落入的分位差(Quantile)區間的函數值,使非語音片段的對數能量能降低 • 方法 • 使用對數轉換函數方式來對語音對數能量作正規化 • 目的 • 使對數能量值較低的音框對數能量值再降低 • 對數能量值較高的音框對數能量值維持不變
對數能量尺度重刻法I(LER I) • 具體作法 • 每一語句的所有音框中找出最大對數能量值以及最小對數能量值 • 根據最大對數能量值以及最小對數能量值決定值域範圍,將此範圍等份成M個分位差,取得分位差寬度 • 根據分位差寬度,找出每音框的對數能量所對應的分位差索引值 • 最後將每一音框索引值經過對數轉換函數得到正規化對數能量
對數能量尺度重刻法I(LER I) • 對數轉換函數 • 論文中我們設定對數轉換函數分位差個數(M)為100 • 此對數轉換函數與每個分位差值所對應曲線值的如下 對數轉換函數
對數能量尺度重刻法I(LER I) • 對數能量尺度重刻法正規化前與正規化後示意圖 正規化前 正規化後
對數能量尺度重刻法II(LER II) • 如同方法I之目標,希望將原特徵能量值乘上該特徵值所對應的權重值。 • 定義權重值函數如下式 • 限制: • 對數能量尺度重刻法II,必須有對應的雙份訓練語料(乾淨環境與噪音環境),利用最小平方迴歸法(Least Squares Regression) 求得 與 參數
音節週期強度權重法(SPW) • 音節週期 • 音節訊號種類包含有母音(vowel)、響音性子音(sonorant consonant)、摩擦音(fricative)、滑音(glide)、鼻音(nasal)等等的情況 • 根據訊號週期的特性,人聲帶發出的連續語音會存在於一固定的頻率範圍之內 • 目的: • 利用音框中之音節強度對該音框作權重值的改變,進一步抑制噪音干擾的部分重建出乾淨的語音對數能量特徵
音節週期強度權重法(SPW) • 音節週期 • 計算方法採用自我相關函數(autocorrelation function) • 式中 表示每一音框中之時域上的取樣點的震幅大小, 為週期強度, 為取樣點個數。然而因為在訊號中取樣點的平均值一般為零值,因此我們化簡表示式如下:
音節週期強度權重法(SPW) • 在此利用自我相關函數畫出語句的表示圖作觀察 • 從圖中可以發覺在有語音的段落,其音節週期強度大小有明顯的差異存在,而非語音片段的音節週期強度則平均出現在零值附近
音節週期強度權重法(SPW) • 根據自我相關函數所顯示的現象 • 吾人提出利用音節強度的大小作為該音框權重值的依據 • 具體作法 • 首先音節週期強度權重值必須存在於相同標準的刻度下,因此自我相關函數須做正規化的動作, 如下式 • 取得一定的頻率範圍內之最大週期值
音節週期強度權重法(SPW) • 對於音框之能量值的正規化
音節週期強度權重法(SPW) • 音節週期缺失 • 由音節週期表示圖可以發現正規化自我相關函數會造成子音部分能量的遺失 • 平滑化改進 • 利用非因果關係自動迴歸移動平均(Non-Casual Auto Regression Moving Average)補償子音部分能量
實驗設定 • 本論文實驗所使用的訓練語料和測試語料是由歐洲電信標準協會所發行的Aurora-2語料庫 • 訓練語料分為乾淨語料與複合情境語料(含雜訊干擾語料) • 測試語料分為三組Set A、Set B和Set C • Set A:乾淨語料中分別加入地下鐵、人聲、汽車和展覽會館雜訊 • Set B:乾淨語料中分別加入機場、餐廳、街道和火車站雜訊 • Set C:乾淨語料中分別加入二種不同特性的通道效應 • 前端處理(Front-End processing) • 採用梅爾倒頻譜係數作為語音特徵參數,其中包含12維的梅爾倒頻譜係數以及一維的對數能量(Log Energy),同時取其一階差量係數和二階差量係數 • 後端辨識(Back-end recognizer) • 使用HTK工具訓練聲學模型與辨識語音
對數能量尺度重刻法I實驗 • 實驗一 • 我們觀察對數能量尺度重刻法I若僅使用在測試語料狀況下與同時使用在訓練語料和測試語料的不同 (使用=100的分位差設定) 對數能量尺度重刻法I於訓練語料和測試語料的差異結果
對數能量尺度重刻法I實驗 • 實驗二 • 在對數能量尺度重刻法上我們使用不同刻度作測試,主要針對對數表的個分位差各別設定為50、70到500與1000多種尺度做觀察 對數能量尺度重刻法I於不同尺度分位差的實驗結果
對數能量尺度重刻法II實驗 • 利用曲線擬合法已求得αβ解 • 情境下之訓練語料共分為5dB、10dB、15dB、20dB與混合(Multi)四種不同噪音程度的噪音干擾情況, αβ參數可以分別求出在五組適當解 對數能量尺度重刻法II於曲線擬合法之αβ參數實驗
音節週期強度權重法實驗 • 利用音節強度對語音對數能量參數作權重值改變 音節週期強度權重法實驗結果
語音端點偵測技術 • 能量偵測法(Energy) • 針對語音音框之能量值來判斷語音訊號的端點所在處 • 作法: • 對每一語句設定一門檻值,利用此門檻值判斷該語句的端點所在處
語音端點偵測技術 • 頻譜熵値偵測法(Energy Entropy) • 觀察頻譜上亂度的情況,進而判斷語音端點位置 • 作法: • 針對每一音框之各頻譜帶振幅取其相對於全頻帶振幅和的機率值 • 對於每個音框的熵値計算如式 • 對每一語句設定一門檻值,利用此門檻值判斷該語句的端點所在處
語音端點偵測技術 • 長時期頻譜差異法(LTSD) • 在頻譜值上找出語音和非語音的片段 • 作法: • 定義長期封包大小為該音框之前後N個音框範圍,設定取其範圍中的最大值。定義如式: • 利用長期頻譜封包取得每一個音框的長期頻譜差異值(LTSD),定義如下式 • 對每一語句設定一門檻值,利用此門檻值判斷該語句的端點所在處
尺度重刻法於語音端點偵測技術之應用 • 以上三種端點偵測技術共通性 • 使用不同計算式取得語句中每一音框所代表之參考值 • 對語句中之參考值設定一門檻,最後利用此門檻值判斷該語句的端點所在處 • 基於上述的參考值 • 利用對數能量尺度重刻法I 之對數轉換函數方式 • 對語句中之參考值作正規化 • 目的 • 強化參考值於語音片段與非語音片段的大小
語音端點偵測實驗設定 • 由於在AURORA 2.0 實驗語料庫標準設定中並沒有提供語音與非語音之音框標示,在此我們特別以人工目測法(Hand-Label,HL)幫AURORA 2.0中A組與B組之測試語料標示,以此為基準 • 正確率定義 • HR0(non-speech hit-rate)與HR1(speech hit-rate) • 門檻值 • 設定測試語句之前五個音框為噪音片段,取其平均參考值為門檻值
語音端點偵測實驗結果 • 比較尺度重刻法於語音端點偵測技術之應用
結論與未來展望 • 藉由觀察語句的語音對數能量特徵在不同雜訊環境下的變化,我們提出以三種技術來減低噪音的影響,有效地對付不同的環境雜訊干擾 • 雖然目前這些方法只適用於音框能量來處理,未來我們將嘗試利用此三種技術應用到不同的語音特徵植上。