500 likes | 782 Views
改善鑑別式聲學模型訓練於中文 連續語音辨識之研究. 中華民國九十六年六月二十二日. 指導教授 : 陳柏琳 博士 研究生 : 劉士弘. 大綱. 研究內容簡介 研究成果與貢獻 時間音框正確率函數 考慮事前機率 以熵値為基礎的資料選取方法 最小化音素錯誤訓練 非監督式聲學模型訓練 實驗結果 結論與未來展望. …. 統計式語音辨識基本架構圖. 語音訊號. 辨識結果. 特徵抽取. 聲學比對. 語言解碼. 信心度評估. 聲學模型. 語言模型. 最小化音素錯誤 (Minimum Phone Error, MPE) ( 鑑別式訓練 ).
E N D
改善鑑別式聲學模型訓練於中文連續語音辨識之研究改善鑑別式聲學模型訓練於中文連續語音辨識之研究 中華民國九十六年六月二十二日 指導教授: 陳柏琳 博士 研究生: 劉士弘
大綱 • 研究內容簡介 • 研究成果與貢獻 • 時間音框正確率函數 • 考慮事前機率 • 以熵値為基礎的資料選取方法 • 最小化音素錯誤訓練 • 非監督式聲學模型訓練 • 實驗結果 • 結論與未來展望
… 統計式語音辨識基本架構圖 語音訊號 辨識結果 特徵抽取 聲學比對 語言解碼 信心度評估 聲學模型 語言模型 最小化音素錯誤 (Minimum Phone Error, MPE) (鑑別式訓練) 聲學模型訓練 語言模型訓練 非監督式 聲學模型訓練
全面風險最小化於聲學模型之訓練 貝氏風險 Assume uniform [MMI 1996] Large vocabulary continuous speech recognition [ORCE 2000] [PLMBRDT 2003] [MPE 2002]
研究成果與貢獻 • 提出時間音框正確率函數 • 考慮訓練語句的事前機率 • 提出以熵値為基礎的資料選取方法 • 非監督鑑別式聲學模型訓練
ML [Baum et al. 1972] Small Vocabulary Speech Recognition(Phone Recognition) MMI [Bahl et al. 1986] MCE [Juang et al. 1992] ORCE [Na et al. 1995] LME [Jiang et al. 2005] SME [Li et al. 2006] Large Vocabulary Continuous Speech Recognition MMI [Valtchev et al. 1996] ORCE [Kaiser et al. 2000] MCE [Schluter et al. 2001] MPE [Povey et al. 2002] MBRDT [Doumpiotis et al. 2003] MFPE [Zheng et al. 2005] MD [Du et al. 2006] s-MBR [Gibson et al. 2006] MTFA[Liu et al. 2007] SME [Li et al. 2007] Data Selection 鑑別式聲學模型訓練之演進
師範 台灣 國立 吃飯 大學 排 彎 SIL SIL 吃飯 大學 鍋 大學 颱風 師範 粒 最小化音素錯誤訓練 • 目標函數 • 模型參數調整 • 因為HMM有潛藏變數(latent variable)的問題,故上式無法直接微分求極値來使模型參數最佳化 • 利用輔助函數來最佳化 詞圖
a c b 正確轉譯音素序列 b 辨識之音素 time -1+2/3=-1/3 -1+2/2=0 -1+2*(3/3)=1 b的音素正確率為取最大=1 原始音素正確率函數 為音素q與正確詞序列u中音素的重疊比例
輔助函數 • 強性輔助函數(Strong-sense Auxiliary Function) • 弱性輔助函數(Weak-sense Auxiliary Function) • 平滑函數(Smoothing Function)
最小化音素錯誤訓練 弱性輔助函數 強性輔助函數 加入平滑輔助函數 [Povey 2004]
模型參數之調整 • 同延伸波氏重估演算法:
正確轉譯音素 辨識之音素 0 5 10 15 20 25 30 MPE之原始音素正確率= 2 MTFA之時間音框音素正確率= 時間音框正確率函數 • 原始音素正確率沒有考慮刪除錯誤 • 時間音框正確率有給予刪除錯誤適當的懲罰
S型時間音框正確率函數 • 時間音框正確率函數的値域範圍為 到1 • 為了更充分地懲罰刪除錯誤,使用S型函數來平滑時間音框正確率函數之分子項 • 其値域範圍為-1到1
考慮事前機率 • 假設 布於一個給定的假設空間(hypothesis space) ,此假設空間通常以詞圖來表示 • 若訓練語句所對應的詞序列越長,則此句的事前機率會越小 • 使用時間音框長度來作正規化(Normalization)
以熵值為基礎的資料選取方法 • 為何要做鑑別式訓練 • 傳統最大化相似度無法再提高辨識率 • 為何要做資料選取 • 讓鑑別式訓練只專注在混淆的訓練樣本上 • 正規化熵值 • 每個時間音框視為一個訓練樣本
… Time Decision Boundary Entropy 1 0 Threshold Posterior Domain
Entropy 0 1 Threshold 以熵值為基礎的資料選取方法 Threshold Threshold Decision boundary
以熵值為基礎的資料選取方法 • 硬性選取(HS) • 軟性選取(SS) 1-> emphasized0-> de-emphasized relatively
非監督式聲學模型訓練 • 在大詞彙連續語音辨識(LVCSR)的架構中,訓練語料的量越多,對聲學模型的訓練會越有幫助 • 因為可以看到更多以前所沒有看過的語音特徵 • 在語料隨手可得的今天,我們卻沒有辦法很容易地提升自動語音辨識器的效能,因為通常我們所收集到的大量語料是不具有正確轉譯文字 • 這時便可以利用現有的自動語音辨識器去辨識大量未轉譯的語料,省去大量人工轉譯的力氣,以達成非監督式模型訓練
非監督式聲學模型訓練 • 非監督式最大化相似度聲學模型訓練 • 搭配信心度評估方法來過濾可能辨識錯誤的詞段 • 採用迭代方法 • 非監督鑑別式聲學模型訓練 • 搭配信心度評估 • 使用資料選取方法
國立 台灣 司法 大學 SIL SIL 辨識結果 0.5 1 0.9 1 1 0.85 司法 台灣 國立 吃飯 大學 排 彎 SIL SIL 吃飯 大學 果粒 鍋 大學 颱風 司法 粒 Time … … … … Data Selection 資料選取方法於非監督式訓練
實驗設定 • 實驗語料 (公視電視新聞語料MATBN) • 訓練語料 (24.5hrs): 外場記者男女各46,000s (12.25 hrs) • 測試語料 (1.45hrs): 外場記者男1300s,女:3900s • 大詞彙連續語音辨識 (72,000詞) • 詞彙樹複製搜尋: 使用雙連語言模型 • 詞圖搜尋: 使用三連語言模型 • 特徵抽取 • 39維MFCC+CN • 39維HLDA+MLLT+CN
時間音框正確率函數之實驗結果 給予刪除錯誤懲罰並不是要減少刪除錯誤,而是讓收集的統計值有考慮到刪除錯誤的影響。
S型時間音框正確率函數之實驗結果 Relative CER reduction=1.5% (10th iteration) 充分地給予刪除錯誤懲罰對辨識率有幫助
考慮事前機率之實驗結果 考慮事前機率確實對辨識率有影響,只是效果並不明顯。
資料選取方法之分析 ML10 HLDA+MLLT+CN 總共frame數=9183883 Threshold=0.25 資料量共使用 26.04% (2391697) Threshold=0.20 資料量共使用 29.74% (2731781) Threshold=0.15 資料量共使用 33.80% (3104470) Threshold=0.10 資料量共使用 38.77% (3561021) Threshold=0.05 資料量共使用 45.88% (4214360) Threshold=0.01 資料量共使用 58.21% (5346417)
資料選取方法之分析 1.收斂速度加快的猜想: 改變了控制收斂速度常數 但事實上在使用資料選取方法調整時,控制收斂速度的常數雖然變小,但其調整的響影力也隨著其分子分母項的統計值減少而變小 2.效果差不多的原因是遇到了過度訓練(Over-training)的問題, 因為資料量只用了全部的45.88%(Threshold=0.05)
資料選取方法之分析 Random(45.88%)25000 (74.79%)
資料選取方法於S型時間音框正確率函數 Soft selection
使用200句(11分鐘)語料來 訓練初始聲學模型 用目前訓練好的聲學模型去辨識34472句(24小時), 並且產生詞圖 使用前向-後向演算法求得每一個詞段的信心度, 並產生第一名詞序列 利用含信心度的第一名詞序列(34472句)及200句, 重新訓練目前的聲學模型(ML 10次) 迭代3次 用目前訓練好的聲學模型去辨識34472句(24小時), 並且產生詞圖 使用前向-後向演算法求得每一個詞段的信心度, 並產生第一名詞序列 使用鑑別式訓練(MPE),信心度評估 及資料選取方法來作聲學模型參數的調整 非監督式聲學模型訓練之流程
非監督最大化相似度訓練之實驗結果 第一次迭代 第二次迭代 第三次迭代
信心度值之分析 ML2_itr10 MFCC+CN 以每個詞段的事後機率來當成此詞段的信心度值,由上圖可知信心度評估不是很準,因為辨識率不高, (Acc=61.32% ML2)所以使用信心度評估幫助不大。
非監督鑑別式聲學模型訓練之實驗結果 因為沒有正確答案,所以使用資料選取方法雖然能找出混淆的樣本,但卻無法將混淆的樣本拉離決定邊界。
結論 • 時間音框正確率函數確實能增進辨識率 • 考慮事前機率確實對辨識率有幫助 • 資料選取方法能加快收斂速度
未來展望 • 未來可能嘗試使用音韻的資訊來估測語句的事前機率 • 將以正規化熵值為基礎的資料選取方法應用到其他的鑑別式訓練,如最小化分類錯誤(MCE)、最小化貝氏風險鑑別式訓練(MBRDT)等,以驗證此方法的一般性
謝謝 請口試委員指教
非監督訓練 第三次迭代