500 likes | 699 Views
語音評分 Speech Evaluation. 學生:李俊毅 指導教授:張智星 2002/6/11. 大綱. 利用標準語音資料的評分 英文語音評分系統 Demo 利用 HMM 及音高資料的評分 唐詩語音評分系統 Demo 結論 未來展望. 概述. 利用標準語音資料的評分 利用 HMM 及音高資料的評分. 利用標準語音資料的評分-概述. 標準語音 測試語音. I can line up an interview with Tom Cruise. 我可以安排一場湯姆 ‧ 克魯斯的專訪. 利用 HMM 及音高資料的評分-概述. 測試語音.
E N D
語音評分Speech Evaluation 學生:李俊毅 指導教授:張智星 2002/6/11
大綱 • 利用標準語音資料的評分 • 英文語音評分系統Demo • 利用HMM及音高資料的評分 • 唐詩語音評分系統Demo • 結論 • 未來展望
概述 利用標準語音資料的評分 利用HMM及音高資料的評分
利用標準語音資料的評分-概述 • 標準語音 • 測試語音 I can line up an interview with Tom Cruise. 我可以安排一場湯姆‧克魯斯的專訪
利用HMM及音高資料的評分-概述 • 測試語音
利用標準語音資料的評分-系統流程 • 系統流程圖
系統流程圖-特徵擷取 • 特徵擷取
利用標準語音資料的評分-特徵參數 • 評分所採用的特徵 • 音量強度曲線 (Magnitude) • 基頻軌跡 (Pitch Contour) • 梅爾倒頻譜參數 (Mel-Frequency Cepstral Coefficients)
音量強度曲線(Magnitude) • 代表音量強弱變化趨勢 • 求取公式:
基頻軌跡曲線(Pitch Contour) • 代表音高變化趨勢 • 擷取流程
梅爾倒頻譜參數(MFCC) • 代表聲音的內容 • 擷取流程
語者正規化-VTLN • Vocal Tract Length Normalization • 原理 • 利用第三共振峰(F3)頻率較不易變動的特性,藉以調整測試語音的線性頻率尺度 • 正規化係數 定義為 • 參考語音平均F3值除以測試語音平均F3值 • 有了正規化係數之後就可以用下式來調整測試語音的頻率尺度:
梅爾倒頻譜參數(MFCC) • 代表聲音的內容 • 擷取流程
系統流程圖-特徵參數正規化 • 特徵參數正規化
特徵參數正規化 • 解決特徵參數長短不一的方法 • Interpolation • 解決麥克風差異的方法 • Linear Scaling • 解決個人音高差異的方法 • Linear Shifting • 解決通道效應的方法 • Cepstral Mean Subtraction
解決特徵參數長短不一-Interpolation • 一維內差法,將特徵參數的長度調成一樣
解決麥克風差異性- Linear Scaling • Linear Scaling • 假設不同麥克風對音量強度的影響存在一個倍數的關係 • 使用Least-squares estimator我們可以得知 • =>
解決個人音高差異性- Linear Shifting • Linear Shifting • 將兩段基頻軌跡的平均值調成一樣 • 公式:
解決通道效應的方法-CMS • Cepstral Mean Subtraction • 通道效應補償 • 公式:
系統流程圖-圖樣比對設計 • 圖樣比對設計
圖樣比對設計-音量強度曲線 • 音量強度曲線比對流程圖
圖樣比對設計-基頻軌跡 • 基頻軌跡比對流程圖
圖樣比對設計-梅爾倒頻譜參數 • 梅爾倒頻譜參數比對流程圖
d(i, j) d(i–2, j–1) d(i–1, j–1) d(i–1, j–2) 相似度比對:Dynamic Time Warping • 提供一個具有更大彈性的相似度比對法
系統流程圖-評分機制 • 評分機制
評分機制的設定-1 • 評分公式 • Ex. score=60,dist=6; score=90,dist=5 即可求得a,b
評分機制的設定-2 • 距離轉分數公式 • 音量強度曲線的距離 • 基頻軌跡的距離 • MFCC的距離
評分機制的設定-3 • 實驗 • 標準語音 • CNN互動英語10句 • 測試語音 • 實驗室同學錄音,總共320句
評分機制的設定-4 正確 錯誤 使用Simplex downhill search可找出不錯的 組合 經由實驗得到
利用HMM及音高資料的評分-系統流程 • 系統流程圖
利用HMM及音高資料的評分-特徵參數 • 評分所採用的特徵 • 聲音(HMM) • 梅爾倒頻譜參數(MFCC) • 聲調(音高) • Orthogonal Expansion的4個係數 • Chebyshev Polynomial Fitting的6個係數
語音訊號的切割 • Viterbi Decoding • 在已知語音訊號內容的情況下,解出最佳的語音訊號狀態序列 • Net 為這句語音訊號內容的所有可能音節排列 • 例如:黃河入海流 • Path 1: !NULL-黃-河-入-海-流-!NULL • Path 2: !NULL-黃-河-入-海-!NULL • Path 3: !NULL-黃-河-入-!NULL • Path 4: !NULL-入-海-流-!NULL • ….
語音訊號的切割-Viterbi Decoding示意圖 Viterbi Decoding -----------------------------------------------
利用HMM的評分 • HMM的評分方式 • 建立415個單音節的Net • !NULL-huaG-!NULL • !NULL-hr-!NULL • !NULL-Ru-!NULL • … • 對每個Net作Viterbi Search,找出每個Net的最大Log Probability • 對Log Probability排序
Log Probability分佈圖(一) 1.Log Probability越大,代表… 2.分佈斜率,代表… 415個音節
Log Probability分佈圖(二) 前10名個音節
評分機制 • 排名在201名之後者,評為20分 • 第1名到第200名依比率評分,區間為[100,20] 前200名的音節
評分機制示意圖 • 排名在201名之後者,評為20分 • 第1名到第200名依比率評分,區間為[100,20] 前200名的音節
利用HMM的評分~示意圖 • 示意圖 Viterbi Decoding ----------------------------------------------- Recognizer ------------------------------------------------------
利用音高資料的評分 • 音高資料的評分方式 • 對每個字求取Pitch Contour • 將Pitch Contour轉成特徵向量 • 比對Tone Models,判斷這個字是第幾聲的 • 以字為評分依據 • Ex.月落烏啼霜滿天 • 正確:4 4 1 2 1 3 1 • 結果:4 1 1 2 1 3 1 • O × O O O O O
利用音高資料的評分~示意圖 • 示意圖 Viterbi Decoding ----------------------------------------------- Tone Recognizer -----------------------------------------------
結論 • 利用標準語音資料的評分 • 音量強度曲線:8.5% • 基頻軌跡:16.7% • 梅爾倒頻譜參數:74.8% • 利用HMM及音高資料的評分 • HMM:聲音 • 音高:聲調
未來展望 • 運用語音評分於以下系統 • 利用標準語音資料的評分 • 語言學習系統 • 行動 KTV 評分系統 • 利用HMM及音高資料的評分 • 國語正音系統 • 語料收集系統 • 比較其它可能用來評分的特徵 • 尋找其它更合理的評分機制