1 / 50

語音評分 Speech Evaluation

語音評分 Speech Evaluation. 學生:李俊毅 指導教授:張智星 2002/6/11. 大綱. 利用標準語音資料的評分 英文語音評分系統 Demo 利用 HMM 及音高資料的評分 唐詩語音評分系統 Demo 結論 未來展望. 概述. 利用標準語音資料的評分 利用 HMM 及音高資料的評分. 利用標準語音資料的評分-概述. 標準語音 測試語音. I can line up an interview with Tom Cruise. 我可以安排一場湯姆 ‧ 克魯斯的專訪. 利用 HMM 及音高資料的評分-概述. 測試語音.

sen
Download Presentation

語音評分 Speech Evaluation

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 語音評分Speech Evaluation 學生:李俊毅 指導教授:張智星 2002/6/11

  2. 大綱 • 利用標準語音資料的評分 • 英文語音評分系統Demo • 利用HMM及音高資料的評分 • 唐詩語音評分系統Demo • 結論 • 未來展望

  3. 概述 利用標準語音資料的評分 利用HMM及音高資料的評分

  4. 利用標準語音資料的評分-概述 • 標準語音 • 測試語音 I can line up an interview with Tom Cruise. 我可以安排一場湯姆‧克魯斯的專訪

  5. 利用HMM及音高資料的評分-概述 • 測試語音

  6. Part 1 利用標準語音資料的評分

  7. 利用標準語音資料的評分-系統流程 • 系統流程圖

  8. 系統流程圖-特徵擷取 • 特徵擷取

  9. 利用標準語音資料的評分-特徵參數 • 評分所採用的特徵 • 音量強度曲線 (Magnitude) • 基頻軌跡 (Pitch Contour) • 梅爾倒頻譜參數 (Mel-Frequency Cepstral Coefficients)

  10. 音量強度曲線(Magnitude)示意圖

  11. 音量強度曲線(Magnitude) • 代表音量強弱變化趨勢 • 求取公式:

  12. 基頻軌跡曲線(Pitch Contour)示意圖

  13. 基頻軌跡曲線(Pitch Contour) • 代表音高變化趨勢 • 擷取流程

  14. 梅爾倒頻譜參數(MFCC) • 代表聲音的內容 • 擷取流程

  15. 語者正規化-VTLN • Vocal Tract Length Normalization • 原理 • 利用第三共振峰(F3)頻率較不易變動的特性,藉以調整測試語音的線性頻率尺度 • 正規化係數 定義為 • 參考語音平均F3值除以測試語音平均F3值 • 有了正規化係數之後就可以用下式來調整測試語音的頻率尺度:

  16. 梅爾倒頻譜參數(MFCC) • 代表聲音的內容 • 擷取流程

  17. 系統流程圖-特徵參數正規化 • 特徵參數正規化

  18. 特徵參數正規化 • 解決特徵參數長短不一的方法 • Interpolation • 解決麥克風差異的方法 • Linear Scaling • 解決個人音高差異的方法 • Linear Shifting • 解決通道效應的方法 • Cepstral Mean Subtraction

  19. 解決特徵參數長短不一-Interpolation • 一維內差法,將特徵參數的長度調成一樣

  20. 解決麥克風差異性- Linear Scaling • Linear Scaling • 假設不同麥克風對音量強度的影響存在一個倍數的關係 • 使用Least-squares estimator我們可以得知 • =>

  21. 解決個人音高差異性- Linear Shifting • Linear Shifting • 將兩段基頻軌跡的平均值調成一樣 • 公式:

  22. 解決通道效應的方法-CMS • Cepstral Mean Subtraction • 通道效應補償 • 公式:

  23. 系統流程圖-圖樣比對設計 • 圖樣比對設計

  24. 圖樣比對設計-音量強度曲線 • 音量強度曲線比對流程圖

  25. 圖樣比對設計-基頻軌跡 • 基頻軌跡比對流程圖

  26. 圖樣比對設計-梅爾倒頻譜參數 • 梅爾倒頻譜參數比對流程圖

  27. d(i, j) d(i–2, j–1) d(i–1, j–1) d(i–1, j–2) 相似度比對:Dynamic Time Warping • 提供一個具有更大彈性的相似度比對法

  28. DTW例子-基頻軌跡

  29. 系統流程圖-評分機制 • 評分機制

  30. 評分機制的設定-1 • 評分公式 • Ex. score=60,dist=6; score=90,dist=5 即可求得a,b

  31. 評分機制的設定-2 • 距離轉分數公式 • 音量強度曲線的距離 • 基頻軌跡的距離 • MFCC的距離

  32. 評分機制的設定-3 • 實驗 • 標準語音 • CNN互動英語10句 • 測試語音 • 實驗室同學錄音,總共320句

  33. 評分機制的設定-4 正確                 錯誤 使用Simplex downhill search可找出不錯的             組合 經由實驗得到

  34. 英文語音評分系統Demo

  35. Part 2 利用HMM及音高資料的評分

  36. 利用HMM及音高資料的評分-系統流程 • 系統流程圖

  37. 利用HMM及音高資料的評分-特徵參數 • 評分所採用的特徵 • 聲音(HMM) • 梅爾倒頻譜參數(MFCC) • 聲調(音高) • Orthogonal Expansion的4個係數 • Chebyshev Polynomial Fitting的6個係數

  38. 語音訊號的切割 • Viterbi Decoding • 在已知語音訊號內容的情況下,解出最佳的語音訊號狀態序列 • Net 為這句語音訊號內容的所有可能音節排列 • 例如:黃河入海流 • Path 1: !NULL-黃-河-入-海-流-!NULL • Path 2: !NULL-黃-河-入-海-!NULL • Path 3: !NULL-黃-河-入-!NULL • Path 4: !NULL-入-海-流-!NULL • ….

  39. 語音訊號的切割-Viterbi Decoding示意圖 Viterbi Decoding -----------------------------------------------

  40. 利用HMM的評分 • HMM的評分方式 • 建立415個單音節的Net • !NULL-huaG-!NULL • !NULL-hr-!NULL • !NULL-Ru-!NULL • … • 對每個Net作Viterbi Search,找出每個Net的最大Log Probability • 對Log Probability排序

  41. Log Probability分佈圖(一) 1.Log Probability越大,代表… 2.分佈斜率,代表… 415個音節

  42. Log Probability分佈圖(二) 前10名個音節

  43. 評分機制 • 排名在201名之後者,評為20分 • 第1名到第200名依比率評分,區間為[100,20] 前200名的音節

  44. 評分機制示意圖 • 排名在201名之後者,評為20分 • 第1名到第200名依比率評分,區間為[100,20] 前200名的音節

  45. 利用HMM的評分~示意圖 • 示意圖 Viterbi Decoding ----------------------------------------------- Recognizer ------------------------------------------------------

  46. 利用音高資料的評分 • 音高資料的評分方式 • 對每個字求取Pitch Contour • 將Pitch Contour轉成特徵向量 • 比對Tone Models,判斷這個字是第幾聲的 • 以字為評分依據 • Ex.月落烏啼霜滿天 • 正確:4 4 1 2 1 3 1 • 結果:4 1 1 2 1 3 1 • O × O O O O O

  47. 利用音高資料的評分~示意圖 • 示意圖 Viterbi Decoding ----------------------------------------------- Tone Recognizer -----------------------------------------------

  48. 唐詩語音評分系統Demo

  49. 結論 • 利用標準語音資料的評分 • 音量強度曲線:8.5% • 基頻軌跡:16.7% • 梅爾倒頻譜參數:74.8% • 利用HMM及音高資料的評分 • HMM:聲音 • 音高:聲調

  50. 未來展望 • 運用語音評分於以下系統 • 利用標準語音資料的評分 • 語言學習系統 • 行動 KTV 評分系統 • 利用HMM及音高資料的評分 • 國語正音系統 • 語料收集系統 • 比較其它可能用來評分的特徵 • 尋找其它更合理的評分機制

More Related