1 / 25

梅爾倒頻譜係數 (Mel-frequency cepstral coefficients)

梅爾倒頻譜係數 (Mel-frequency cepstral coefficients). 倒頻譜. 語音訊號可如下表示 :. 其中, X ( n ) 為語音訊號 θ ( n ) 為音源訊號 E ( n ) 為聲道的脈衝響應信號. 倒頻譜. 語音訊號之頻域表示方式 :. 倒頻譜. 對頻域的語音訊號加上絕對值與對數. 在對取完絕對值與對數的訊號,進行逆傅立葉轉換, 所對應的 c e ( n ) 會落在 n 值較大的地方,而 所對應的 c θ ( n ) 會存在 n 值較小處. 倒頻譜. 人類聽覺特性.

scot
Download Presentation

梅爾倒頻譜係數 (Mel-frequency cepstral coefficients)

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 梅爾倒頻譜係數(Mel-frequency cepstral coefficients)

  2. 倒頻譜 • 語音訊號可如下表示: 其中,X(n)為語音訊號 θ(n)為音源訊號 E(n)為聲道的脈衝響應信號

  3. 倒頻譜 • 語音訊號之頻域表示方式:

  4. 倒頻譜 • 對頻域的語音訊號加上絕對值與對數 • 在對取完絕對值與對數的訊號,進行逆傅立葉轉換, 所對應的ce(n)會落在n值較大的地方,而 所對應的cθ(n)會存在n值較小處

  5. 倒頻譜

  6. 人類聽覺特性 • 人類聽覺上的兩個重要特性―遮蔽效應、臨界頻帶 • 當某一頻率的聲音,有一特定音強存在,另一個不同頻率的聲音要將音強提高,才會被聽見,這就是遮蔽效應(Masking Effect) • 遮蔽效應有兩種現象,一名為頻率遮蔽(Frequency Masking),另一名為時間遮蔽(Temporal Masking)

  7. 人類聽覺特性 • 同時存在的聲音,常常是低頻的聲音傾向於遮蔽高頻的聲音

  8. 人類聽覺特性 • 聲音在聽覺器官中,傳遞時間延遲所造成的遮蔽現象,稱時間遮蔽

  9. 人類聽覺特性 • 當我們改變窄頻帶聲音刺激(narrowband sound stimulus)時,其聲音成分若跨越某一頻率,則聽覺上會感到有差異,而在一頻率範圍內,則感覺不到差異,這個頻率範圍稱臨界頻帶(Critical Band) • 在人類聽覺範圍內,可以分成24個臨界頻帶

  10. 梅爾倒頻譜 • 梅爾量度(Mel Scale),其公式如下: 或是

  11. 梅爾倒頻譜 梅爾量度的轉換曲線

  12. 梅爾倒頻譜 • 梅爾倒頻譜流程圖

  13. 梅爾倒頻譜 • 梅爾三角濾波器組

  14. 梅爾三角帶通濾波器 • 三角形之頻率 假設取樣頻率為22050Hz,四個三角帶通濾波器,則將有效頻率轉成感知頻率: 11025Hz→3176.32Hz 將感知頻率分成五個頻帶 3176.32/(4+1)=635.264

  15. 梅爾三角帶通濾波器

  16. 梅爾三角帶通濾波器 • 找出每個三角形之下限頻率、中心頻率與上限頻率 • 利用頻率解析度將頻率轉成點數 • 假設取樣頻率為22050Hz,快速傅立葉轉換後的點數為400點,則500Hz 約在傅立葉轉換後的第幾個點數? 頻率解析度=取樣頻率/轉換點數 頻率解析度: 22050/400=55.125Hz 500/55.125≈10 500Hz大約是傅立葉轉換後的第10個點數

  17. 梅爾三角帶通濾波器 • 利用三角公式製作出梅爾三角帶通濾波器 其中 為第j個三角形的下限頻率點數 為第j個三角形的中心頻率點數 為第j個三角形的上限頻率點數

  18. 梅爾三角帶通濾波器

  19. 梅爾倒頻譜 • 在Filtering步驟,先對頻域訊號進行平方運算以得到頻率能量 • 將頻率能量乘上梅爾三角濾波器組,並累加起來 其中J為濾波器的數量 為第j個濾波器

  20. 梅爾倒頻譜 • 執行DCT,其公式為: 其中,L為MFCC的維度

  21. 差量倒頻譜係數 • 差量倒頻譜係數(Delta Cepstrum Coefficients)的意義即在於倒頻譜參數對於時間的斜率,意即代表倒頻譜參數在時間上的動態變化 m=1,2,…,L

  22. 差量倒頻譜係數 • 舉例說明,M取1: Cm(t-τ) Cm(t) Cm(t+τ)

  23. 差量倒頻譜係數

More Related