280 likes | 658 Views
梅爾倒頻譜係數 (Mel-frequency cepstral coefficients). 倒頻譜. 語音訊號可如下表示 :. 其中, X ( n ) 為語音訊號 θ ( n ) 為音源訊號 E ( n ) 為聲道的脈衝響應信號. 倒頻譜. 語音訊號之頻域表示方式 :. 倒頻譜. 對頻域的語音訊號加上絕對值與對數. 在對取完絕對值與對數的訊號,進行逆傅立葉轉換, 所對應的 c e ( n ) 會落在 n 值較大的地方,而 所對應的 c θ ( n ) 會存在 n 值較小處. 倒頻譜. 人類聽覺特性.
E N D
倒頻譜 • 語音訊號可如下表示: 其中,X(n)為語音訊號 θ(n)為音源訊號 E(n)為聲道的脈衝響應信號
倒頻譜 • 語音訊號之頻域表示方式:
倒頻譜 • 對頻域的語音訊號加上絕對值與對數 • 在對取完絕對值與對數的訊號,進行逆傅立葉轉換, 所對應的ce(n)會落在n值較大的地方,而 所對應的cθ(n)會存在n值較小處
人類聽覺特性 • 人類聽覺上的兩個重要特性―遮蔽效應、臨界頻帶 • 當某一頻率的聲音,有一特定音強存在,另一個不同頻率的聲音要將音強提高,才會被聽見,這就是遮蔽效應(Masking Effect) • 遮蔽效應有兩種現象,一名為頻率遮蔽(Frequency Masking),另一名為時間遮蔽(Temporal Masking)
人類聽覺特性 • 同時存在的聲音,常常是低頻的聲音傾向於遮蔽高頻的聲音
人類聽覺特性 • 聲音在聽覺器官中,傳遞時間延遲所造成的遮蔽現象,稱時間遮蔽
人類聽覺特性 • 當我們改變窄頻帶聲音刺激(narrowband sound stimulus)時,其聲音成分若跨越某一頻率,則聽覺上會感到有差異,而在一頻率範圍內,則感覺不到差異,這個頻率範圍稱臨界頻帶(Critical Band) • 在人類聽覺範圍內,可以分成24個臨界頻帶
梅爾倒頻譜 • 梅爾量度(Mel Scale),其公式如下: 或是
梅爾倒頻譜 梅爾量度的轉換曲線
梅爾倒頻譜 • 梅爾倒頻譜流程圖
梅爾倒頻譜 • 梅爾三角濾波器組
梅爾三角帶通濾波器 • 三角形之頻率 假設取樣頻率為22050Hz,四個三角帶通濾波器,則將有效頻率轉成感知頻率: 11025Hz→3176.32Hz 將感知頻率分成五個頻帶 3176.32/(4+1)=635.264
梅爾三角帶通濾波器 • 找出每個三角形之下限頻率、中心頻率與上限頻率 • 利用頻率解析度將頻率轉成點數 • 假設取樣頻率為22050Hz,快速傅立葉轉換後的點數為400點,則500Hz 約在傅立葉轉換後的第幾個點數? 頻率解析度=取樣頻率/轉換點數 頻率解析度: 22050/400=55.125Hz 500/55.125≈10 500Hz大約是傅立葉轉換後的第10個點數
梅爾三角帶通濾波器 • 利用三角公式製作出梅爾三角帶通濾波器 其中 為第j個三角形的下限頻率點數 為第j個三角形的中心頻率點數 為第j個三角形的上限頻率點數
梅爾倒頻譜 • 在Filtering步驟,先對頻域訊號進行平方運算以得到頻率能量 • 將頻率能量乘上梅爾三角濾波器組,並累加起來 其中J為濾波器的數量 為第j個濾波器
梅爾倒頻譜 • 執行DCT,其公式為: 其中,L為MFCC的維度
差量倒頻譜係數 • 差量倒頻譜係數(Delta Cepstrum Coefficients)的意義即在於倒頻譜參數對於時間的斜率,意即代表倒頻譜參數在時間上的動態變化 m=1,2,…,L
差量倒頻譜係數 • 舉例說明,M取1: Cm(t-τ) Cm(t) Cm(t+τ)