130 likes | 304 Views
語音處理簡介. 語音處理簡介. 聲音 訊號 ( Audio Signals ): 泛指由人耳聽到的各種聲音的 訊號 聲音代表了空氣的密度隨時間的 變化, 是一個連續的 函數, 將聲音儲存到電腦時 ,必須先將訊號數位化,其中有幾個 參數需要考慮 : 取樣頻率( sample Rate ),常用 的取樣頻率 如下 : (1) 8 kHz (2) 16 KHz (3)22.05 KHz (4)44.1 KHz 取樣解析度( Bit Resolution ):每個聲音資料點所用的位元數,常用的數值 如下 : (1) 8-bit (2) 16-bit
E N D
語音處理簡介 • 聲音訊號(Audio Signals):泛指由人耳聽到的各種聲音的訊號 • 聲音代表了空氣的密度隨時間的變化,是一個連續的函數,將聲音儲存到電腦時,必須先將訊號數位化,其中有幾個參數需要考慮: • 取樣頻率(sample Rate),常用的取樣頻率如下:(1) 8 kHz (2) 16 KHz (3)22.05 KHz (4)44.1 KHz • 取樣解析度(Bit Resolution):每個聲音資料點所用的位元數,常用的數值如下: (1)8-bit (2)16-bit • 聲道:一般只分單聲道(Mono)或立體聲(Stereo),立體音即是雙聲道
辨識流程 預處理 特徵擷取 訓練 辨識 物種結果
預強調 • 為了補償語音在空氣傳送中,所衰減的高頻訊號,故將語音訊號 s(n)通過一個高通濾波器,其公式為: • 舉例來說,某一訊號前三個取樣值如下所示: 其中a為一個0.9 ~ 1.0之間的值,一般都取0.95 Value … Index x(0) x(1) x(2) …
預強調 • 經由預強調的值s為: • s(0): s(0) = x(0) = 1200 • s(1): • s(2): x(1)-0.95*x(0) = 1100-0.95*1200 = - 40 x(2)-0.95*x(1) = 1300-0.95*1100 = 255
音框化 • 在分析聲音時,通常以「短時距分析」(Short-term Analysis)為主,因為音訊在短時間內是相對穩定的。 • 一般音框長度範圍為10ms至40ms之間,且為防止前後音框變化劇烈,因此允許音框之間有重疊,重疊部分可以是音框長度的 1/2 到 2/3 不等 切音框示意圖
音框化 • 假設取樣頻率為16kHz,音框長度取25ms,音框重疊部分為15ms,則: 音框點數: 取樣點數(fs)*時間長度= 16kHz * 25ms =400點 音框重疊點數: 取樣點數(fs)*重疊時間長度= 16kHz * 15ms =240點 音框前進點數: 音框點數-音框重疊點數= 400-240 = 160點
音框化 • 一個長度1秒,取樣頻率16kHz的語音,總音框數為: 總音框數: (訊號總取樣點– 音框點數)/音框前進點數+1 (訊號總取樣點– 音框點數)/音框前進點數+1 =(16000-400)/160+1 =98.5 出現小數點,取無條件進入法,最終總音框數為99
音框示意 以上是音框示意圖, 音框點數(音框的長度): 4點 音框重疊部分:1/2 音框重疊點數:2點 總音框數:(16-4)/2+1=7
窗函數 • 為了消除視窗兩邊的訊號的不連續,通常會加上漢明窗(Hamming Window),其公式為: otherwise 其中 N為音框點數
窗函數 漢明窗 漢明窗頻率響應