1 / 36

音 聲 認 識 音 - sound : 소리 聲 voice : 목소리 speech : 말소리 speech / voice recognition

音 聲 認 識 音 - sound : 소리 聲 voice : 목소리 speech : 말소리 speech / voice recognition 音聲 : 振幅 으로 表現 된 1 次元 時系列 (time series) ※ 音聲情報 言語情報 : 音聲認識 話者情報 : 個人性 , 性別 , 年齡層 , 地域性 , 社會階層 , 性格 , 목소리의 아름다움 話者認識

leora
Download Presentation

音 聲 認 識 音 - sound : 소리 聲 voice : 목소리 speech : 말소리 speech / voice recognition

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 音 聲 認 識 音- sound : 소리 聲 voice : 목소리 speech : 말소리 speech / voice recognition 音聲 : 振幅으로 表現된 1次元 時系列 (time series) ※ 音聲情報 言語情報 : 音聲認識 話者情報 : 個人性, 性別, 年齡層, 地域性, 社會階層, 性格, 목소리의 아름다움 話者認識 發話狀況 : 感情, 情緖(心理狀態), 健康(生理狀態), 環境狀態(危險等) 거짓말 探知機 가장 自然스러운 情報交換手段 GUI VUI (voice user interface)

  2. 音 聲 認 識 ( 廣義 )cf) 音聲理解 音聲認識 ( 狹義 ) –話者別, 發聲方法別, 語彙數別 , 對象音質別 話者認識 ( speaker recognition ) –話者識別 ( speaker identification ) - 話者確認 ( speaker verification ) ASR의 技術的 要因 無 制 限: very large vocabulary / vocabulary independent clean speech : anechoic room (無響室) 低 騷 音: office / terminal room quality 注

  3. 出力 入力 NLP 文 章 文 字 音 聲音 聲 合成 認識 coding • 音聲認識 의 利點 • 便利함 : 訓練不要 ( 自然스러움 ) • 同時(竝列性) : 눈, 입을 귀와 同時에 使用可 • 運動의 自由 : 손, 발이 自由로움 • 高速性: 連續音聲은 typewriting의 4倍 • 信賴性의 向上 : 失手가 적음 • 應答特性의 向上 : 電話에 依한 remote input • 臨機入力可能: 突發狀況時 • 話者認識도 同時에 可能 : 保安 • 長期連續入力可能 • 經濟性: 入力經費, FA

  4. 音聲認識 ( ASR ) 의 應用分野 1. Command-and-control 制御 , robot, 各種機器 2. Data entry form filling 3. Data access 情報檢索 ( IR ), guide 4. Dictation phonetic typewriter, WP 5. Telephone use call center, ARS, phone banking (2003年 700 億弗市場 )

  5. Speech generation model source generation articulation radiation ( 音源生成 ) ( 調 音 ) ( 放 射 ) 聲帶 ,입술 調音器官 鼻孔 , 입술 聲道 (vocal tract) 咽頭 (pharynx) 口腔 (oral cavity) 鼻腔 (nasal cavity) 有聲音 (voiced) saw-tooth wave 無聲音(unvoiced) 破裂音源 (plosive source) 聲道特性 lV(f)l = lS(f)l lT(f)l lR(f)l spectrum 音源 의 周波數特性 放射特性

  6. voiced : vowels ( 母音 ), nasal consonant (鼻音) unvoiced : step (閉鎖音 ) : ㄱ,ㅋ,ㄲ plosive (破裂音 ) : ㅂ,ㅍ,ㅃ,ㄷ,ㅌ,ㄸ fricative (摩擦音 ) : ㅅ,ㅊ,ㅉ,ㅈ,ㅆ E pole : formant zero : antiformant 傳達函數 : ① H(z) = σ /A(z) all pole ( autoregressive model : AR model ) F1 F2 F3 f

  7. ② H(z) = σ B(z) all zero model (moving average : MA model) ③ H(z) = σ B(z)/A(z) pole-zero model [ ARMA(autoregressive, moving average) model ] all pole vowels ( 母音 ) pole-zero 鼻音, 摩擦音, 破裂音 white noise 閉鎖音 音 聲 通 信 system 傳 送 路 送 信 受 信 發聲器官 (聲道) •空氣 ,電話 聽覺器官 (귀) • helium • cockpit (heavy noise) modeling speech recognition robust speech recognition

  8. ※ modeling method ① terminal analogue model = acoustic model 音響 pulse generator vocal tract filter white noise generator vocal tract 의 transfer function 을 bandpass filter bank 로 近似 ② vocal tract analogue model = physiological model 生理學的 model vocal tract 自體를 acoustic tale 로 近似

  9. 성대 ℓ L L = σ ℓ/A • • A c c C= A ℓ/ σ C² 단, σ : 媒質의 密度 C : 光速 • • ℓ

  10. 前處理 및 特徵抽出 (分析) ① ③ ④ ⑤ pre-emphasis sampling quantization windowing ⑥ ② antialiasing filter feature extraction recognizer ① pre-emphasis analog filter : 6 dB/oct digital filter : 差分處理 high frequency 强調 ② o ~ w[Hz] 內 의 情報 로 制限時 ③ Fs >= 2W Nyguist’s sampling theorem aliasing 歪曲 을 막기 위해 cutoff freg. W의 filter 必要 ③ A/D conversion ( 變換 ) ④ 10 kHz 12 bits ( 一般音聲 ) 8 ~ 10 kHz 10 ~ 12 bits ( 電話音聲 ) 16 ~ 20 kHz 12 ~ 14 bits ( 高品質音聲 )quantization error 는 不可避

  11. frame 間切斷에 依한 spectraldistortion을 最小化 • => Hamming window • Wn = 0.54 - 0.46 cos[2∏ r / (N-1)] n=0,1,∙∙∙∙∙∙∙∙∙∙∙,N-1 • Hamming window, rectangular window ⑥ 特徵抽出 (音聲分析 ) 時間領域 (time domain) ZCR(zero crossing rate), energy, autocorrelation, 短時間內 平均振幅 周波數領域(frequency domain) formant frequency, spectrum, cepstrum ※ 分析目的 ① 音源의 種類 ( 有性 / 無性 ), pitch ② 聲道(system)의 特性 formant, antiformant 周波數 및 帶域幅

  12. 音源情報의 分析 • 有無聲分析 (voiced-unvoiced analysis) • - ZCR, energy, pitch 有無, 高周波性分 • pitch 分析= 基本周波數 (fundamental freq) • - pitch : accent(强勢), intonation(抑揚), 自然스러움, 情緖 , 感情을 表現 • cf. formant : 言語情報 • - tonal language : pitch 自体가 言語情報(accent, intonation) • - 男性 100 ~ 150 Hz • 어린이 • 女性 250 ~ 300 Hz ※ pitch 抽出의 어려움 1. pitch 의 變化範圍가 넓다 2. 聲道의 傳達特性과 完全히 分離할 수 없다 3. 周期가 時間的으로 變化하며, 生理現象 固有의 흔들림(fluctuation)이 있다 4. 振幅이 작은 音聲의 有無聲區別이 어렵다

  13. ㉮ cepstral analysis speech signal FFT log l l IFFT cepstral window power spectrum low pass filter FFT time window spectral envelop peak detection pitch period high pass filter formant 近接 high pitch FFT : fast Fourier transform pitch [dB] power fe T t (freq) (quef) W < spectrum > < cepstrum > 1964 Noll(Bell Lab)

  14. ㉯ 相關法에 依한 pitch 抽出 1. 直接相關 ( 自己相關 ) 2. center-clipping 後의 相關係數 3. 零交叉波分析後 相關 < 計算範圍 縮小可能 > ㉰ 線形豫測法에 依한 pitch 抽出 LPC(linear predictive coding) 殘差信號 ( residual signal) 의 相關係數 LPC 參照 ㉱ 氣管前壁 microphone 에 依한 測定 聲帶振動을 直接測定하여 音源情報 抽出 聲道特性의 影響 적음

  15. (2) 聲道特性 抽出 ㉮ bandpass filter bank에 依한 spectral analysis [dB] analog & digital filters 全体的으로 flat 한 特性 實時間 處理에 適合 f ㉯ Fourier spectral analysis S(f) = ∫ s(t)e dt <definition > (FT) S(f) = ∫ s(t)e dt A = ∑ X exp(-2∏jrk/N) r = 0,1, N-1 ( DFT ) time domain frequency domain power spectrum formant structure ∞ -iwt -∞ s(t) T -iwt 0 N-1 r K K=0 X 0 T K N-1 0 f

  16. FFT(fast Fourier transform) 1965 Corley & Tukey (Bell Lab) 짝수번 sample 과 홀수번 sample 로 부터 Ar(前半N/2) 과 Ar + N/2 (後半N/2 個의 係數)가 求 해짐 이 過程을 反復 N = 2 인境遇 마지막에 2 sample間의 DFT로 歸着 n DFT FFT 2 N 個의 複素乘算 N 個의 複素加算 N log N 個의 複素乘算 N log N 個의 複素加算 2 2 +) +) 2 2 2N 個의 演算 2N log N 個의 演算 2 2 2N log N/2N = log N/N 의 演算數 減少 2 2 Decimation – in – time Decimation – in – frequency 多數 의 FFT algorithm

  17. ㉰ analysis-by-synthesis ( A-b-B ) K.N.Stevens ( MIT ) 入力音聲과 合成出力의 spectrum matching 에 의한 合成 model parameter 推定方法 Formant 抽出 accuracy F : ± 10Hz F : ± 20Hz 1 2 ㉱ 線形豫測法 ( LPC ) [ 한 pitch 內에서는 過去의 sample 로 부터 現在의 標本値를 豫測可能하다 ] X = -( α x + α x + + α x ) ∧ (n) (n) (n) 1 t-1 2 t-2 n t-n 線形豫測法( LPC : linear prediction coefficient ) { α } ( i = 1,2, n ) (n) i x t-n x x t-1 t t t-n t

  18. 豫測誤差 ( predietion error ) ∧ ε = x - X = x + (α x + + α x ) t t-1 t-n t t t 1 n n = ∑ α x ( 단 : α = 1 ) 0 t-1 1 i = 0 ε이 自乘平均値 ( mean squared error )를 最小로 minimum mean squared error t 2 ∧ 2 Min [ E(ε ) ] = min [ E {(X - X ) } ] t t t α α i i n 2 (n) = min [ E ( ∑ α x ) ] i t-i α i = 0 i ∂ n 2 n E{( ∑ α X )} = E ( 2 ∑ α X X ) ∂α i t-i i t-i t - j i = 0 i i = 0 ρ = ρ = ρ If{x } Is stationary n i j in = 2 ∑ α E( X X ) ρ ρ ρ α α α ρ ρ ρ ρ ρ ρ ρ ρ ρ 01 i n-i t - j 01 n1 11 21 i = 0 02 02 22 n2 12 ㅣi-jㅣ n = - = 2 ∑ α ρ = 0 i j i i = 0 i 1n 2n nn 0n 0n 1 N-1 ρ = ∑ x x 相關係數 Yule-Walker equation N i j t - j t - i t=0

  19. 觀測波形으로 부터 'α 係數'를 直接 求할 수 있다 1967 Atal & Sehraeder (Bell Lab) 1966/69 Itakura & Saito (NTT) Maximum likelihood estimation ( all pole model transfer function 을 直接 풀어 根을 求함 ) ① εt의 波形 : residual signal 相關係數 의 peak 値 : pitch ② PARCOR ( partial auto correlation coefficients ) x 와 x 사이의 M개의 sample forward prediction 과 backward prediction 後 에 x 와 x 의 部分相關係數計算 T-(M+1) t t T-(M+1)

  20. 次數에 無關한 安定된 parameter ㅣ k ㅣ <= 1 handware 化 에 通合 i PARCOR, k-parameter, PAC, 反射係數 ( reflection coefficient ) ※ Kelly (Bell Lab) 의 確定結果와 等價! LPC 系 合成器에 利用 ( H/W & S/W ) LSP ( line spectrum pair ) 線 spectrum 雙 formant 의 peak 를 安定되게 表現 周波數의 雙 (pair )

  21. ASR의 불휘 (歷史) • 1940 sonagraph (spectrograph) : visible speech voice print (聲紋) Potter (Bell Lab) • 1952 Audry ( automatic digits recognizer ) BPF F 1 BPF F 2 F - F diagram ( H/w ) 2 1 Davis (Bell Lab) • 1960 年代computer 의 實用期 A-b-S , LPC , cepstrum , DTW • 1970 年代 實用機出現 ( LPC + DTW ) (Threshold Tech, NEC DP-100, ) DARPA : Speech Understanding Project ( 1971 ~ 1976 )

  22. • 1980 年代 後半 1986 L.R. Rabiner etc (Bell Lab) HMM 을 適用 • 1990 年代 HMM 을 主軸으로 한 ‘人海戰術 ’ •“새 즈믄 해 “ 開花期 (商用化) ? breakthrough 는 ?

  23. 音聲認識의 難点(問題) 1. 音素環境 調音結合(coarticulation)의 影響을 어떻게 正規化/除去 할 것인가? 2. 個人差 話者間 變異를 正規化/吸收하는 方法 3. 使用環境 雜音等에 依 한 segmentation의 어려움 robust speech recognition 4. 時間性 持續時間差 DTW ., HMM 經時性 話者認識의 例 6週 ID -8% 3個月 V -10% ID -23% 定期的인 update 機能 必要

  24. 時間軸의 整合(非線形) DP( dynamic programming)을 利用 DTW(dynamic time warping) LP(linear programming) vs DP Richard Ballman(1957) aJ Ck =(I,J) reference pattern A aj warping function F Ck =(i,j) a1 C1=(1,1) x1 input pattern xi xI x F = c(1), c(2), ••• , c(k) g(c(k)) = min g(c(k-1)) + d(c(k))•W(k) g(i, j-1) + d(i, j) g(i-1, j-1) + 2d(i, j) g(i-1, j) + d(i, j) g(1,1) = 2d(1, 1) g(I,j) = min 初期値 1 1 1 matching path 2 2 1 2 1 1 1 2

  25. 1971 Sakoe & Chiba (NTT) • 1970 Velichko (Russia) • Vintsyuk (Russia) • •單語認識에 特히 有用 • •多語彙時 “認識時間” • 多樣한 algorithm이 提示됨. • 모든 可能한 path의 計算後 • backtracking 必要 (本來) • cf. level building

  26. •區分單語認識 isolated word recognition •連結單語認識 connected words recognition •核心語檢出 keyword spotting 連續 / 對話音聲對象의 單語認識 •連續音聲認識 continue speech recognition 文法的으로 正確히 記述된 文章 •對話音聲認識 dialogue / spontaneous speech recognition 自由發話音聲 / 對話音聲認識 人間과 computer의 自然스러운 對話!! 音聲合成(text-to-speech : TTS) 對話管理 system(文章生成)

  27. 技術的要因에 依한 音聲認識의 分類 形態 要因 語彙數 話者數 話者의 發聲形態 言語別 環境 domain 協力度 情報의 使用 限定 10~300 特定 協調的 區分單語 - - 部分的使用 單語認識 (學習可) 限定連續 30~500 ““連續音聲 特定蓂曆 조용한 房 “ 音聲認識 語/文法 限定連續 100~2,000 特定 普通 “ 自然言語的 - 全面的使用 音聲理解 限定連續 1,000~10,000 特定 協調的 ““ 조용한 房 部分的使用 音聲 dictator * 連續 無制限 “ 普通 “ 自然言語 - 全面的使用 音聲理解 (數萬以上) * 連續 無制限 ““““ 조용한 房 不使用 音聲認識 (數萬以上) *無制限 / very large vocabulary continuous speech recognition / understanding (VLVCSR / VLVCSU)

  28. ◎ 確率的(stochastic)modeling 不確實性의 modeling =>HMM (Hidden Markov model) 隱匿(은닉)Markov model state 入 = (A, B, ㅠ) A = {aij} 狀態遷移確率分布 aij = P{gt = sj l gtt = si} B = [bjk} 觀測(observed) symbol 確率分布 bjk = P{vk at t l gj at t} vk : 出力 ㅠ = {ㅠi} 初期狀態分布 ㅠi= P{gi at t=9}

  29. 1 2 3 N 1 2 ••• 1 2 ••• 1 2 ••• ••• target parameter sequence “패”“턴” •feature parameter •方向 code 어떤 symbol을 몇種類로? VQ (vector quantization) 觀測된 pattern training data의 重要性 : ‘잘分散된 多量의 DB’ HTK(HMM tool kit) public S/W(free) Cambridge University

  30. xn ※ vector quantization (VQ : vector量子化) LBG algorithm Vector digital sequence (scalar) mapping xn digital channel decoder encoder ∧ Un Un channel symbol source reproduction code word 000 001 y1 yi yn •• • • • • xi b(i) parameter ••• code vector / pattern b(i) M : codebook sige codebook data reduction / compression waveform coding (cf) scalar quantization code vector의 選擇 一致 / 充實度 (fidelity)의 評價尺度 : distortionmeasure LBG algorithm K-means “

  31. dendrite 樹狀突起 synapse axon 軸索突起 體細胞 neuron soma soma ※ 神經回路網 ANN (artificial neural network) neuron j 에서의 處理 xi x1 x2 X3 X4 x5 W1j W2j W3j W4j WNj thresholding 0 1 xj ∑ f( ) ••• •• TH=Qj synapse ••• N xj = f[(∑ wkjxi)-Qj] i=1 1 1 1 f step function hard-limit func. sigmoid function.

  32. 1943 McCullock & Pitts 1962 Rosenblatt : perceptron 1970末 複雜한 判別函數 構成可能 (非線形) •MLP (multilayer perceptron) class 1 2 N output layer hidden layer Input layer input data •TDNN (time delay neural network) 時間的으로 遲延된 data를 入力 時間的 變化를 效果的으로 抽出 • SOFM (self-organiging feature map) 連續音聲認識에는 不適切 hybrid system

  33. •單語認識 system - 特徵 ① 區分發聲 segmentation의 難点廻避 (單語間의 調音結合 廻避) (例)數字音, 地名, 年月日, 時間 ••• ② 話者別 標準 pattern 設定 個人差의 正規化 廻避 (speaker normalization) 1 speaker adaptive system 2 speaker independent system - 話者에 不變인 robust feature 使用 - 話者에 依한 音聲變動을 正規化 - 多數話者 data에서 抽出한 平均 parameter使用 - 多數 data에 依한 統計 parameter(確率 modeling)로 訓練(training)

  34. ③ 單語單位로 認識 小語彙時 -> 單語音聲 自體를 標準 pattern으로 使用 多語彙時 -> 音素, vc/vcv chain 等 subword 單位認識이 不可避 (cf : HMM / DTW : 單語單位) 語彙獨立 HMM : 大語彙時 ④ 時間差 正規化 DTW 使用 : 小•中規模語彙時 實用化 / 商用化 의 條件 1 雜音 1. 背景雜音 : 50~90 dB 程度 headworn type close microphone 使用 • channel noise : internet, 電話, (有線 mobile) 2. 呼吸音 : 날숨(呼氣) : 音聲의 周波數帶域과 겹침 3. 不注意에 依한 未知音聲 不注意한 재채기, 헛기침 OOV (out of vocabulary) 고쳐말하기

  35. 2 人間工學的 配慮 1. 操作性 本來의 業務에 障碍 가 없도록 하고, barge-in 機能 等. 2.對話性 視角的 / 聽覺的 feedback 必要 例 : ready signal 3. 認識率 人間의 信賴感 과 直結 雜音下에서 98%以上 4. 安定性 時間的으로 安定된 認識率 定期的인 update 等 必要 5. 柔軟性 語彙 / 標準pattern 追加 / 變更

  36. DARPA SUS project의 成果 1971. 11 ~ 1976. 11(1,500万弗) Carnegie-Mellon Univ.(CMU) BBN(Bolt Berenak & Newmen) SDC(System development corporatism) + SRI CMU : Hearsay-Ⅱ , Harpy. BBN : Speechlis, HWIM SDC + SRI : VDMS 項目 目標(guideline) 成果(Harpy) 發聲 連續音聲 連續發聲 話者 不特定多數 5人(男3, 女2) 話者態度 協力的 協力的 環境 조용한 室內 computer terminal room 入力裝置 high quality microphone close microphone 調整 話者마다 微調整可 訓練用 20文章 / 話者 語彙 1,000單語 1,011單語 構文 人工的構文 perplexity 33 task 限定 文獻檢索 error率 意味error率 10%以下 5% 時間 實時間의 數倍 實時間의 80倍 computer 10MIPS機 4MIPS(PDP-KA10) $5 / 文章

More Related