280 likes | 423 Views
狭帯域包絡線間相関を用いた 話者識別における帯域と識別率の検討 小橋川美共,末廣一美,髙岡創,高山泰典(日本文理大学) 西村一行(千葉工業大学 ),福島学,岡本壽夫(日本文理大学) 柳川博文(千葉工業大学 ). 狭帯域包絡線間相関を用いた話者識別. amp.(dB). 1. 0.5. 0. -0.5. -1. 20. 40. 60. 80. 100. 120. amp.(dB). 1. 0.5. 0. -0.5. -1. 20. 40. 60. 80. 100. 120. amp.(dB). 1. 0.5. 0. -0.5.
E N D
狭帯域包絡線間相関を用いた話者識別における帯域と識別率の検討狭帯域包絡線間相関を用いた話者識別における帯域と識別率の検討 小橋川美共,末廣一美,髙岡創,高山泰典(日本文理大学) 西村一行(千葉工業大学 ),福島学,岡本壽夫(日本文理大学) 柳川博文(千葉工業大学 )
狭帯域包絡線間相関を用いた話者識別 amp.(dB) 1 0.5 0 -0.5 -1 20 40 60 80 100 120 amp.(dB) 1 0.5 0 -0.5 -1 20 40 60 80 100 120 amp.(dB) 1 0.5 0 -0.5 -1 20 40 60 80 100 120 time (ms)
0.04 0.02 0 amplitude -0.02 -0.04 0 0.2 0.4 0.6 0.8 1 0.04 0.02 amplitude 0 -0.02 -0.04 0 0.2 0.4 0.6 0.8 1 0 s s s s s s time ( time ( time ( time ( time ( time ( ) ) ) ) ) ) -10 amplitude(dB) -20 -30 0 0.2 0.4 0.6 0.8 1 処理の流れ 1/4 Oct.分割した音声時間波形 b : 39バンド28.9Hz~20749Hz 0.04 0.02 0 -0.02 -0.04 0 0.2 0.4 0.6 0.8 1 ヒルベルト変換して求めた包絡線 0.04 0.02 0 -0.02 -0.04 0 0.2 0.4 0.6 0.8 1 dB変換(-30dBで打ち切り) 0 -10 -20 -30 0 0.2 0.4 0.6 0.8 1 狭帯域包絡線間相関係数
狭帯域包絡線間相関係数行列 識別候補: の最大値 帯域を制限↓正解率の変化を調べる DB 識別対象 正解率=識別候補が本人となった回数/識別条件数
登録語と識別語の音素分布 11 27 11 11 33 68 V:Vowel 母音 N:Nasal 鼻音 Fl:Fricative voiceless 摩擦音(無声) Fv:Fricative voiced 摩擦音(有声) Sl:Stop voiceless 閉鎖音(無声) Sv:Stop voiced 閉鎖音(有声) Ca:Central approximant 中央近接音 Q:Geminate consonant 促音 -:Long vowel 長音 11 0 11 11 0 0 22 11 11 11 0 1 108 8 3 10 5 0 27 0 11 15 10 a 77 0 0 11 0 11 0 0 8 22 10 12 8 0 9 9 0 0 3 3 i 22 22 0 0 22 0 0 31 19 35 2 1 17 11 0 8 Vowel u 11 11 0 011 11 11 20 0 8 e 11 0 0 11 0 19 21 0 11 0 11 9 0 11 0 0 14 26 9 2 o g gy V n ny m my s sh h hy z j k ky t ts p py ch d dy b by ry y r w Q - f N’ N Sl Fl Sv Ca Fv Consonant +:登録語(個数は上段の数) ×:識別語(個数は下段の数) 分布に偏りがない
帯域増加と平均正解率 1 14 0.9 0.8 0.7 0.6 31 C 0.5 6 22 0.4 0.3 0.2 0.1 0 2 5 10 15 20 25 30 35 39 Stop band number 重要帯域:帯域番号6~14,22~31
帯域減少と平均正解率 1 0.9 0.8 0.7 0.6 6 C 0.5 14 0.4 22 31 0.3 0.2 0.1 0 1 5 10 15 20 25 30 35 38 Starting band number 重要帯域:帯域番号6~14,22~
帯域増加と帯域減少の平均正解率 帯域増加 帯域減少 変化した点が同じ 重要帯域:帯域番号6~14,22~31
全39帯域を使用した正解率の比較 平均正解率 fs 範囲 band 数 100 90 80 70 60 % 50 40 30 20 10 0 22-31 1-39 6-31 6-14 band number 86% 88% 83% fs 範囲 100% 25% 21% band数 100% 67% 49%
結果の検討(高い周波数範囲の検討) 帯域番号22~31(1091Hz~5187Hz) 4.0 3.8 3.4 3.0 /i/ 2.5 /e/ 2.2 2.0 1.8 The second formant F 2 (kHz) /a/ 1.5 1.4 第2フォルマント周波数の1091Hz~4000Hz(帯域番号22~30) /u/ 1.0 0.8 /o/ 0.6 0.2 0.5 1.0 1.4 The first formant F 1 (kHz)
結果の検討(高い周波数範囲の検討) 帯域番号22~31(1091Hz~5187Hz) 高い周波数範囲 副鼻腔共振周波数約3100Hz~5400Hz(帯域番号28~31) 前頭洞約8cm3 上顎洞 低い周波数範囲(6~14) 蝶形骨洞 声帯音源基本周波数男性:約100Hz~150Hz女性:約250Hz~300Hz (帯域番号6~14) 副鼻腔共振周波数・声帯音源基本周波数
Band No. + 1-39 × 6-31 □ 6-14 22-31 データによるばらつきの検討 1 0.95 88%86%83% 0.9 0.85 0.8 CA 0.75 0.7 0.65 0.6 0.55 0.5 A E K M N SA SB SC TA TB Y All Talker 識別語に共通性
ne to s a fi n' 0 -5 amplitude (dB) -10 -15 0 0.2 0.4 0.6 0.8 1 time( ) s 正解率が高い識別語(ネットサーフィン:上段) mi to ko mo n' 0 -5 amplitude (dB) -10 -15 0 0.2 0.4 0.6 0.8 1 s time( ) 正解率が低い識別語(水戸黄門:下段) 鼻音の継続時間
まとめ 声帯音源基本周波数 約100~300Hz帯域番号6~14 第2フォルマント周波数・副鼻腔共振周波数 約1100Hz~5400Hz帯域番号22~31 正解率のばらつき鼻音の継続時間に関連 周波数範囲で21%,帯域数で49%に制限
1/4オクターブバンド狭帯域フィルタ 0 -5 -10 -15 amplitude (dB) -20 -25 -30 -35 -40 2 3 4 10 10 10 Freq. (Hz) 狭帯域フィルタ:FIRフィルタ長さ:2048サンプル :44100Hz 周波数分解:21.5Hzフィルタ長:約46ms音声の狭帯域包絡線を100msで区切る ⇒声帯音源波 約4周期が対象
話者を識別するシステムに用いた登録語・識別語話者を識別するシステムに用いた登録語・識別語 識別語:登録語と異なる語1)松坂大輔 (matsuzaka daisuke)2)メール機能 (me-ru kinou)3)目から鱗 (mekara uroko)4)水戸黄門 (mito koumo n‘)5)モーニング娘 (mo-ni n’gu musume)6)中山きんにくん (nakayama kin‘niku n’)7)ネットサーフィン (netto sa-fi n‘)8)猫死んじゃった (neko shi n’jatta)9)猫踏んじゃった (neko fu n‘jatta)10)日本沈没 (niho n’ chi n‘botsu)11)忍たま乱太郎 (ni n’tama ra n‘tarou)12)ノストラダムス (nosutora damusu)13)のんびり屋 (no n’biriya)14)上田晋也 (ueda shi n‘ya)1語/約1秒1人/約8語 計82語(登録者により異なる) 登録語1)青い空 (aoisora)2)映画鑑賞 (eigaka n‘shou)3)石田一成 (ishida issei)4)マイホーム計画 (mai ho-mu keikaku)5)無人島探索 (muji n’tou tansaku)1語/約1秒1人/約5語 計55語(登録者全員共通)
100% netto sa-fi n' mo-ni n'gu nosutora damusu musume 90% mekara uroko neko fu n'jatta 80% nakayama kin'niku n' ueda shi n'ya neko shi n'jatta 70% corrective judgement ratio matsuzaka daisuke 60% mito koumo n' no n'biriya 50% 40% niho n' chi n'botsu 30% 1 2 3 4 5 6 7 8 9 10 11 number of subjective word
狭帯域分割した音声時間波形のスペクトル 片側スペクトルとなる の解析的信号表現 狭帯域分割した音声時間波形の包絡線 ヒルベルト包絡線
全39帯域を使用した正解率の比較 C 1 約2% 約5% 0.95 0.9 0.85 0.8 88% 86% 0.75 83% 0.7 1-39 6-31 6-14 22-31 band number
1 0.95 88%86%83% Band No. 0.9 + 1-39 0.85 × 6-31 0.8 CA □ 6-14 0.75 22-31 0.7 0.65 0.6 0.55 0.5 All All A E K M N SA SB SC TA TB Y データによるばらつきの検討 Talker 識別語に共通性
4.0 3.8 3.4 The second formant F(kHz) 3.0 /i/ 2.5 /e/ 2.2 2.0 1.8 /a/ 1.5 1.4 /u/ 1.0 0.8 /o/ 0.6 0.2 0.5 1.0 The first formant F(kHz)
ne to s a fi n' 0 161 139 ms ms -5 amplitude (dB) -10 -15 0 0.2 0.4 0.6 0.8 1 正解率が高い識別語(ネットサーフィン:上段) mi to ko mo n' 0 95 ms -5 amplitude (dB) -10 -15 0 0.2 0.4 0.6 0.8 1 93 61 time ( s ) ms ms 正解率が低い識別語(水戸黄門:下段) 鼻音の継続時間
登録語と識別語の音素分布 11 27 11 11 33 68 11 0 11 11 0 0 22 11 11 11 0 1 108 8 3 10 5 0 27 0 11 15 10 a 77 0 0 11 0 11 0 0 8 22 10 12 8 0 9 9 0 0 3 3 i 22 22 0 0 22 0 0 31 19 35 2 1 17 11 0 8 u 11 11 0 011 11 11 20 0 8 e 11 0 0 11 0 19 21 0 11 0 11 9 0 11 0 0 14 26 9 2 o V n ny m my s sh h hy f z j k ky t ts p py ch g gy d dy b by ry y r w Q - N’ N Sl Fl Sv Ca Fv V:Vowel 母音 N:Nasal 鼻音 Fl:Fricative voiceless 摩擦音(無声) Fv:Fricative voiced 摩擦音(有声) Sl:Stop voiceless 閉鎖音(無声) Sv:Stop voiced 閉鎖音(有声) Ca:Central approximant 中央近接音 Q:Geminate consonant 促音 -:Long vowel 長音 Vowel Consonant +:登録語(個数は上段の数) ×:識別語(個数は下段の数)
帯域番号12 帯域番号22 0.04 0.02 0 amplitude -0.02 -0.04 0 0.2 0.4 0.6 0.8 1 0.04 0.02 amplitude 0 -0.02 0.05 -0.04 0.04 0 0.2 0.4 0.6 0.8 1 0.03 0.02 amplitude 0.01 0 0 -0.01 -10 amplitude(dB) -0.02 s s s s s s s s s time ( time ( time ( time ( time ( time ( time ( time ( time ( ) ) ) ) ) ) ) ) ) -0.03 -20 -0.04 -0.05 -30 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 0.2 0.4 0.6 0.8 1 0 -5 -10 amplitude(dB) -15 -20 -25 -30 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0.05 0.04 0.04 0.02 0.03 0 amplitude 0.02 -0.02 amplitude 0.01 0 -0.04 -0.01 0 0.2 0.4 0.6 0.8 1 -0.02 -0.03 -0.04 -0.05 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0.04 0.02 amplitude 0 -0.02 -0.04 0 0.2 0.4 0.6 0.8 1 0 -10 amplitude(dB) -20 -30 0 0.2 0.4 0.6 0.8 1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
: の最大値 処理の流れ 1/4 Oct.分割した音声時間波形 b : 39バンド(28.9Hz~20749Hz) ヒルベルト変換して求めた包絡線 dB変換 狭帯域包絡線間相関係数