460 likes | 742 Views
機械学習系勉強会発表. 10/05/07(Fri.). 近山・田浦研究室 M1 針谷 航. kiwi の /home/hariya/100507.pdf /home/hariya/100507.ppt が発表資料です。. 本日の発表予定. 卒業論文 ひどい内容です。 今後の方針 ほぼ無しです。やってみたいことの列挙。. 卒業論文. 摩擦音節知覚における聴覚ストリーム形成に関する研究. 10/03/15(Mon.). 東北大学工学部 電気通信研究所 矢野研究室 B4 針谷 航. 音を聞き分ける. 電光掲示板の音. ティッシュ配りの人の声.
E N D
機械学習系勉強会発表 10/05/07(Fri.) 近山・田浦研究室 M1 針谷 航
kiwiの /home/hariya/100507.pdf /home/hariya/100507.ppt が発表資料です。
本日の発表予定 • 卒業論文 ひどい内容です。 • 今後の方針 ほぼ無しです。やってみたいことの列挙。
卒業論文 摩擦音節知覚における聴覚ストリーム形成に関する研究 10/03/15(Mon.) 東北大学工学部 電気通信研究所 矢野研究室 B4 針谷 航
音を聞き分ける 電光掲示板の音 ティッシュ配りの人の声 車のクラクションの音 実環境では様々な音が至るところに存在している。 →しかし人はそれらを聞き分けることができる。 カクテルパーティー効果
音を聞き分ける 言葉 口笛 拍手 鼓膜に音波が入るとき一つの波として進入 聴覚系で三つの音として分離して知覚 聞き分ける仕組みはどのようになっているのか。
周波数 周波数 時間 時間 聴覚の情景分析(Auditory Scene Analysis) ◎Bregman(1990) 物理的特性が似た音の集合は一つの音のまとまり(ストリーム)と知覚される。 2つのストリームに分離 1つのストリーム 周波数差が小さい、時間間隔が等間隔 周波数差が大きい、時間間隔が非等間隔 (原始的)分凝(Segregation) ストリームの形成 これでカクテルパーティー効果は全て説明可能?
/s/ /e/ せ 乱流(雑音)が音源 一つのストリーム 高調波を重畳したものが音源 音声認識における情景分析 ・無声摩擦音節において無声(子音)部分と有声(母音)部分の物理的特性は異なる。(例)音源、スペクトル形状 →人は一つのストリームと知覚する。 男性話者”せ”の時間波形(上)とスペクトログラム(下) • 物理的特性の類似性以外も分凝に関与する。 • これは学習により獲得される。(スキーマ依存型[Schema-based]分凝)
子音の種類 • 子音と母音のストリーム形成の仕組みを考えたい。 • →まず子音、母音それぞれの特徴を見る。 ◎子音 調音点(調音位置)、調音様式、(有声or無声)により分類される。 子音の種類
母音の種類 ◎母音 母音は調音位置、調音の高さで分類される。 調音位置 前舌 後舌 狭(高) 調音の高さ 口蓋垂側 唇側 広(低) 母音の種類
母音における特徴量 F1 F2 F3 F4 ◎ Peterson & Barney(1952) 母音によりスペクトルの共振ピーク(フォルマント)の位置が決まっている。 代表的なフォルマント周波数[Hz] F0 スペクトル包絡とフォルマント →同じ母音は同じフォルマント周波数を持つ(同一話者限定)。 ちなみにF1は調音の高さ、F2は調音位置に対応すると言われる。
遷移部分の関わり • とりあえず子音と母音が隣接すればストリーム形成? ◎Kewley-Port ,D.(1982) 有声破裂音(b,d,g)において母音部分のオンセットのフォルマント周波数は前に存在する子音により異なる。 母音のオンセット(子音から母音への遷移部分)もストリーム形成に関与する?
摩擦音節形成に関する先行研究 ◎Ito &Yano (2004) 無声破裂音(p,t,k)、または単一母音(V)の有声部分(母音部分)の前方に無声摩擦音(s)の無声部分(子音部分)を結合させると無声摩擦音節と知覚される。 被験者ごとの/s/音節と知覚した割合 摩擦音と母音が隣接すると摩擦音節を形成する。
摩擦音節形成に関する先行研究 ◎Ito &Yano (2004) 先で作成した刺激の前後に摩擦音/s/を配置して呈示する。このとき ①全体として/s/音節と知覚される割合が減少する。 ②/s/音節と知覚される割合が元の無声部分により異なり、/s/>/t/>/p/>/k/>Vとなる。 →遷移部分が/s/音節形成に関与し、/s/と/t/は遷移部分が類似する。 元の無声部分(例):刺激s(a)+(k)aの場合→/k/ 元が単一母音の場合→V
無声子音/s/と/t/との類似点 ・/s/と/t/は調音位置が等しい。 無声摩擦音と有声部分との結合力は遷移部分、また調音位置により説明がつくかもしれない。→遷移部分と調音位置は関係がある。
研究目的 無声摩擦音節のストリーム形成と調音位置、遷移部分との関係を明らかにする。
実験1:ストリーム形成の確認 ◎方法 元音声:収録した音声。 計30音声(15音節[下表]×2話者[rtw,ktm])。 刺激:①元音声の有声部分に無声部分sを結合させた刺激。30刺激。 ・・・sgl ②①の刺激の前後に、sを6個ずつ配置した刺激。30刺激。 ・・・plr 計60刺激。 実験:各刺激12応答。被験者4名。 被験者は知覚した音声の子音部を回答 (V,k,s,t,p,g,d,b,f,hより選択)。 元音声の音節 ※緑字の無声部分を刺激で使用。
さ か (k)a s(a) 刺激sgl s(a)+(k)a 刺激plr s(a)+(k)a 刺激例s(a)+(k)a s(a)を前後に配置
実験1-結果 ・元の無声部分により知覚率が異なる。 ・sglとplrの間に大きな知覚率の差がある。 ・母音間ではあまり差がない。
実験1-結果 ◎データをまとめなおす。 • 元の無声部分により知覚率が異なる。 • sglとplrの間に大きな知覚率の差がある。(/s/を除く) →遷移部分はストリーム形成に関与する。 しかし知覚率は/s/と/t/の間にかなりの差が見られる。 →調音位置は関係しない。
実験2 • 実験1より遷移部分の重要性は示唆されたように思える。しかし母音部分で異なるのはオンセット情報のみなのか(オフセットの影響は存在しないのか)。 • →有声部分を50[ms]以前または以後のみ残し、前方部分の影響を調べる。 ◎方法 元音声:実験1に同じ。 刺激:基本的に実験1に同じ。 ①各刺激で用いる有声部分は前方50[ms]のみ。 ・・・実験bfr ②各刺激で用いる有声部分は50[ms]以降。 ・・・実験aft 各60刺激。 実験:実験1に同じ。但し被験者は3名。
刺激例:s(a)+(k)a 白字:無声部分と有声部分の境界 橙字:境界から50[ms]後の位置 波形の切り出し s(V)と結合 bfr aft
実験2-結果 ◎データをプロットしなおす。 • bfrの結果はaftの結果よりもorgに近い。 →bfrの方に/s/音節形成のための重要な手がかりが存在する。つまり遷移部分は重要である。
まとめ まとめ ・/s/摩擦音節の形成と元の無声部分の調音位置は無関係である。 ・/s/摩擦音節形成の手がかりとして遷移部分は重要である。
今後の課題 ・先行研究と相違点が生じた原因の解明。 ・遷移部分から結合に関与する情報を抽出する方法の考案。
メル周波数ケプストラム係数(Mel-Frequency Cepstrum Coefficient) • 音声分析においてよく使われる。 手順 • ある時間幅(フレーム)で時間波形を切り取りフーリエ変換 • 周波数を対数に、振幅Aを変換2log|A|に変換 • フィルタバンクで情報圧縮した後コサイン展開 コサイン展開で得た係数がMFCC
MFCCと音声分析 • MFCCの値は音素、音源の特徴を表す。 ↓ MFCCの値で音素の分類、話者特定が可能 (機械学習が用いられたりする。) • 音声→テキスト変換、声紋認識で使われる。
今後の方針 • 入力された音声信号を分析し、誤りを検出、そして正しい音声へ再合成する手法の考案。 -雑音、誤発音 日本人が発話した英語を流暢な英語に。 歯がない、または呼吸器が弱っている人な ど発話に不自由を持つ人への補助器。
今後の方針 • 音素の情報を学習させ音声信号から音素に分類する研究は多数ある。 →音素がどのくらいあり、どのようなものかを学習することはできないか。 ex)日本語、英語、未知の部族、動物の鳴き声
今後の方針 • 音声からどんな情報がとれるのかを調べる。 (認知されてるものは話者、音素、感情、etc…) • 流行る音楽の予測、今の環境に最適な音楽の予測。 • 音楽における誤り訂正。
元音声実験 ・被験者4名 ・どの音節も意図した子音と認識されている。
Ito & Yano(2004)の刺激での実験 ・被験者1名 ・Vのsylでの知覚率が低い。 ・sglでの/s/音節知覚率:64.5%
実験1-結果 ・実験データをANOVAを用いて検定する。 (/s/のデータを除いて検定にかける。) 要因 A.元の無声部分 B.呈示方法(sglかplrか) C.刺激の有声部分 ・有意差あり 元の無声部分(p<<0.001)、呈示方法(p<<0.001) 呈示方法をsglからplrに変更すると知覚率が大きく減少する。 元の無声部分により知覚率が変化する。
実験1と先行研究との比較 -過去の知見と不一致 ・sglの刺激でも摩擦音節と知覚されないことがある。 →被験者によってsglにおいても/s/音節と知覚されない。 sglでの/s/音節知覚率 今回の実験 先行研究 ・/t/の知覚率は/s/よりも/p/や/k/に近い。 →調音位置では説明が付かない。
実験2-結果 -次のものを比較する。 Ⅰ、実験org(実験1)と実験bfr Ⅱ、実験orgと実験aft Ⅲ、実験bfrと実験aft Ⅰ、実験orgと実験bfrとの比較 ・sglの方がplrより知覚率が高い。(/s/を除く)→実験1でも見られた。 ・全体としてorgの方が知覚率が高い。(Vは除く) Ⅱ、実験orgと実験aftとの比較 ・全体としてorgの方が知覚率が高い。(Vは除く) Ⅱ、実験bfrと実験aftとの比較 ・bfr、aftで知覚率に差が見られない。(/s/、Vは除く)
実験2bfr-結果 ・Ⅰで有意差あり X(p<<0.01) Y(p<<0.01) X-Y(p=0.002) →実験1と同じ。 X-Z(p=0.01) →Vグループのみ有声部分がorgからbfrに変わると知覚率が上昇する。 -Vのグループのデータを除いて解析。 Zに有意差あり(p=0.020)、X-Zに有意差なし。 有声部分をorgからbfrに変えると/s/音節の知覚率が減少する。
実験2after-結果 ・Ⅱで有意差あり X(p<<0.001) Y(p<<0.004) X-Y(p=0.002) →実験1と同じ。 X-Z(p=0.025) →orgからaftに変わるときの知覚率の減少率が/s/グループのみ異なる。 -/s/のグループのデータを除いて解析。 Zに有意差あり(p=0.005)、X-Zに有意差なし。 有声部分をorgからaftに変えると/s/音節の知覚率が減少する。
実験org/bfr-結果 ・ANOVAを用いて検定する。 -要因 X.元の無声部分 Y.呈示方法(sglかplrか) Z.有声部分の種類(Ⅰ:bfr or not、Ⅱ:aft or not、Ⅲ:bfr or aft) ・比較Ⅰ -Vのグループのデータを除いて検定。 有声部分の種類に有意差あり(p=0.020) 有声部分をorgからbfrに変えると/s/音節の知覚率が減少する。
実験org/aft-結果 ・比較Ⅱ -/s/のグループのデータを除いて検定。 有声部分の種類に有意差あり(p=0.005) 有声部分をorgからaftに変えると/s/音節の知覚率が減少する。 ・比較Ⅲ -V,/s/のグループのデータを除いて検定。 呈示方法のみに有意差あり(p<<0.001) 任意の有声部分は摩擦音とある程度は結合する。 bfrのほうがaftより知覚率が近い。 →bfrのほうが摩擦音節形成に重要。
・有意差あり X(p<<0.001) Z(p<<0.001) Y(p=0.002) X-Z(p<<0.001) 実験2-結果 ・bfr、aftでの結果はorgに比べ、共に/s/音節の知覚率が減少。 →有声部分の前方部分、後方部分どちらも重要なのか。 Ⅲ、実験2bfr、aftのセットで結果を解析(Vのグループは除く)。 (要因Z:bfrかaftか) →bfrでは/s/グループのみ異なる知覚を示し、aftでは全てのグループで同様の知覚を示す。 有声部分前方には/s/音節形成の重要な手がかりが存在する。
線形予測符号化(Linear Predictive Coding:LPC) • スペクトルの包絡線を求めるために用いる。 • 出力 、出力の予測値 • 出力と予測値との誤差 を最小にするように を決定する。 この をフィルタ次数とする全極型ARフィルタがスペクトル包絡となる。