330 likes | 474 Views
未知の楽器を考慮する 楽器音の音源同定. 北原 鉄朗 † 後藤 真孝 †† 奥乃 博 † † 京都大学大学院情報学研究科知能情報学専攻 †† 産業技術総合研究所. 9-11 Mar. 2004. MPEG-7 : マルチメディアコンテンツに対する タグづけの 枠組み を提供 最低限の事項のみ規定 ⇒ タグの内容と自動付与法 について要検討. 研究の背景. ディジタル音楽配信 が普及し ユーザ個人が所有する音楽音響信号が増大 計算機で音楽を検索する技術が不十分 ⇒ 音楽音響信号に 適切なタグを付与.
E N D
未知の楽器を考慮する楽器音の音源同定 北原 鉄朗†後藤 真孝††奥乃 博† †京都大学大学院情報学研究科知能情報学専攻 ††産業技術総合研究所 9-11 Mar. 2004
MPEG-7: マルチメディアコンテンツに対するタグづけの枠組みを提供 • 最低限の事項のみ規定 ⇒ タグの内容と自動付与法について要検討 研究の背景 • ディジタル音楽配信が普及しユーザ個人が所有する音楽音響信号が増大 • 計算機で音楽を検索する技術が不十分 ⇒ 音楽音響信号に適切なタグを付与
本発表では,そのための第1段階として,単音を対象とした楽器音の音源同定を扱う本発表では,そのための第1段階として,単音を対象とした楽器音の音源同定を扱う →楽器名の同定 研究の目的 • 特にクラシック音楽では,使用楽器は楽曲を特徴づける重要なファクターであるe.g. 「ピアノソナタ」「弦楽四重奏」⇒「ピアノソナタの曲を検索」のようなタスクで有用 • 楽器名をキーとした頭出しに有用e.g.「フルートが弾き始めるところから聴きたい」 • 聴取者の好みや感性に依存しない 音楽音響信号に対する楽器タグの付与
未知楽器の問題 (本研究にて初めて提起) 何が問題なのか=未知楽器= 楽器音の種類が膨大・多様e.g. オーケストラ向け楽器, 民族楽器 シンセサイザーで合成した音,etc. ⇒ すべての音をあらかじめ学習することは事実上不可能 ⇒ 未学習の楽器を適切に扱える仕組みが必要
バイオリン ビオラ 両者をシンセで 合成した音 既知楽器⇒楽器名レベルで認識未知楽器⇒カテゴリーレベルで認識 未知楽器の問題 人間は未知の楽器をどう理解するか 予測:「楽器名はわからない けど,弦楽器系」⇒一段抽象度の高いレベルで音をとらえる
発表の流れ • 使用する音源同定手法 • 楽器カテゴリーの自動作成 • 未知楽器のカテゴリー同定実験
①使用する音源同定手法 • 特徴抽出(129個) • 主成分分析で79次元に次元圧縮 • 線形判別分析で18次元にさらに次元圧縮 • 各楽器の分布の平均と共分散を推定 • ベイズ決定規則に基づいて楽器名を同定(事後確率が最大になる楽器名を見つける) ※事後確率=入力音が当該楽器である確率
①使用する音源同定手法 例:周波数重心 • 特徴抽出(129個) ピアノ フルート
①使用する音源同定手法 例:パワー包絡線の最小二乗法による近似直線の傾き • 特徴抽出(129個) ピアノ フルート time [ms]
①使用する音源同定手法 • 特徴抽出(129個) • 主成分分析で79次元に次元圧縮 • 線形判別分析で18次元にさらに次元圧縮 • 各楽器の分布の平均と共分散を推定 • ベイズ決定規則に基づいて楽器名を同定(事後確率が最大になる楽器名を見つける) ※事後確率=入力音が当該楽器である確率
階層的クラスタリングにおける課題:音高などにより各楽器の特徴空間上が変化⇒分布に対してクラスタリング (分布を100[個/楽器]以上のデータで求める)階層的クラスタリングにおける課題:音高などにより各楽器の特徴空間上が変化⇒分布に対してクラスタリング (分布を100[個/楽器]以上のデータで求める) ②楽器カテゴリーの自動作成 課題: 同定に適した(=音響的特徴を反映した)楽器カテゴリーをどのように得るか. 解決策: 音源同定システムの特徴空間上で階層的クラスタリングにより,自動作成
p(X|wpiano) このマハラノビス距離をしきい値処理 p(X|wflute) ③未知楽器のカテゴリー同定 (1) 楽器名レベルで同定 (2) 認識対象音から(1)の結果の学習データ(分布)までのマハラノビス距離を算出 (3) (2)がしきい値未満なら,(1)の結果を出力しきい値以上なら,カテゴリーレベルで再同定
③未知楽器のカテゴリー同定 • 学習データ:自然楽器音 • RWC-MDB-I-2001から抜粋した19楽器6,247音からランダムに半分を選択 • 既知楽器の評価データ:自然楽器音 • 上記の残り • 未知楽器の評価データ:電子楽器音 • ヤマハ製MU2000に収録されている- エレクトリックピアノ(ElecPf),- シンセストリングス(SynStr),- シンセブラス(SynBrs).
実験結果 • 既知楽器で約20%,未知楽器で約23%の誤り率. • 既知・未知判定=約85% • カテゴリー同定=約92% • 従来の発音機構ベースのカテゴリーでは約43%∵従来のカテゴリーは電子楽器を考慮せず
楽器ごとの実験結果 • ElecPf A: 低精度∵既知・未知判定の 精度が低い⇒既知楽器に近い 未知楽器の扱い 要検討
ま と め • 音源同定における新たな問題を提起「未知楽器の問題」(未学習の楽器をどう扱うか) • 解決策:カテゴリーレベルで同定⇒「楽器名は分からないが弦楽器系」というhuman-likeな楽器音理解 • 上記のカテゴリー同定に適した楽器カテゴリーを自動作成する手法を提案 [今後の課題]混合音・楽曲への適用
本研究で用いた特徴量について 129個の特徴量の概要 (1) スペクトルに関する定常的特徴(40個) 周波数重心,etc(2) パワーの時間変化に関する特徴(35個) パワー包絡線の線形最小二乗法による 近似直線の傾き,etc (3) 各種変調の振幅/振動数(32個) 振幅変調,周波数変調, 周波数重心の時間変化,MFCCの時間変化 (4) 発音開始直後のピーク尖度に関する特徴(22個)
発音開始直後のピーク尖度に関する特徴 各周波数成分(11次倍音まで)を取り出し,各ピークの尖度(とんがり度)を算出→非調波成分の豊富さを表す
未知楽器同定に用いた電子楽器音 • ヤマハ製MU2000に収録されている- エレクトリックピアノ(ElecPf),- シンセストリングス(SynStr),- シンセブラス(SynBrs). • 以下の観点から選択- さまざまな音楽で用いられている,- 自然楽器のどれかに似ているが異なる音,- 「小分類」レベルで,あいまいなく正解設定可.
未知楽器のカテゴリーレベルの認識 • 提案手法によって得られた楽器カテゴリーを用いることで,未知楽器を精度良く認識 • 楽器の発音機構に基づく分類は,(機械的発音機構の持たない)電子楽器には有効でないことを示唆
楽器音の「既知」か「未知」かの判定 Threshold: PCA+LDA (18dim.) PCA (23dim.) PCA (18dim.) Feat. Space: PCA (23dim) において,約85%の正解率
楽器音の「既知」か「未知」かの判定 Threshold: PCA+LDA (18dim.) PCA (23dim.) PCA (18dim.) Feat. Space: 「既知を正しく既知」と「未知を正しく未知」はトレードオフ⇒応用に応じた適切なしきい値設定の必要性
楽器音の「既知」か「未知」かの判定 Threshold: PCA+LDA (18dim.) PCA (23dim.) PCA (18dim.) Feat. Space: PCA+LDAは精度低∵LDAは学習データの分離を良くする次元圧縮法
多様な奏法を扱う場合の課題 奏法による音響的違いを考慮したシンボル化⇒ 特徴ベクトルの分布を奏法別に作って 本研究のカテゴリー作成法を適用(音響的違いの顕著な奏法は別カテゴリー) イメージ図 Piano(Normal) Violin(Pizz.) Violin(Normal) Violin(Vibrato) …
カテゴリー同定の利用法 • ピアノ曲の検索では…再現率重視なら「ピアノに似た楽器」を含める適合率重視なら「ピアノに似た楽器」を含めない • 「ピアノ」と「ピアノに似た楽器」をともに含む曲で両者を区別しながら採譜できる • 音楽演奏の映像に対するタグ付けでは…音から「楽器名はわからないが弦楽器」映像から「楽器名○○」⇒弦楽器に属する新たな楽器として再学習