370 likes | 634 Views
音響信号処理特論 これからの音響信号処理 - 高次統計量に基づく非線形信号処理の最適化 -. 猿渡 洋 (奈良先端大). 音響信号処理の昔とこれから. 昔. 最近. これから. 高次統計量 任意の分布 非線形フィルタ ???. 高次統計量 任意の分布 線形フィルタ ICA. 二乗誤差最小 ガウス分布 線形フィルタ エコーキャンセラ. 規範. 信号. 処理. 例. Frequency [Hz]. Frequency [Hz]. 処理後. 処理前. Time [sec]. Time [sec]. 研究背景. スペクトル減算法
E N D
音響信号処理特論これからの音響信号処理- 高次統計量に基づく非線形信号処理の最適化 - 猿渡 洋 (奈良先端大)
音響信号処理の昔とこれから 昔 最近 これから 高次統計量 任意の分布 非線形フィルタ ??? 高次統計量 任意の分布 線形フィルタ ICA 二乗誤差最小 ガウス分布 線形フィルタ エコーキャンセラ 規範 信号 処理 例 NAIST, Speech and Acoustics Processing Laboratory
Frequency [Hz] Frequency [Hz] 処理後 処理前 Time [sec] Time [sec] 研究背景 スペクトル減算法 代表的な単一チャネル非線形雑音抑圧技術 <メリット> ・強力な雑音抑圧性能 ・アルゴリズムが簡潔で汎用性が高く演算量が少ない <デメリット>・ミュージカルノイズの発生 • スペクトル減算法によるスペクトログラムの変化と音色の変化 NAIST, Speech and Acoustics Processing Laboratory
研究背景 • スペクトル減算法は音質面で問題を抱えている ミュージカルノイズ 非線形処理特有の歪み トーンを感じる残留雑音成分であり,独特の音色が非常に耳障り <現状> • 発生原因が不確か • 雑音環境で発生程度が異なるなど挙動がよくわかっていない • 評価尺度が存在しない • 有効性が保証されている対策手法がない • 対策手法の効果を評価できず,統一的な議論が困難 <研究目的> ミュージカルノイズの定量的な評価手法の構築 NAIST, Speech and Acoustics Processing Laboratory
アプローチ • スペクトル減算法の考察を通して,非線形処理一般で利用できる評価尺度の構築を目指す • スペクトル減算法の処理強度を強くするほどミュージカルノイズが多く発生することが経験的に知られている • 処理強度との関係を明らかにし評価尺度の要素として取り込む • 統計量を利用した評価尺度の構築を目指す • ミュージカルノイズと統計量が深い関係を持つことを発見 • 計算量の削減 • あらゆる信号に対して適用できる汎用性 • 統計量を安定的に計算するために信号のモデリングを行う • 生データでは外れ値に敏感すぎて値が荒れる NAIST, Speech and Acoustics Processing Laboratory
FFT Flooring :減算係数 (処理強度パラメータ) :フロアリング係数 Noise Estimation Subtraction Flooring IFFT [処理フロー] スペクトル減算法(Spectral Subtraction: SS) • パワードメインSS パワードメインのSSでは, という式で出力を得る. ここで,パワーが負のグリッドが生じた場合 のように,フロアリングと呼ばれる処理で パワーを置き換えてやる. パラメータは以下の通り. NAIST, Speech and Acoustics Processing Laboratory
SSの運用とパラメータ • パラメータはヒューリスティックに決定される • 減算係数は通常,1から2程度の値がよく用いられる • フロアリング係数は通常,0.1未満の値がよく用いられる • SSの利用者は「SNR改善量」や「聞いた感じ」によって最適と思われる減算係数を決める • SSの利用者は最適な減算係数を探した経験から, 「音源ごとに最適と思われる減算係数が異なる」事を知っている • フロアリングは強力過ぎた処理を和らげる働きをする • 過減算したグリッドを観測信号の定数倍(r)のパワーで補正する • SNR改善量に対してマイナスに働く NAIST, Speech and Acoustics Processing Laboratory
SS前 Frequency [Hz] 処理以前からトーン成分 Frequency [Hz] 周囲のグリッドが抑圧され トーン成分化 Time [sec] SS後 Time [sec] ミュージカルノイズの原因に関する仮説 • ミュージカルノイズの原因成分の仮説 • スペクトログラム上で「ごま塩雑音」として観測される成分 • 周囲の成分と比較して卓越したパワーを持つ成分:トーン成分※ ※パワーの卓越度合いをトーン度とし, トーン度の大きい時間-周波数グリッド をトーン成分と呼ぶこととする. <仮説> トーン成分の評価によりミュージカルノイズを評価可能 NAIST, Speech and Acoustics Processing Laboratory
ミュージカルノイズと確率密度関数(PDF)の関係ミュージカルノイズと確率密度関数(PDF)の関係 • ガウス分布と比べて,より急峻な分布に従う乱数からなる雑音の音色は? ガウス分布 ↓ スーパーガウス分布(やや尖った形状) ↓ スーパーガウス分布(尖った形状) と信号の従うPDF形状を変化させて 作成した音源. 3秒ごとに,より急峻な分布に変わる. ※非線形処理は一切行っていない Probability ミュージカルノイズはPDF形状と強い関係をもつ NAIST, Speech and Acoustics Processing Laboratory
フロアリング 減算 SSとPDFの変形 • トーン成分を統計的に評価するためにSSによる統計量の変化を明らかにする Step 1 [SS処理] 雑音パワースペクトルの期待値を 推定雑音パワースペクトルとする Step 2 [SS処理] 推定雑音を減算する [PDF変形] ゼロ方向へ平行移動する Step 3 [SS処理] フロアリング(パワーをゼロにおく) [PDF変形] パワーゼロ未満の確率をパワーゼロ に積み重ねる 処理後の信号のPDF 処理前の信号のPDF NAIST, Speech and Acoustics Processing Laboratory
large power SS前 Frequency [Hz] small Frequency [Hz] Time [sec] SS後 Time [sec] PDFにおけるトーン成分 • トーン成分は卓越したパワーを持つ成分 • PDFの裾に寄与する成分 パワーの小さなグリッドは 青く囲まれた部分に寄与し, パワーの大きなグリッドは 赤く囲まれた部分に寄与する 中庸なパワーの成分が減りパワーの小さな成分とパワーの大きな成分に二極化される <トーン成分の評価> ゼロ付近と裾に注目することで評価可能 NAIST, Speech and Acoustics Processing Laboratory
高次統計量の導入 • PDFのゼロ付近と裾を評価できる統計量を導入する カートシス(尖度) • PDFの裾の広さとPDF全体に占める裾の割合の尺度 ※ はn次のモーメント, をPDFとすると • 裾が広く割合が大きいほど大きな値となる • トーン成分が多くトーン度が大きいほどカートシスは大きい ※パワードメインの信号を考えるため,PDFは片側分布である NAIST, Speech and Acoustics Processing Laboratory
評価対象外 SS前 Frequency [Hz] 処理以前からトーン成分 Frequency [Hz] 周囲のグリッドが抑圧され トーン成分化 評価対象 Time [sec] SS後 Time [sec] ミュージカルノイズ原因成分の選別 • ミュージカルノイズ=非線形処理で生じたトーン成分 • 音声や音楽など処理に関係なく存在しているトーン成分はミュージカルノイズとは知覚されない 各グリッドのトーン度の変化を利用し ミュージカルノイズ原因成分を選別する <方針> 非線形処理によるカートシスの変化量を評価尺度とする NAIST, Speech and Acoustics Processing Laboratory
ガンマ分布による信号のモデリング • ガンマ分布 パワードメインの音声・雑音信号のモデリングによく使われる分布 :形状母数(shape parameter) :尺度母数(scale parameter) とすると, ガンマ分布は, と表現される. ただし、 また,ガンマ分布の期待値は NAIST, Speech and Acoustics Processing Laboratory
ガンマ分布の性質と信号のモデリング例 • ガンマ分布の特徴 • 片側分布のモデリングに適している • c2分布などをモデリングできる • ガウス性雑音のパワースペクトルはc2分布,音声のパワースペクトルはより鋭い分布に従うことが知られている • ガンマ関数に基づいており数学的な利便性が高い • 再帰的な性質など • モデリング例 ・ガウシアンノイズのパワースペクトルの場合 ガンマ分布の形状母数が1の場合に相当する ※尺度母数は分布形状に関係しない NAIST, Speech and Acoustics Processing Laboratory
ガンマ分布による実環境音のモデリング • 実環境音の形状母数とカートシス (出展) 電子協騒音DB カートシス:およそ10~50,形状母数:およそ0.1~0.6 形状母数が小さいほどカートシスは大きくなる NAIST, Speech and Acoustics Processing Laboratory
形状母数と分布形状 は に関する期待値演算子 尺度母数と分布形状 ガンマ分布の母数推定 • 母数推定 • 生データから母数推定を行うことでモデル分布を得る • 形状母数と尺度母数を最尤推定法により推定 NAIST, Speech and Acoustics Processing Laboratory
SS前後の信号のモデリング • SSによる分布形状の変化を定式化 以下, とし, を適用している 原信号の分布 SS後の信号の分布 NAIST, Speech and Acoustics Processing Laboratory
と変数変換すると, 形状母数+モーメントの次数 SS処理によるカートシス変化(原信号のカートシス) • 原信号のカートシス n次モーメントは, よって,カートシスの分子(4次モーメント)は NAIST, Speech and Acoustics Processing Laboratory
SS処理によるカートシス変化(原信号のカートシス)SS処理によるカートシス変化(原信号のカートシス) 同様にして,カートシスの分母(2次モーメント) ゆえに,原信号のカートシス()は, NAIST, Speech and Acoustics Processing Laboratory
テイラー展開により と変数変換し,2次までで近似すると, SS処理によるカートシス変化(SS後の信号のカートシス) • SS処理後のカートシス n次モーメントは, カートシスの分子(4次モーメント)は, NAIST, Speech and Acoustics Processing Laboratory
SS処理によるカートシス変化(SS後の信号のカートシス)SS処理によるカートシス変化(SS後の信号のカートシス) カートシスの分母(2次モーメント)は, 0次で打ち切ったテイラー展開を利用して カートシスは分布形状に依存する統計量で,期待値 のスケールに 依存しないため, と正規化し簡単化する. 以上より,SS後の信号のカートシス()に関して以下が成立する. ※分母を大きく見積もり,全体で真の値より小さく見積もっている また,数値計算により を確認した. NAIST, Speech and Acoustics Processing Laboratory
対数カートシス比を評価尺度として提案する SS処理によるカートシス変化 • SS処理によるカートシス変化 SS後の信号のカートシスは指数部分が支配的であり, 式の形から,変化量には比の対数が妥当と思われる. 対数カートシス比(Log Kurtosis Ratio)を考えると, となる.これは • 原信号の形状母数(a) • 処理強度(b) のみの多項式からなる尺度である. NAIST, Speech and Acoustics Processing Laboratory
対数カートシス比 • 対数カートシス比はミュージカルノイズ発生度合が • 原信号の形状母数(a) • 減算係数(b) に依存することを意味している • (例)形状母数(a)を固定した場合 • 対数カートシス比は減算係数にのみ依存し,減算係数が大きいほどミュージカルノイズ発生度合も大きい • 経験則として一般的に知られている • (例)減算係数(b)を固定した場合 • 対数カートシス比は原信号の形状母数にのみ依存し,原信号のPDF形状がなだらかなほど(形状母数(a)が大きいほど)ミュージカルノイズ発生度合も大きい • 新たな発見 NAIST, Speech and Acoustics Processing Laboratory
主観評価実験 • 目的:主観値(ミュージカルノイズスコア※)と客観値(対数カートシス比)の対応の調査 ※ ミュージカルノイズスコア: ミュージカルノイズ発生度合の主観スコア (0:Natural,…,4:Harmful の5段階) NAIST, Speech and Acoustics Processing Laboratory
実験に使用した音源減算量と対数カートシス比の関係実験に使用した音源減算量と対数カートシス比の関係 音源 /環境 /カートシス /形状母数 Noise1 /駅 /17 /0.27 Noise2 /人ごみ /28 /0.19 Noise3 /展示会場 /38 /0.12 Noise4 /病院 /56 /0.1 <音源固定> 減算係数:大→対数カートシス比:大 <減算係数固定> 原信号のカートシス:大→対数カートシス比:小 NAIST, Speech and Acoustics Processing Laboratory
Harmful Musical Noise Score Natural 結果 (1/2) • 減算量,音源とミュージカルノイズスコアの関係 <音源固定> 減算係数:大→ミュージカルノイズスコア:大 <減算係数固定>原信号のカートシス:大→ミュージカルノイズスコア:小 NAIST, Speech and Acoustics Processing Laboratory
Harmful Correlation:0.84 Correlation:0.65 Musical Noise Score Natural 結果 (2/2) • 対数カートシス比,減算係数とミュージカルノイズスコア 対数カートシス比は原信号の形状母数を勘案できる分相関が強い 原信号のPDF形状でミュージカルノイズ発生度合が異なる NAIST, Speech and Acoustics Processing Laboratory
形状母数とミュージカルノイズ発生度合 ミュージカルノイズ発生度合 は原信号のカートシスと関係 している 減算係数:1.6 のとき カートシス 17 → 28 → 38 → 56 原信号のカートシスが大きい場合ほど 明らかにミュージカルノイズ発生度合が小さい NAIST, Speech and Acoustics Processing Laboratory
まとめ • ミュージカルノイズ評価尺度として対数カートシス比を提案し,主観値と相関が強いことを確認した • ミュージカルノイズの発生度合いが原信号の分布形状に依存することを発見した • 原信号のカートシスが大きいほどミュージカルノイズは発生しにくく、小さいほど発生しやすい • 白色雑音などはミュージカルノイズが非常に発生しやすく,音声などは発生しにくい(経験則と一致している) • スペクトル減算法において処理強度とカートシスの関係を明らかにした • スペクトル減算法においてカートシスは必ず増加する NAIST, Speech and Acoustics Processing Laboratory