610 likes | 790 Views
Corpus-Based Prosodic Modeling in Text-to-Speech Synthesis. コーパスに基づくテキスト音声変換用の韻律モデリング. 電子情報工学専攻 広瀬・峯松研究室 博士課程3年 桜井 淳宏. 概要. 研究の背景・概要 Phase I: データベース作成(韻律情報のラベリング) Phase II: 韻律情報の統計的モデル化 考察・まとめ. TTS(テキスト音声変換). TTS(Text-to-Speech). 入力文. 出力音声. TTS System. TTS 技術の応用. 将来
E N D
Corpus-Based Prosodic Modeling in Text-to-Speech Synthesis コーパスに基づくテキスト音声変換用の韻律モデリング 電子情報工学専攻 広瀬・峯松研究室 博士課程3年 桜井 淳宏
概要 • 研究の背景・概要 • Phase I: データベース作成(韻律情報のラベリング) • Phase II: 韻律情報の統計的モデル化 • 考察・まとめ
TTS(テキスト音声変換) TTS(Text-to-Speech) 入力文 出力音声 TTS System TTS技術の応用 • 将来 • 対話システム(音声認識システムとの組合わせ) • 自動通訳システム • 現在 • E-mailの自動読み上げ • 手足が忙しいときの自動読み上げ • WWWコンテンツの読み上げ • 文章作成の支援ツール • 言語教育 • お年寄りや障害者の支援ツール • 自動車環境内のヒューマンインタフェース
分節的特徴&韻律的特徴 分節的特徴(segmental features): 音韻記号(phonological symbol)に置き換えられる 韻律的特徴(prosodic features): 声の抑揚を表し、物理的には次の特徴量として表現される 基本周波数パターン(F0パターン) 音素の持続時間の推移 パワーパターン (韻律的特徴は超分節的特徴ともいわれる)
TTSシステムの流れ 入力文 テキスト解析 形態素解析 構文解析 音韻処理・韻律処理 音韻記号列+ 韻律記号列の生成 音声合成 波形編集または フォルマント合成 単語辞書 文法 読み 形態素情報 アクセント型 アクセント辞書 韻律ルール 音韻記号列 韻律記号列 音声データベース 音声信号
統計的手法に基づくイントネーションモデル • 規則音声合成の問題点 • イントネーションに関するルールにはヒューリスティックスによるものが多い • ルールの作成が困難 • ルール間の干渉 • 統計的な手法の導入 • ヒューリスティックスを統計的手法で置き換える • 規則化できない部分も学習可能 • データベースの充実度が上昇中
統計的手法に基づくイントネーションモデル 1) 学習 Prosodic Database Text Speech Linguistic features Prosodic features TTS intonation model Statistical Training 2) 合成 TTS System F0 contour (intonation) Text TTS Intonation Model
Phase I: データベース作成 韻律データベース 1) Text data: text in electronic format 2) Speech data: digital recording, phonetic transcription 3) Linguistic features: part-of-speech tags, pronunciation, accent types, etc. 4) Prosodic features: F0 contours, duration patterns, power contours, etc. Q: How to represent prosodic features?
ToBI (Tones and Break Indices) • 定量的な記述は一切含まれていない。したがって、物理量への変換が難しい • ラベル付与にかかる労力(=コスト)が高い
韻律データベースにおける韻律情報の記述 • 提案:F0モデルの利用 • 物理量と直接的な関係 • 統語構造をある程度反映 問題点:ToBIと同様、自動ラベリングが不可能
F0パターンモデル(具体例) 「そちらの国際会議に論文を投稿したいとおもうんですが」
F0モデルパラメータの自動ラベリング (アイデア:音声認識用に開発された統語境界検出法を適用 Phrase Bound. Detection F0 Contour F0 Model Parameter Adjustment Model Assignment (partial AbS) Accent Bound. Detection Linguistic information • フレーズ境界検出にはローパスフィルタを用いる[Sakurai/Hirose, ICSLP’96] • アクセント境界検出にはF0パターンの微分パターンを利用 [Fujisaki et.al, ASJ, 92-3]
フレーズ指令検出 Phrase + accent d(Phrase) dt
評価実験 (a) Phrase commands (number of phrase commands: 104) (b) Accent commands (number of accent commands: 228) (25 sentences from ATR continuous speech database; comparison with hand-labeled data)
アクセント変形タイプ 複合名詞の第二要素による分類 • A型:第二要素の第一拍まで高い (アソビア‘イテ=遊び相手) • B型:第一要素の最終拍まで高い (セイフ‘アン=政府案) • B*型:第一要素の最終拍の前まで高い (ゲンゼ‘イアン=減税案) • F型:平板型 (アキタケン=秋田犬)
アクセント変形タイプ推定システム F0 Contour Error A Phoneme Labels and timing Type A Model A Error B Model B Type B Error = MSE between extracted and calculated F0 contours Error B* Model B* Type B* Error F Model F Type F Partial Abs Hypothesizer
複合名詞の近似モデル(初期値) Command • 2つのフレーズ指令を利用すれば、 • 連続音声での複合名詞の位置として • 考えられるすべての可能性を網羅できる • 文の先頭または休止を伴うフレーズ境界の後 • (Ap1=0,Ap2>0) • 休止を伴わないフレーズ境界の後 • (Ap1>0,Ap2>0) • 非フレーズ境界 • (Ap1>0,Ap2=0) Ap1 Ap2 Aa1 t01 t02 t2 t1 t (s) 1.0 0.08
評価実験 • Speech material: ATR Continuous Speech Database (MAU and MHT) • Phoneme labeling by HTK speech recognizer in forced alignment mode
Phase II: 統計的手法に基づく韻律情報のモデリング • 韻律データベースを作成した後、次は統計的学習の手法が必要 • 第1手法:ニューラルネットワークとF0モデルに基づくF0パターンのモデル化 • 第2手法:モーラ遷移離散隠れマルコフモデルに基づくF0パターンのモデル化
方式1)ニューラルネットワークとF0モデルに基づくF0パターンのモデリング方式1)ニューラルネットワークとF0モデルに基づくF0パターンのモデリング • F0モデルは次のような特徴を有する • 物理量と直接的な関係 • 統語構造と対応 • 問題点 • パラメータ同士の非線形な関係 • 正解には曖昧性がある ニューラルネットワークが適切
ニューラルネットワーク構造 (a) Elman network (b) Jordan network Hidden Layer Output Layer Input Layer Hidden Layer Output Layer Input Layer State Layer Context Layer
ニューラルネットワーク構造(つづき) (c) Multi-layer perceptron (MLP) Hidden Layer Output Layer Input Layer
入力特徴 クラス数 入力特徴 18 15 9 8 37,7,7 37,7,7 韻律語の位置 韻律語のモーラ数 韻律語のアクセント型 韻律語の単語数 最初の単語の品詞・活用型・活用形 最後の単語の品詞・活用型・活用形
入力特徴の例 Isshuukanbakari nyuuyookuo shuzaishita. (一週間ばかりニューヨークを取材した) “ニューヨークヲ” 韻律語の位置: モーラ数: アクセント型: 単語数: 最初の単語の品詞・活用型・活用形: 最後の単語の品詞・活用型・活用形: 2 6 3 2 名詞・0・0 格助詞・0・0
出力特徴 種類 出力特徴 Continuous Continuous Continuous Continuous Continuous Binary Phrase command magnitude (Ap) Accent command amplitude (Aa) Phrase command delay (t0 off) Accent command onset delay (t1 off) Accent command reset delaty (t2 off) Phrase command flag
学習データベース • 学習データ:388の例文(2803の韻律語) • Validation data:50の例文(317の韻律語) • テストデータ:48の例文(262の韻律語) • 学習量:epoch(サイクル数)=15~30 • 文境界に擬似アイテムを挿入
WAVEFORM mhtsdj01.syn 0.0 1.0 2.0 3.0 TIME [s] LABEL n e m a u n a n a pau n i n i o,u m a n y a s a o g u i,i i,y n o r ch g i n i a kk o g 0.0 1.0 2.0 3.0 TIME [s] FREQUENCY [Hz] 800.0 100.0 40.0 0.0 1.0 2.0 3.0 TIME [s] PROSODIC COMMAND 1.0 0.0 1.0 2.0 3.0 TIME [s] 具体例 「小さなうなぎ屋に熱気のようなものがみなぎる」
本手法に関する考察 • ニューラルネットワークによるモデリングの長所: • 不完全なルールによる問題を回避 • 聴取実験による最終結果が良好 • 問題点 • 韻律情報のモデル化に関する真の知識が得られない • ニューラルネットワークのパラメータの最適化が難しい • 今後の課題 • 他の方式と比較(2分木など) • 実際のTTSシステムに組み込む • 出力特性によってニューラルネットワークを使い分ける手法を検討
方式2:モーラ遷移HMMに基づくF0パターンのモデル化方式2:モーラ遷移HMMに基づくF0パターンのモデル化 • 何故モーラ遷移HMM? • 日本語のイントネーションはモーラ単位の時系列として近似的に表現できる • 韻律境界検出という用途で同様のHMMが利用され、良好な結果が得られた HMMを生成モードで利用すれば、F0パターンを生成できる
a11 a22 a33 a44 a13 a12 a23 a34 2 4 3 1 b(1|3)~b(K|3) b(1|1)~b(K|1) b(1|2)~b(K|2) b(1|4)~b(K|4) 離散隠れマルコフモデル(HMM) Symbols: 1,2, ..., K モデルと出力記号列を繰り返し対応させることによって、モデルの パラメータ(遷移確率及び出力確率)をそれらの記号列の特徴に 適応させることができる(学習)
モーラ遷移HMMに基づくイントネーションモデルモーラ遷移HMMに基づくイントネーションモデル 韻律語(accentual phrase) HMM 状態遷移 モーラ遷移 出力記号 (shape,deltaF0) shape: モーラ単位F0パターンのクラスタに対応するコード(32種類) deltaF0: 先行モーラの平均値との差分(32の値)
se, i shi, no, ji wa ta N モーラ遷移HMMに基づくイントネーションモデル Example: ‘watashino jinsei’ no ta shi ji N se i wa F0 t
ステップ1:データベース作成 • ATRの連続音声データベースを使用(500文,話者MHT) • モーラ単位に分割 • モーララベルの付与 • F0パターンを抽出 • LBG法によるクラスタリング • 全データベースにクラスタクラスを付与
ステップ2:HMMの作成(1) (a) 平板型、頭高型 (a) 中高型
ステップ2:HMMの作成(2) • 単位:韻律語(intonational phrase) • モデル化する情報 • 韻律語の位置 • アクセント型 位置=1(先頭) アクセント型=3 例:「あらゆる」=PH1_3
ステップ3:HMMの学習 • 通常のFBアルゴリズムを使用 • Entropic社のHTK • ATRの連続音声データベース(話者MHT) • Pentium IIクラスの計算機で数秒間
ステップ4:HMMに基づくF0パターンの生成 A) 認識 Likelihood Best path output sequence B) 合成 Best output sequence Best path
通常のViterbiアルゴリズム for t=2,3,...,T for it=1,2,...,S Dmin(t, it) = min(it-1){Dmin(t-1, it-1) + [-log a(it| it-1)] +[-log b(y(t)| it)]} (t, it) =argmin(it-1){Dmin(t-1, it-1)+[-log a(it| it-1)] +[-log b(y(t)| it)]} next it next t
最適出力符号の生成を目的としたViterbiアルゴリズム最適出力符号の生成を目的としたViterbiアルゴリズム for t=2,3,...,T for it=1,2,...,S Dmin(t, it) = min(it-1){Dmin(t-1, it-1) + [-log a(it| it-1)] +[-log b(ymax(t)| it)]} (t, it) =argmin(it-1){Dmin(t-1, it-1)+[-log a(it| it-1)] +[-log b(ymax(t)| it)]} next it next t
Bigramの導入 for t=2,3,...,T for it=1,2,...,S Dmin(t, it) = min(it-1){Dmin(t-1, it-1) + [-log a(it| it-1)] +[-log b(ymax(t)| it)]+[-log bigram(y(t)|y(t-1))]} (t, it) =argmin(it-1){Dmin(t-1, it-1)+[-log a(it| it-1)] +[-log b(ymax(t)| it)]+[-log bigram(y(t)|y(t-1))]} next it next t
Phrase Boundary Level Modeling Using HMM Pause Y/N J-TOBI B.I. Bound. Level 3 3 2 Y N N 1 2 3
Bigramの効果 PH1_0.original PH1_0.bigram PH1_1.original PH1_1.bigram PH1_2.original PH1_2.bigram