180 likes | 559 Views
論理生命学第 7 回: 潜在変数モデルと EM アルゴリズム. 渡辺一帆. 内容. 潜在変数モデルとは 例)混合正規分布 隠れマルコフモデル EM ( Expectation Maximization )法 潜在変数モデルの最尤推定のためのアルゴリズム. 講義資料: http://hawaii.naist.jp/~wkazuho/index-j.html. 混合正規分布(1). Gaussian Mixture Model ( GMM ). コンポーネント:. M 次元正規分布. 混合比 :. は確率ベクトル. パラメータ :.
E N D
論理生命学第7回:潜在変数モデルとEMアルゴリズム論理生命学第7回:潜在変数モデルとEMアルゴリズム 渡辺一帆
内容 潜在変数モデルとは 例)混合正規分布 隠れマルコフモデル EM(ExpectationMaximization)法 潜在変数モデルの最尤推定のためのアルゴリズム 講義資料:http://hawaii.naist.jp/~wkazuho/index-j.html
混合正規分布(1) Gaussian Mixture Model (GMM) コンポーネント: M次元正規分布 . . . . . . . . . . . . 混合比: . . . . . . . . . . . . . . . . は確率ベクトル パラメータ: 応用)クラスタリング, 密度推定
混合正規分布(2) 潜在変数(隠れ変数、不観測変数) どれか一つの要素のみが 1. 周辺化
隠れマルコフモデル(1) Hidden Markov Model (HMM) データ系列 1 2 3 :状態遷移確率 状態iから状態jへ遷移する確率 応用)文字列、時系列のモデリング :出力確率 状態iにおいてmを出力する確率
隠れマルコフモデル(2) 1 2 3 簡単のため (状態1からスタート) HMMの尤度 周辺化
演習 混合二項分布( は既知) について (1)潜在変数を として を表せ (2)ベイズの定理 により を表せ
最尤推定 学習データ: 潜在変数: 混合分布の場合:各 は独立と仮定 尤度関数: 最尤推定量: 潜在変数モデルでは EM(Expectation Maximization)法: 潜在変数モデルの最尤推定のための(効率的な)アルゴリズム
EMアルゴリズム • Q関数 とする (密度関数ではない) EMアルゴリズム 1. に適当な初期値を与える 2.Eステップ: を計算 3.Mステップ: を最大にする を とする • の対数尤度を計算し、収束しているか判定する • 収束していなければ、 として2.に戻る
準備:カルバック情報量 • 2つの確率分布 と の間の擬距離 xが離散のとき xが連続のとき • 等号は のときのみ ∵ として より (等号成立はt=1) ☆注意 データx上の確率分布間以外にも潜在変数y上やパラメータw上の確率分布間の距離を測る場合もあります
EMアルゴリズム(2) • EM法で尤度が増加する理由 (言いたいこと ) (∵ベイズの定理) 両辺を で期待値をとると
EMアルゴリズム(3) • EM法で尤度が増加する理由(続き) 潜在変数の分布に関するカルバック情報量 (∵カルバック情報量は非負) ととれば、 (尤度が必ず増加)
混合正規分布の場合 完全尤度: 各データは独立 潜在変数の事後分布 (*)
混合正規分布の場合 Q関数 とすると コンポーネントkからのデータ数 コンポーネントkからのデータの平均 +(wに依存しない項) EM法: (*)と(†)を繰り返す (†)
応用例)混合正規分布 (アルゴリズム) □:data( ) * Eステップ 初期化 * * * * Mステップ 終了 * * * 繰り返す *
まとめ 潜在変数モデルの実例 混合正規分布 隠れマルコフモデル 潜在変数モデルの最尤推定法のためのEMアルゴリズム
演習(つづき) 混合二項分布( は既知) について (1)潜在変数を として を表せ (2)ベイズの定理 により を表せ (3)n個のデータ が与えられたときの Q関数 を計算せよ( を用いて表せ) (4)EM法による尤度最大化のためのアルゴリズムを導け
ヒント • Qの最大化 +(wに依存しない項) はカルバック情報量なので非負 (等号成立は のとき) (等号成立は のとき)