1 / 21

Y= 8,6,2 … でしょう

学習者. W をどう  しよう?. p(y|x,w). 先生. Y= 8,6,2 … でしょう. q(y|x). …. 文字の例. q(x). …. x 3  x 2  x 1. 複雑な学習モデルと代数幾何の関係について  渡辺澄夫. p(y|x,w). 複雑な学習モデル. x. y. x. y.  学習し 推論する. 外から見えない部分が あると,何が起こる?. (1) 何がわかるか 学習モデル ⇔ 確率的複雑さ (2) どうやって計算するか (3) 何の役にたつか. 理論. 必要. 順 問題.

lorant
Download Presentation

Y= 8,6,2 … でしょう

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 学習者 Wをどう  しよう? p(y|x,w) 先生 Y=8,6,2… でしょう q(y|x) … 文字の例 q(x) … x3 x2 x1 複雑な学習モデルと代数幾何の関係について  渡辺澄夫

  2. p(y|x,w) 複雑な学習モデル x y x y  学習し 推論する 外から見えない部分が あると,何が起こる? (1) 何がわかるか 学習モデル ⇔ 確率的複雑さ(2) どうやって計算するか (3) 何の役にたつか

  3. 理論 必要 順問題 先生:q(y|x):分かっている ⇒ 例 (x1,y1) (x2,y2)… (xn,yn) ◎ 学習者 p(y|x,w) は,どれくらい先生に近い? 実用 学習理論の目的は… 先生:不明 ⇒  例 (x1,y1) (x2,y2)… (xn,yn) ◎先生は何だろう  ◎ 予測をあてたい 逆問題

  4. n 学習の結果  得られる Wの分布 p(w|例) ∝ Π p( yi | xi , w) φ (w) i=1 新しい xに   対する 予測 yは ∫ p(y|x, 例) = p(y|x,w) p(w|例) dw 第1話 「確率的複雑さ」とは何だろう q(x) ⇒ x1, x2, …, xn 入力 例 先生 q(y|x) ⇒ y1, y2, …, yn 学習モデル p(y|x,w):学習モデル φ(w) :事前分布

  5. 学習曲線 汎化誤差 K(n) K(n) ≡ E { K ( q || p(y|x, 例) ) } 例の現れ方の平均を表す n 先生から 「例を元に学習した人」 までの距離 K(n) が 例の数 n が多くなるとき、どのように小さくなってゆくか? (Kullback 情報量) 推論 q(y|x)と p(y|x)の距離 q(y|x) p(y|x) ∫ ∫ K( q || p ) = q(y|x) log --------- q(x) dxdy 順問題の目標 - 学習曲線を解明せよ

  6. 確率的複雑さ 確率的複雑さ=Z(例)のオーダー ベイズ因子(統計) 自由エネルギー(物理) F(例) ≡ - log Z(例) ∫ おおよそ正しい パラメータの体積 証拠,分配関数 Z(例)= exp ( - n Hn (w) ) φ(w) dw F(n) = E { F(例) } 注意:p(w|例) ∝ exp( -n Hn(w)) φ(w) n q(yi | xi) p(yi | xi, w) 先生から学習者 までの距離を 例を使って測ったもの 1 n 経験 距離 Hn (w) ≡ ---- ∑ log -------------- i=1 W を固定したときの カルバック距離 距離 H(w) ≡ K ( q || p(y|x,w) )

  7. 定理(Levin, Tishby, Solla, 1990 ; Amari, Murata 1993) K(n) = F(n+1) - F(n) ◎ 学習曲線は、確率的複雑さの増加分に等しい 順問題を解くためには,確率的複雑さを計算すればよい ◎ 確率的複雑さはパラメータ空間の幾何学と    緊密な関係がある(体積だから) ◎ 学習者が先生を含んでいなければ F(n) = n C (C = minw H(w)) ◎ 正則な統計モデルでは,学習者が先生を含んでいれば F(n) = (d/2) log n K(n) = d/(2n) (d:パラメータ数)

  8. 第2話 確率的複雑さと代数幾何 学習者は  先生を   含んで    いない 確率的 複雑さ 学習者は おおよそ 先生を 含んでいる F(例) 学習者は 先生を 含んでいる ? ? 関数近似の  問題 ? モデルの複雑さ ?を考える

  9. 学習モデルが作る空間 大きい モデル 学習モデル 出力 Y 中間 のモデル パ ラ メ | タ w C B A 小さい モデル 入力X パラメータ空間W

  10. 学習者のパラメータの分布 p(w|例) ∝ exp( -n Hn(w)) φ(w) H(w) = 0 先生の パラメータ 学習者 W ◎ 学習者から見ると,「先生」は,特異点を持つ    解析的集合のように見える.どうしよう?

  11. Pure Math. δ( t -H(w)) Gel’fand 超関数の 漸近展開 超関数 代数解析 b-関数 Oaku 計算機 代数 H(w)z Sato Bernstein 解析接続 Kashiwara Atiyah 特異点 解消 代数幾何 Hironaka 学習理論 情報理論 統計学 統計物理 exp(- nH(w)) 実世界 Applied Math.

  12. 局所的に H(g(u)) = a(u) u12k1 u22k2 …ud2kd g 特異的で ないものが 交わって いるだけ 別のパラメータ空間 U 広中の定理 (1964) Fields Medal 実数 H(w) パラメータの集合 W 先生のパラメータは こんがらがった特異点を持っている

  13. 定義 (-1)k δ(k)(x) 2・k! (z+(k+1)/2) x2z = Σ -------------------- k=0 ∫( ) tzdt (-1) k 2・k! δ(t-x2)= Σ ---- δ(k)(x) t (k-1)/2 k=0 例:超関数の展開 Ψ(k)(0) k! (2z+k+1) 1 0 ∫ x2z ψ(x) dx = Σ ---------------- k=0

  14. J(z) = ∫ H(g(u)) z|g’(u)| ψ(u) du 学習モデルの ゼータ関数 任意のψ(u)について 有理型関数(極は負の有理数) 極を (- λ),位数を m とすると, Dλm(u) (z+λ)m 先生に サポートを 持つ超関数 H(g(u))z |g’(u)| = Σ Σ -------------- Uの空間では,特異点は解消されている: H(g(u)) = a(u) u12k1 u22k2 …ud2kd

  15. δ(t-H(g(u))) |g’(u)| = Σ Σ tλ-1(-log t)m-1Dλm(u) Dλm(u) (z+λ)m H(g(u))z |g’(u)| = Σ Σ -------------- Mellin変換: (Mf)( z)=∫f(t) tzdt 逆Mellin 変換 カルバック情報量→0のときの パラメータの様子が表現されている

  16. 先生の上の正規確率過程 G(u) に弱収束   (Empirical Process) 代入 確率 変数 に 収束 (log n)m-1 Z(例) ⇒Σ Σ ----------- Zλm(Gn) nλ 確率的複雑さは… Z(例) = ∫ exp[- nHn(g(u))] φ(u) |g’(u)| du = ∫ exp[-nH(g(u))] exp[ (nH(w))1/2 Gn(u) ] φ(u) |g’(u)| du = ∫ ∫δ(t - nH(g(u))) exp[- t +t1/2 Gn(u) ] φ(u) |g’(u)| du dt

  17. 定理 F(n) = λlog n - (m-1) log log n + Const. m-1 n log n λ n K(n) = ----- - -------- ◎ 隠れた部分を持つ学習モデルについて初めて解明された ◎ λ,m はゼータ  J(z) = ∫H(w)z φ(w)dw の極と位数 ◎ ブローアップする毎に,λの上限が得られる ◎φ(w) が先生の上で正値なら 0< λ << d/2 ◎φ(w) ∝ [det I(w)]1/2 : Jeffreys 事前分布なら λ≧ d/2   (三層NNのときλ= d/2 )

  18. 確率的 複雑さ A B C 例数 学習曲線 A B C 例数 第3話 確率的複雑さは何の役にたつか? (1) 複雑なモデルの学習曲線の解明 先生 C B A 特異点は複雑なモデルが 実世界上で生きて行く上で役立つ

  19. (2)ハイパーパラメータの最適化 事前分布: φ(w| θ) ∫ F(例 | θ) ≡ - logexp ( - n Hn (w) ) φ(w| θ) dw これはθの(-対数尤度) ⇒ F(例 | θ)の最小化によってθを決める (Type II ML) ◎ 予測精度向上に役立つ    中間ユニットは,ほぼ1次従属の状態になる。  ◎ モデル選択も,同じ枠組み(モデルがθ )

  20. 最尤推定 Jeffreys Jeffreys 一様 一様 (3) モデル選択 平均汎化誤差 確率的複雑さ モデルの複雑さ モデルの複雑さ 先生が含まれているときは Jeffreys によって,先生が見つかる 確率的複雑さの増加分が 予測誤差と対応する

  21. まとめ 隠れた部分を持つ学習モデルは 特定不能である パラメータ空間は,特異な計量を持つ (1) 確率的複雑さ - 学習を測る道具 (2) 学習 - 代数幾何と関係がある (3) 複雑モデル+ベイズ - 応用上 有効である 問題 確率的複雑さの揺らぎ - 経験確率過程論        温度0極限 - 最尤、MAP

More Related