210 likes | 386 Views
学習者. W をどう しよう?. p(y|x,w). 先生. Y= 8,6,2 … でしょう. q(y|x). …. 文字の例. q(x). …. x 3 x 2 x 1. 複雑な学習モデルと代数幾何の関係について 渡辺澄夫. p(y|x,w). 複雑な学習モデル. x. y. x. y. 学習し 推論する. 外から見えない部分が あると,何が起こる?. (1) 何がわかるか 学習モデル ⇔ 確率的複雑さ (2) どうやって計算するか (3) 何の役にたつか. 理論. 必要. 順 問題.
E N D
学習者 Wをどう しよう? p(y|x,w) 先生 Y=8,6,2… でしょう q(y|x) … 文字の例 q(x) … x3 x2 x1 複雑な学習モデルと代数幾何の関係について 渡辺澄夫
p(y|x,w) 複雑な学習モデル x y x y 学習し 推論する 外から見えない部分が あると,何が起こる? (1) 何がわかるか 学習モデル ⇔ 確率的複雑さ(2) どうやって計算するか (3) 何の役にたつか
理論 必要 順問題 先生:q(y|x):分かっている ⇒ 例 (x1,y1) (x2,y2)… (xn,yn) ◎ 学習者 p(y|x,w) は,どれくらい先生に近い? 実用 学習理論の目的は… 先生:不明 ⇒ 例 (x1,y1) (x2,y2)… (xn,yn) ◎先生は何だろう ◎ 予測をあてたい 逆問題
n 学習の結果 得られる Wの分布 p(w|例) ∝ Π p( yi | xi , w) φ (w) i=1 新しい xに 対する 予測 yは ∫ p(y|x, 例) = p(y|x,w) p(w|例) dw 第1話 「確率的複雑さ」とは何だろう q(x) ⇒ x1, x2, …, xn 入力 例 先生 q(y|x) ⇒ y1, y2, …, yn 学習モデル p(y|x,w):学習モデル φ(w) :事前分布
学習曲線 汎化誤差 K(n) K(n) ≡ E { K ( q || p(y|x, 例) ) } 例の現れ方の平均を表す n 先生から 「例を元に学習した人」 までの距離 K(n) が 例の数 n が多くなるとき、どのように小さくなってゆくか? (Kullback 情報量) 推論 q(y|x)と p(y|x)の距離 q(y|x) p(y|x) ∫ ∫ K( q || p ) = q(y|x) log --------- q(x) dxdy 順問題の目標 - 学習曲線を解明せよ
確率的複雑さ 確率的複雑さ=Z(例)のオーダー ベイズ因子(統計) 自由エネルギー(物理) F(例) ≡ - log Z(例) ∫ おおよそ正しい パラメータの体積 証拠,分配関数 Z(例)= exp ( - n Hn (w) ) φ(w) dw F(n) = E { F(例) } 注意:p(w|例) ∝ exp( -n Hn(w)) φ(w) n q(yi | xi) p(yi | xi, w) 先生から学習者 までの距離を 例を使って測ったもの 1 n 経験 距離 Hn (w) ≡ ---- ∑ log -------------- i=1 W を固定したときの カルバック距離 距離 H(w) ≡ K ( q || p(y|x,w) )
定理(Levin, Tishby, Solla, 1990 ; Amari, Murata 1993) K(n) = F(n+1) - F(n) ◎ 学習曲線は、確率的複雑さの増加分に等しい 順問題を解くためには,確率的複雑さを計算すればよい ◎ 確率的複雑さはパラメータ空間の幾何学と 緊密な関係がある(体積だから) ◎ 学習者が先生を含んでいなければ F(n) = n C (C = minw H(w)) ◎ 正則な統計モデルでは,学習者が先生を含んでいれば F(n) = (d/2) log n K(n) = d/(2n) (d:パラメータ数)
第2話 確率的複雑さと代数幾何 学習者は 先生を 含んで いない 確率的 複雑さ 学習者は おおよそ 先生を 含んでいる F(例) 学習者は 先生を 含んでいる ? ? 関数近似の 問題 ? モデルの複雑さ ?を考える
学習モデルが作る空間 大きい モデル 学習モデル 出力 Y 中間 のモデル パ ラ メ | タ w C B A 小さい モデル 入力X パラメータ空間W
学習者のパラメータの分布 p(w|例) ∝ exp( -n Hn(w)) φ(w) H(w) = 0 先生の パラメータ 学習者 W ◎ 学習者から見ると,「先生」は,特異点を持つ 解析的集合のように見える.どうしよう?
Pure Math. δ( t -H(w)) Gel’fand 超関数の 漸近展開 超関数 代数解析 b-関数 Oaku 計算機 代数 H(w)z Sato Bernstein 解析接続 Kashiwara Atiyah 特異点 解消 代数幾何 Hironaka 学習理論 情報理論 統計学 統計物理 exp(- nH(w)) 実世界 Applied Math.
局所的に H(g(u)) = a(u) u12k1 u22k2 …ud2kd g 特異的で ないものが 交わって いるだけ 別のパラメータ空間 U 広中の定理 (1964) Fields Medal 実数 H(w) パラメータの集合 W 先生のパラメータは こんがらがった特異点を持っている
定義 (-1)k δ(k)(x) 2・k! (z+(k+1)/2) x2z = Σ -------------------- k=0 ∫( ) tzdt (-1) k 2・k! δ(t-x2)= Σ ---- δ(k)(x) t (k-1)/2 k=0 例:超関数の展開 Ψ(k)(0) k! (2z+k+1) 1 0 ∫ x2z ψ(x) dx = Σ ---------------- k=0
J(z) = ∫ H(g(u)) z|g’(u)| ψ(u) du 学習モデルの ゼータ関数 任意のψ(u)について 有理型関数(極は負の有理数) 極を (- λ),位数を m とすると, Dλm(u) (z+λ)m 先生に サポートを 持つ超関数 H(g(u))z |g’(u)| = Σ Σ -------------- Uの空間では,特異点は解消されている: H(g(u)) = a(u) u12k1 u22k2 …ud2kd
δ(t-H(g(u))) |g’(u)| = Σ Σ tλ-1(-log t)m-1Dλm(u) Dλm(u) (z+λ)m H(g(u))z |g’(u)| = Σ Σ -------------- Mellin変換: (Mf)( z)=∫f(t) tzdt 逆Mellin 変換 カルバック情報量→0のときの パラメータの様子が表現されている
先生の上の正規確率過程 G(u) に弱収束 (Empirical Process) 代入 確率 変数 に 収束 (log n)m-1 Z(例) ⇒Σ Σ ----------- Zλm(Gn) nλ 確率的複雑さは… Z(例) = ∫ exp[- nHn(g(u))] φ(u) |g’(u)| du = ∫ exp[-nH(g(u))] exp[ (nH(w))1/2 Gn(u) ] φ(u) |g’(u)| du = ∫ ∫δ(t - nH(g(u))) exp[- t +t1/2 Gn(u) ] φ(u) |g’(u)| du dt
定理 F(n) = λlog n - (m-1) log log n + Const. m-1 n log n λ n K(n) = ----- - -------- ◎ 隠れた部分を持つ学習モデルについて初めて解明された ◎ λ,m はゼータ J(z) = ∫H(w)z φ(w)dw の極と位数 ◎ ブローアップする毎に,λの上限が得られる ◎φ(w) が先生の上で正値なら 0< λ << d/2 ◎φ(w) ∝ [det I(w)]1/2 : Jeffreys 事前分布なら λ≧ d/2 (三層NNのときλ= d/2 )
確率的 複雑さ A B C 例数 学習曲線 A B C 例数 第3話 確率的複雑さは何の役にたつか? (1) 複雑なモデルの学習曲線の解明 先生 C B A 特異点は複雑なモデルが 実世界上で生きて行く上で役立つ
(2)ハイパーパラメータの最適化 事前分布: φ(w| θ) ∫ F(例 | θ) ≡ - logexp ( - n Hn (w) ) φ(w| θ) dw これはθの(-対数尤度) ⇒ F(例 | θ)の最小化によってθを決める (Type II ML) ◎ 予測精度向上に役立つ 中間ユニットは,ほぼ1次従属の状態になる。 ◎ モデル選択も,同じ枠組み(モデルがθ )
最尤推定 Jeffreys Jeffreys 一様 一様 (3) モデル選択 平均汎化誤差 確率的複雑さ モデルの複雑さ モデルの複雑さ 先生が含まれているときは Jeffreys によって,先生が見つかる 確率的複雑さの増加分が 予測誤差と対応する
まとめ 隠れた部分を持つ学習モデルは 特定不能である パラメータ空間は,特異な計量を持つ (1) 確率的複雑さ - 学習を測る道具 (2) 学習 - 代数幾何と関係がある (3) 複雑モデル+ベイズ - 応用上 有効である 問題 確率的複雑さの揺らぎ - 経験確率過程論 温度0極限 - 最尤、MAP