Y= ８，６，２ … でしょう

学習者 Wをどう　しよう？ p(y|x,w) 先生 Y=８，６，２… でしょう q(y|x) … 文字の例 q(x) … x３　x２　x１複雑な学習モデルと代数幾何の関係について　　渡辺澄夫

p(y|x,w) 複雑な学習モデル x y x y 　学習し推論する外から見えない部分があると，何が起こる？ (1) 何がわかるか学習モデル ⇔ 確率的複雑さ(2) どうやって計算するか (3) 何の役にたつか

理論必要順問題先生：q(y|x)：分かっている ⇒　例 (x1,y1) (x2,y2)… (xn,yn) ◎　学習者 p(y|x,w) は，どれくらい先生に近い？実用学習理論の目的は… 先生：不明 ⇒　　例 (x1,y1) (x2,y2)… (xn,yn) ◎先生は何だろう　　◎　予測をあてたい逆問題

学習曲線 汎化誤差 K(n) K(n) ≡ E { K ( q || p(y|x, 例) ) } 例の現れ方の平均を表す n 先生から　「例を元に学習した人」　までの距離 K(n) が例の数 n が多くなるとき、どのように小さくなってゆくか？（Kullback 情報量）推論 q(y|x)と p(y|x)の距離 q(y|x) p(y|x) ∫ ∫ K( q || p ) = q(y|x) log --------- q(x) dxdy 順問題の目標　－　学習曲線を解明せよ

確率的複雑さ 確率的複雑さ＝Z（例）のオーダーベイズ因子（統計）自由エネルギー（物理） F(例)　≡ - log Z（例） ∫ おおよそ正しいパラメータの体積証拠，分配関数 Z（例）＝ exp ( - n Hn (w) ) φ(w) dw F(n) = E { F(例) } 注意：p(w|例) ∝ exp( -n Hn(w)) φ(w) n q(yi | xi) p(yi | xi, w) 先生から学習者までの距離を例を使って測ったもの 1 n 経験距離 Hn (w) ≡ ---- ∑ log -------------- i=1 W を固定したときのカルバック距離距離 H(w) ≡ K ( q || p(y|x,w) )

定理（Levin, Tishby, Solla, 1990 ; Amari, Murata 1993) K(n) = F(n+1) - F(n) ◎　学習曲線は、確率的複雑さの増加分に等しい順問題を解くためには，確率的複雑さを計算すればよい ◎　確率的複雑さはパラメータ空間の幾何学と　　　緊密な関係がある（体積だから） ◎　学習者が先生を含んでいなければ F(n) = n C (C = minw H(w)) ◎　正則な統計モデルでは，学習者が先生を含んでいれば F(n) = (d/2) log n K(n) = d/(2n) (d:パラメータ数）

第２話　確率的複雑さと代数幾何 学習者は　先生を　含んで　　いない確率的複雑さ学習者はおおよそ先生を含んでいる F（例）学習者は先生を含んでいる ? ? 関数近似の　問題 ? モデルの複雑さ ?を考える

学習モデルが作る空間 大きいモデル学習モデル出力Ｙ中間のモデルパラメ｜タ w C B A 小さいモデル入力X パラメータ空間W

学習者のパラメータの分布 p(w|例) ∝ exp( -n Hn(w)) φ(w) H(w) = 0 先生のパラメータ学習者 W ◎　学習者から見ると，「先生」は，特異点を持つ　　　解析的集合のように見える．どうしよう？

Pure Math. δ( t -H(w)) Gel’fand 超関数の漸近展開超関数代数解析 b-関数 Oaku 計算機代数 H(w)z Sato Bernstein 解析接続 Kashiwara Atiyah 特異点解消代数幾何 Hironaka 学習理論情報理論統計学統計物理 exp(- nH(w)) 実世界 Applied Math.

局所的に H(g(u)) = a(u) u12k1 u22k2 …ud2kd g 特異的でないものが交わっているだけ別のパラメータ空間　U 広中の定理 (1964) Fields Medal 実数 H(w) パラメータの集合 W 先生のパラメータはこんがらがった特異点を持っている

定義 (-1)k δ(k)(x) 2･k! (z+(k+1)/2) x2z = Σ -------------------- k=0 ∫( ) tzdt (-1) k 2･k! δ(t-x2)= Σ ---- δ(k)(x) t (k-1)/2 k=0 例：超関数の展開 Ψ(k)(0) k! (2z+k+1) 1 0 ∫ x2z ψ(x) dx = Σ ---------------- k=0

J(z) = ∫ H(g(u)) z|g’(u)| ψ(u) du 学習モデルのゼータ関数任意のψ(u)について有理型関数（極は負の有理数）極を (- λ)，位数を m とすると， Dλm(u) (z+λ)m 先生にサポートを持つ超関数 H(g(u))z |g’(u)| = Σ Σ -------------- Uの空間では，特異点は解消されている： H(g(u)) = a(u) u12k1 u22k2 …ud2kd

δ(t-H(g(u))) |g’(u)| = Σ Σ tλ-1(-log t)m-1Dλm(u) Dλm(u) (z+λ)m H(g(u))z |g’(u)| = Σ Σ -------------- Mellin変換： (Mf)( z)=∫f(t) tzdt 逆Mellin 変換カルバック情報量→０のときのパラメータの様子が表現されている

先生の上の正規確率過程 G(u) に弱収束　　（Empirical Process) 代入確率変数に収束 (log n)m-1 Z（例） ⇒Σ Σ ----------- Zλm(Gn) nλ 確率的複雑さは… Z（例） = ∫ exp[- nHn(g(u))] φ(u) |g’(u)| du = ∫ exp[-nH(g(u))] exp[ (nH(w))1/2 Gn(u) ] φ(u) |g’(u)| du = ∫ ∫δ(t - nH(g(u))) exp[- t +t1/2 Gn(u) ] φ(u) |g’(u)| du dt

定理 F(n) = λlog n - (m-1) log log n + Const. m-1 n log n λ n K(n) = ----- - -------- ◎　隠れた部分を持つ学習モデルについて初めて解明された ◎　λ，m はゼータ　 J(z) = ∫H(w)z φ(w)dw の極と位数 ◎　ブローアップする毎に，λの上限が得られる ◎φ(w) が先生の上で正値なら　0< λ << d/2 ◎φ(w) ∝ [det I(w)]1/2 : Jeffreys 事前分布なら λ≧ d/2 　　（三層NNのときλ= d/2 ）

確率的 複雑さ A B C 例数学習曲線 A B C 例数第３話　確率的複雑さは何の役にたつか？ (1) 複雑なモデルの学習曲線の解明先生 C B A 特異点は複雑なモデルが実世界上で生きて行く上で役立つ

（２）ハイパーパラメータの最適化 事前分布： φ(w| θ) ∫ F(例 | θ)　≡ - logexp ( - n Hn (w) ) φ(w| θ) dw これはθの（－対数尤度） ⇒　F(例 | θ)の最小化によってθを決める（Type II ML) ◎　予測精度向上に役立つ　　　中間ユニットは，ほぼ１次従属の状態になる。　 ◎　モデル選択も，同じ枠組み（モデルがθ ）

最尤推定 Jeffreys Jeffreys 一様一様（３）　モデル選択平均汎化誤差確率的複雑さモデルの複雑さモデルの複雑さ先生が含まれているときは Jeffreys によって，先生が見つかる確率的複雑さの増加分が予測誤差と対応する

まとめ 隠れた部分を持つ学習モデルは　特定不能であるパラメータ空間は，特異な計量を持つ（１）　確率的複雑さ　－　学習を測る道具（２）　学習　－　代数幾何と関係がある（３）　複雑モデル＋ベイズ　－　応用上　有効である問題確率的複雑さの揺らぎ　－　経験確率過程論　　　　　　　温度０極限　－　最尤、ＭＡＰ

Y= ８，６，２ … でしょう

Y= ８，６，２ … でしょう

Presentation Transcript