確率的複雑さと経験過程の関係について

ＩＢＩＳ２００１ 確率的複雑さと経験過程の関係について東京工業大学　　渡辺澄夫入出力から隠れた所は・・・秘密！８，６，２, … q(y|x) … p(y|x,w) … q(x) x x x ３　２　１

X1, X2, …, Xn例～q(x) : 真の分布 p(x|w) : 学習モデル (w ∈ W : コンパクト) カルバック距離 q(x) p(x|w) H(w) =∫ q(x) log dx 経験距離 n i=1 q(Xi ) p( Xi | w) 1 n Hn(w) = log Σ

ギブス推測 q(x) p(x|w) Ggibbs (n) = Exn Ew [∫q(x) log dx] ∫H(w)exp (-nHn(w)) dw = Exn [ ] ∫exp (-nHn(w)) dw 汎化誤差 dw = Φ(w)dw ベイズ推測 q(x) p(x|Xn) Gbayes (n) = Exn [ ∫q(x) log dx ] ∫exp ( -(n+1)Hn+1(w) ) dw = - Exn+1 [ log ] ∫exp (-nHn(w)) dw

ギブス，ベイズ推測における数学的問題 n →∞のexp( - n Hn(w) ) φ(w)　を解明せよ超関数として漸近展開せよ特異点の構造 exp( - n H(w) ) 確率的なゆらぎ H(w) - Hn(w)

0 正の実数カルバック情報量 H(g(u))=a(u) u1k1 u2k2 … udkd H(w) 特異点解消 g(u) パラメータ空間 W 実多様体 U 特異点解消定理 φ(u) = φ(g(u)) g’(u) φ(w)

√ 正規交差特異点 (0,1]d 上で H(w) = a(w) w12s1w22s2… wd2sd φ(w) = b(w) w1k1w2k2… wdkd 経験過程 Hn(w)-H(w) nH(w) 1 n n i=1 ζn (w) = = Σ r(Xi,w) √ 正規交差特異点では特異点上に解析的に拡張できるカルバック情報量 n Hn(w) = n H(w) + {nH(w)}1/2 ζn (w)

統計的推測と特異点解消の関係 a + bv 1 + v2 ζ(u,v) = x = u y = uv v ax + by x2 + y2 ζ(x,y) = O u y at + b t2 + 1 x = st y = s ζ(s,t) = s x O O t

経験過程 1 n n i=1 ζn (w) = Σ r(Xi,w) √ ζ(w) =　平均０，共分散 ∫r(x,w)r(x,w’) q(x) dx W上の正規確率過程 { r(x,w) ;w∈W} が q-Donsker lim Exn { F(ζn）} = E ζ{F(ζ）} n →∞ W がコンパクト， log p(x|w) が w について解析的なら lim Exn { supw |ζn(w)|k} = E ζ{supw |ζ(w)|k} n →∞

超関数の漸近展開 (log n)m-1 nλ exp( - n H(w) ) φ(w) n →∞ D(w) Laplace Transf tλ-1(-log t)m-1 D(w) δ( t – H(w) ) φ(w) t → 0 Mellin Transf D(w) (z+λ)m d j=1 Π wjsj z +kj = H(w)zφ(w)極超関数値ゼータ関数

事後分布は，どうなってゆくか？ exp( - n Hn(w) ) φ(w) = exp[ - n H(w) - {nH(w)}1/2 ζn (w)]φ(w) dt t n n = ∫ー δ( ー - H(w)) φ(w) exp( - t - t1/2 ζn (w) ) tλ-1t nλn = Σ∫dt ー (-log ー )m-1 Dkm(w) exp( - t - t1/2 ζn (w)) k,m ＝　Σ( n により小さくなる項) ×(確率的に揺らぐ項) 経験過程の性質特異点の性質

ベイズ推測の汎化誤差 ∫exp (-nHn(w)) φ(w) dw tλ-1t nλn = Σ∫dtdw ー (-log ー )m-1 Dkm(w) exp( - t - t1/2ζn (w)) を代入して分子 n+1 分母 n ∫exp ( -(n+1)Hn+1(w) ) dw Gbayes (n) = - Exn [ log ] ∫exp (-nHn(w)) dw λ 1 n n = ー + o(ー) ＝ λ{ log (n+1) – log n } + small order

ギブス推測の汎化誤差 ∫H(w) exp (-nHn(w)) φ(w) dw tλt nλn = Σ∫dt dw ー (-log ー)m-1Dkm(w) exp( - t - t1/2 ζn (w)) 分母 λ 分子λ-1 を代入して ∫H(w) exp (-nHn(w)) dw Ggibbs (n) = Exn [ ] ∫exp (-nHn(w)) dw t について部分積分 λ* 1 n n = ー + o(ー) λ< λ*

定理学習モデルのゼータ関数 J(z) = ∫ H(w)z φ(w) dw の最も原点に近い極を (-λ) とすると λ 1 n n Gbayes (n) = ー + o(ー) λ* 1 n n Ggibbs (n) = ー + o(ー) ここでλ< λ*， λ* は経験過程のある関数の平均

特異モデルの研究展開 G(n) モデルが真を含まない場合 Neural Networks, to appear. ★ n ★ λは体積次元 V(t) = c tλ 山崎 in this issue G(K) Jeffreys モデル選択 Jeffreys’ Prioir ★ Uniform 西上 in this issue K ★ 具体的モデル MLP G(n)≦ λ1(M,N,H) / n IEEE NN, to appear ★ Guass Mixture の解明 G(n)≦ λ2(M,H) / n 山崎　JNNS, to appear

∞ n=1 1 nz リーマンゼータ関数 Random Matrices Wigner’s Semi-circle ζ(z) = Σ ー J(z) = ∫H(w)zφ(dw) 学習モデルゼータ関数 Algebraic geometry Algebraic analysis レプリカ法ゼータ関数 f(α) = Exn [ Z(Xn)α ] ???

確率的複雑さ と 経験過程 の関係について