ジョンとヨーコのイマジン日記

想像してください。「あなたはぼくをプラグマティストだと言うかもしれない」と歌う、逆イマジンです。

自由エネルギーもカルバック・ライブラー情報量に基づく情報量規準とみなせる

前置き

なんでこんなのを書こうと思ったんだっけ. たぶん「周辺尤度はカルバック・ライブラー情報量に基づく情報量規準とは考え方が異なる」みたいな文をどっかで見て, ちょっとつっこみたくなったからだった気がする.

用語

すべてのデータを X, すべての未知パラメータを wとまとめて置き, 尤度を p(X|w), 事前分布を \phi(w) とする.

このとき事後分布  \phi^\ast(w|X) は次の式で表される.

 \displaystyle \phi^\ast(w|X) = \frac{p(X|w) \phi(w)}{\int p(X|w) \phi(w) \, dw} .

右辺の分母である  \int p(x|w) \phi(w) \, dwエビデンスとか周辺尤度と呼ばれ, モデルの比較に用いられることがある. エビデンスというのはあまりいい術語とは思えないけど, まあそう呼ばれる. 値が大きいほうがいいモデルであるとされる.

周辺尤度の対数をとって符号を反転したもの

\displaystyle F = -\log \left\{ \int p(X|w) \phi(w) \, dw \right\}

は自由エネルギーと呼ばれる.

カルバック・ライブラー情報量から見た自由エネルギー

データがなんらかの確率分布  q(x) から生成されていると仮定し, その分布を  p(x) と推測したとする.

カルバック・ライブラー情報量( {\mathrm KL})を次のように定義する.

 \displaystyle {\mathrm KL} = \int q(x)\log \frac {q(x)}{p(x)} \,dx \\
\displaystyle =\int q(x)\log q(x) \,dx - \int q(x) \log p(x) \,dx.

第1項はデータを生成した真の分布 q(x) のみによって決まる量であり, 推測された  p(x) に依存しない.

第2項が小さいほどカルバック・ライブラー情報量は小さくなる.

つまり, 第2項が小さいほどよい推測である.

第2項を \mathrm GE と置き, 汎化損失と呼ぶことにする.

 \displaystyle {\mathrm GE} = -\int q(x) \log p(x) \,dx.

ところで, 尤度と事前分布が与えられれば, 次のように未知パラメータを事前分布の下で平均して消去することができる.

 \displaystyle p^\ast(X)=\int p(X|w)\phi(w) \, dw

 p^\ast(x) は言わば「データなしでモデルだけから作った予測分布」である.

データを生成した真の分布  q(x) p^\ast(x) と推測したときの汎化損失は

 {\mathrm GE}^\ast= -\displaystyle \int q(x) \log p^\ast(x) \,dx

で与えられる.

汎化損失そのものを知ることができればそれに越したことはないが, 無理な相談なので真の分布  q(x) による平均(積分)をデータ X による標本平均で近似することにすると次のようになる.

\displaystyle {\mathrm GE}^\ast \approx -\log p^\ast(X)

右辺は自由エネルギーである.

つまり自由エネルギーが小さいモデルを選ぶことは, カルバック・ライブラー情報量を小さくするモデル(尤度と事前分布のセット)を, 経験的に選んでいることになる.