FC2ブログ
02«1.2.3.4.5.6.7.8.9.10.11.12.13.14.15.16.17.18.19.20.21.22.23.24.25.26.27.28.29.30.31.»04

たまひびとらの絵本の実

読書好きな姉妹と弟と父母の読んだ本

ベイズ推論による機械学習入門  再読 

bayesianinfmachinelearning.jpg
ベイズ推論による機械学習入門
ベイズ推論による機械学習入門

第4章
複数の分布が同時に存在する混合モデル。ここで扱う混合モデルは、パラメータは異なるが確率分布のタイプとしては同じ確率分布が複数ある、というもの。まずどの分布がどれだけの割合(混合比率)があり、それぞれの分布は固有のパラメータに基いていて(たとえばμやλ)、それぞれのデータポイントがどの分布に属するかは混合比率に基づいて確率的に決まり、生成されるデータポイントは所属が決まった分布上で確率的に値が決まる。混合分布は解析的に解くのが難しく、近似的手法で事後分布や予測分布を求める。

ギブス・サンプリングはMCMC(モンテカルロ)手法の1つ。求めたいパラメータや潜在変数を分ける(たとえばAとB)。①Aの値を観測値として扱ってBの値をランダム発生、②発生されたBの値を観測値として扱ってAの値をランダム発生、を繰り返してAとBの値を多数得て分布を理解する。

変分推論は、求めたい確率分布を変数ごとに独立仮定して近似する。p(z1, z2, z3) = q(z1)q(z2)q(z3)として、q(z2)とq(z3)を固定したときのKLダイバージェンス(≒確率分布間の距離)を最小化するq(z1)を求める。それからq(z2)に同じプロセス、q(z3)に同じプロセスを行い、全部のプロセスを繰り返す。変分推論では、変数間を独立として計算しているので、変数間が独立でない場合はうまく推論ができない。ただし計算は速い。

崩壊型ギブス・サンプリングは、最初に周辺化で変数の数を減らしてから、残りの変数をギブス・サンプリングする。S, s の扱いとかピンとこなかった。

とにかく計算が大変。行間の計算を埋めるのも大変。計算に気を取られていると、いったい何の計算をしているのかもわからなくなってしまう。特に観測されたものとする、というあたりはこんがらがる。
崩壊ギブス(4.77)では、なぜp(λ|S)とならずp(λ)となるのかわからなかった。
ギブス(4.100)では、p(μ, Λ|X, S)がなぜp(μ, Λ)として計算されるのかわからなかった。
誰か教えてください。


ELBO = Evidence Lower Bound は、周辺尤度が厳密に計算できないとき、(対数)周辺尤度の下限を求めることで近似値とする、というコンセプト。下限はジェンセンの不等式で求める。あ、これEMアルゴリズムででてきたな。

=========================================================================

確率統計の知識が上がったと思うので、ベイズを再読。今度は式の展開もちゃんとやる。

第1章
P19の赤玉白玉の問題は、難しい確率理論とかなしに、ベイズ理論がわかる。赤玉白玉サンプル3つの結果から、袋のどちらを選択したかの確率を求める。

逐次推論。各サンプルが互いに独立であるとき、新しいサンプルが得られたら、独立なので掛け算を1項加えればよい。つまり、多数サンプルの尤度を乗算Πで示せる。

第2章
ベータ分布やガンマ分布に従うXの対数の期待値の計算がある。ディガンマ関数までの導出はこちらのとおり

多次元ガウス分布のエントロピーの計算ではトレースが出てくる。Σが対称行列のとき、XtΣX = trace (ΣXXt)になる。これは計算すれば確認できる。分散共分散行列は対称行列なのでこれが使える。多次元ガウス分布のKLダイバージェンスの計算はかなり大変。

Wishart 分布は、カイ二乗分布(= ガンマ分布)のベクトルバージョン。平均0で共分散行列Σに従う独立なベクトルXがあるとき、XXtの和は Wishart 分布に従う。

第3章
本章では共役事前分布を使って事後分布の解析解を求める。解析的に事後分布がわかれば、単に数字を入れれば事後分布がピンポイントに求まるので便利。事前分布と尤度関数をかけると、出てくる事後分布が事前分布と同じ確率分布になってくる、というのが共役事前分布。その場合は予測分布(xの分布)の形も決まる。分布の再生性に似てるけど、モーメント母関数は使えない。モーメント母関数は独立な2つの確率分布の和を扱えるけど、ベイズでは非独立な2つの確率分布の積を扱う。

簡単なケースの1つ。事前分布p(x|λ)=ガンマ分布、尤度関数p(λ)=ポアソン分布、でかけ算をして整理すると、出てくる事後分布p(λ|x)もガンマ分布となる(ガンマ分布のパラメーターが更新されるだけ)。さらに予測分布p(x)を p(x)=∫p(x|λ)p(λ)dλでλ周辺化して求めると負の二項分布となることがわかる。他のケースでもやり方は同じ。尤度関数と事前分布のかけ算を整理して、事後分布が事前分布と同じ確率分布になることを示す(同じ確率分布でもパラメーターは更新される)。それから予測分布を周辺化で求める。計算はゴリゴリで大変。

スポンサーサイト



category: 父の本

cm 0   tb 0   page top

コメント

page top

コメントの投稿

Secret

page top

トラックバック

トラックバックURL
→http://tamahibi.blog122.fc2.com/tb.php/3889-dda7c18e
この記事にトラックバックする(FC2ブログユーザー)

page top

訪問者数

カテゴリ

最新記事

最新コメント

最新トラックバック