周辺正規分布(Marginal Gaussian distributions)|改めて理解する多次元正規分布 #3

f:id:lib-arts:20201105153023p:plain

当シリーズは多次元正規分布を改めて理解しようということで進めています。下記などを主に参照しています。

Pattern Recognition and Machine Learning | Christopher Bishop | Springer

上記テキストのSection2-3の"The Gaussian Distribution"を中心に関連文脈の確認を行なっていきます。

参照テキストは2次元に限らない形式で記述されている項目もありますが、多次元に関連する一般的な式で議論するとややこしいので、当シリーズでは基本的に2次元ベースで考えていきたいと思います。
#1ではマハラノビス距離の図的な意味合いについて、#2では条件付き正規分布について確認しました。

#3では周辺正規分布(Marginal Gaussian distributions)について確認します。

以下、#3の目次になります。
1. 理論の流れの把握
2. Python実装による確認
3. まとめ


1. 理論の流れの把握
1節では参照テキストのSection2-3-2の"Marginal Gaussian distributions"の把握を行います。計算が複雑ですが、論理の流れ自体は基本的には平方完成がベースでシンプルなので、大元の記載が難しい場合は2次元に置き換えて大枠を掴むことを優先するのが良いかと思います。

f:id:lib-arts:20201105153518p:plain

さて、まず周辺分布(Marginal distributions)の定義ですが上記の(2.83)式のようになります。少しややこしいですが、x_bについて積分し、x_aについての確率分布を得ていることを念頭に把握しておくと良いかと思います。また、議論の流れとして、条件付き分布と同様に指数関数の中の二次形式(quadratic form)を考えることで、周辺分布のp(x_a)の平均(mean)や共分散(covariance)を考えるとしています。

f:id:lib-arts:20201105161649p:plain

x_bに関する積分を考えるにあたって、上記の(2.84)式ではマハラノビス距離をx_bに関する項だけ抜き出し、x_bに関して平方完成(completing the square)を行っています。ここで式を整理するために、(2.85)式のようにmという文字を定義しています。

f:id:lib-arts:20201105162044p:plain

f:id:lib-arts:20201105163030p:plain

さて、(2.84)式をベースにした積分を考えるにあたって、x_bに関する項は(2.84)式の右辺の第1項のみなので、この積分を上記の(2.86)式で考えています。これは正規分布のせい聞かされていない状態とも見ることができるので、積分後の値はこの後にx_aについて考えていくにあたっては考慮しなくて良いとされているようです(本文のニュアンスが掴み切れてないのですが、その後の式展開を見ると(2.86)式は考慮されていないのでこの記述で正しいと思います)。したがって(2.84)式の右辺の第2項と、(2.70)の式からこれまで考慮しなかった式を引っ張ってきて(2.87)式を導出しています。(2.87)式をx_aの関数と見た際に、(2.88)式と(2.89)式がそれぞれ共分散(2次元で考えた場合は分散)と平均を表しています。

f:id:lib-arts:20201105163413p:plain

残りの議論は省略しますが、周辺分布の平均と共分散は上記の(2.92)式と(2.93)式になり、これは元々のx_aの平均と共分散(x_aスカラーの場合は分散)に一致しているということがここで確認できます。

 

2. Python実装による確認
実装については#2と図の内容が同様なので、改めて比較として載せます。

from scipy.stats import norm

x = np.arange(-1, 2, 0.01)
y_1 = norm.pdf(x, loc=0.64, scale=0.51)
y_2 = norm.pdf(x, loc=0.5, scale=1)

plt.plot(x, y_1, color='red')
plt.plot(x, y_2, color='blue')
plt.show()

上記を実行すると下記のようになります。

f:id:lib-arts:20201104171626p:plain

上記の青が周辺分布、赤がx_b=0.7における条件付き分布となっています。


3. まとめ
#3では周辺正規分布(Marginal Gaussian distributions)について取り扱いました。
#4では参照テキストSection2-3-3のベイズの定理の導入について確認します。