回帰モデルのパラメータのベイズ化|高校数学の演習を通して理解する確率分布と最尤法 #6

f:id:lib-arts:20191112170245p:plain

当シリーズでは、高校レベルの数学と絡めながら確率分布と最尤法について取り扱っています。
#1では集合・確率と様々な関数(指数関数、対数関数)について、#2では確率分布のグラフ化と掛け算と対数について、#3では合成関数の微分と最大値問題について、#4では確率分布のパラメータと最尤法について、#5では最尤法と回帰モデルについて取り扱いました。

集合・確率&様々な関数(指数関数、対数関数)|高校数学の演習を通して理解する確率分布と最尤法 #1 - lib-arts’s diary

確率分布のグラフ化&掛け算と対数|高校数学の演習を通して理解する確率分布と最尤法 #2 - lib-arts’s diary

合成関数の微分と最大値問題|高校数学の演習を通して理解する確率分布と最尤法 #3 - lib-arts’s diary

確率分布のパラメータと最尤法|高校数学の演習を通して理解する確率分布と最尤法 #4 - lib-arts’s diary

最尤法と回帰モデル|高校数学の演習を通して理解する確率分布と最尤法 #5 - lib-arts’s diary
#6では#5で取り扱った最尤法の回帰モデルへの導入をさらにベイズ化の文脈で確認できればと思います。
以下、目次になります。
1. ベイズの定理の紹介
2. 回帰モデルのパラメータのベイズ
2-1. 最尤法と回帰モデルの復習
2-2. パラメータのベイズ化とリッジ回帰
3. まとめ

 

1. ベイズの定理の紹介
1節ではベイズの定理について簡単にご紹介します。大枠についての説明なので、途中でわからなくなったら読み流して先に2節をご確認いただけたらと思います。
ベイズの定理について考えるにあたって重要なのが同時確率と条件付き確率の関係式です。
P(A,B) = P(A|B)P(B) = P(B|A)P(A)
ベイズの定理はこの式を変形することで下記を得ます。
\displaystyle P(A|B) = \frac{P(B|A)P(A)}{P(B)}
上記は通常のベイズの定理の式ですが、モデリングの分脈ではAにパラメータw、BにデータのDをおいて数式を考えます。
\displaystyle P(w|D) = \frac{P(D|w)P(w)}{P(D)}
この式はwの関数ですが、P(w|D)を最大にするwを求める問題についてここで考えます。手元のデータはすでに得られている前提で考えられるので、P(D)wについて考えるにあたっては定数とみなすことができます。
P(w|D) \propto P(D|w)P(w)
そのためwについてP(w|D)の最大値問題を考えるにあたって、上記のように数式を変形した上で、右辺の数式について見ていくことになります。ここで、P(D|w)wをパラメータと見なした上での尤度と考えることができ、P(w)wの事前分布と考えることができます。P(w|D)はデータが観測された後のwの事後分布と考えられます。

ここで、P(w|D)の最大値問題を考える意義ですが、尤度に事前に設定したwの確率分布を掛け合わせることで新たな指標を作り出していることに注目すると良いです。尤度(likelihood)を元に最大値問題を解いてwを求めるのが最尤法(Maximum Likelihood Estimation)なのに対し、事後確率を元に最大値問題を解いてwを求めるのが最大事後確率推定(Maximum a Posterior Estimation)になります。


2. 回帰モデルのパラメータのベイズ
2節では回帰モデルのパラメータのベイズ化について取り扱います。2-1節で#3や#5の内容を軽く振り返った上で、2-2節で1節の内容と絡めながら回帰モデルのパラメータのベイズ化について見ていきます。


2-1. 最尤法と回帰モデルの復習
2-1節では#3や#5の復習として最尤法と回帰モデルについて再度確認します。
\displaystyle L(a,b)=\Pi \frac{1}{\sqrt{2 \pi \sigma^2}}exp(-\frac{(y_{i}-(ax_{i}+b))^2}{2 \sigma_{1}^2})
#5では最尤法におけるパラメータの\mu_{i}ax_{i}+bを用いて表現することで、上記のようなabに対する尤度を計算しています。ここで簡易化のために、\sigma_{1}は定数とみなすものとします(パラメータの事前分布の分散と比較するために分散のパラメータは\sigma_{1}とおきました)。
\displaystyle log L(a,b)=\sum (-\frac{(y_{i}-(ax_{i}+b))^2}{2 \sigma^2} + Const) = - \frac{1}{2 \sigma_{1}^2}\sum (y_{i}-(ax_{i}+b))^2 + Const
対数尤度を計算すると上記のようになります。\sigma_{1}が定数と設定したので、非常に簡単な式になっています。これより最小二乗法(Ordinary Least Square)を導くことができたのですが、今回はここに1節で考えたベイズの定理の考え方を導入して最大事後確率推定を行っていきます。2-2節でこちらについて考えていきます。

 

2-2. パラメータのベイズ化とリッジ回帰
1節で定義したP(w|D) \propto P(D|w)P(w)の最大値問題を考えるにあたって、まずは右辺の対数を取ります。
log P(D|w)P(w) = log P(D|w) + log P(w)
このとき対数関数の性質から上記のように分解することができます。log P(D|w)はパラメータwがある上でのデータDが観測される同時確率を尤度と読み替えているのですが、ここでwabにあたり、Dy_{i}の集合にあたっています。そのため下記が成り立っています。
\displaystyle log P(D|w) = log L(a,b) = - \sum (y_{i}-(ax_{i}+b))^2 + Const
また、パラメータのabの事前分布は下記のようにそれぞれ正規分布を仮定します。簡易化のために、abは独立であると仮定しました(PRMLの1章に多変量の記載があるので詳しくはそちらを参照ください)。
\displaystyle P(a,b) = P(a)P(b) = \frac{1}{\sqrt{2 \pi \sigma_{2}^2}}exp(-\frac{a^2}{2 \sigma_{2}^2})×\frac{1}{\sqrt{2 \pi \sigma_{2}^2}}exp(-\frac{b^2}{2 \sigma_{2}^2})
したがって、aとbに着目するとlog P(w) = log P(a,b)は下記のようになります。
\displaystyle log P(a,b) = log P(a) + log P(b) = - \frac{1}{2 \sigma_{2}^2}(a^2 + b^2) + Const
これより、log P(D|w) + log P(w)は下記のように導出できます。
\displaystyle log P(D|w) + log P(w) = - \frac{1}{2 \sigma_{1}^2}\sum (y_{i}-(ax_{i}+b))^2 - \frac{1}{2 \sigma_{2}^2}(a^2 + b^2) + Const
これよりリッジ回帰の誤差関数の式を導くことができます。ここで\sigma_{1}\sigma_{2}の比が正則化項に着目する度合いの\lambdaを導くことができます。

ここまでの議論により、回帰モデルのパラメータの事前分布に正規分布を仮定して最大事後確率推定(Maximum a Posterior Estimation)を行うと、リッジ回帰の誤差関数が導出できることがわかります。


3. まとめ
#6では#5で行った最尤法を用いたパラメータの推定からもう少し踏み込んで、パラメータの最大事後確率推定を用いてパラメータの推定について議論しました。また、パラメータの事前分布に正規分布を仮定することで、リッジ回帰の誤差関数を導出できることがわかりました。
#7では今回の議論はパラメータの推定に関してだったので、ここからさらにもう少し踏み込んで予測分布(Predictive distribution)について取り扱います。