回帰モデルのパラメータのベイズ化|高校数学の演習を通して理解する確率分布と最尤法 #6
当シリーズでは、高校レベルの数学と絡めながら確率分布と最尤法について取り扱っています。
#1では集合・確率と様々な関数(指数関数、対数関数)について、#2では確率分布のグラフ化と掛け算と対数について、#3では合成関数の微分と最大値問題について、#4では確率分布のパラメータと最尤法について、#5では最尤法と回帰モデルについて取り扱いました。
集合・確率&様々な関数(指数関数、対数関数)|高校数学の演習を通して理解する確率分布と最尤法 #1 - lib-arts’s diary
確率分布のグラフ化&掛け算と対数|高校数学の演習を通して理解する確率分布と最尤法 #2 - lib-arts’s diary
合成関数の微分と最大値問題|高校数学の演習を通して理解する確率分布と最尤法 #3 - lib-arts’s diary
確率分布のパラメータと最尤法|高校数学の演習を通して理解する確率分布と最尤法 #4 - lib-arts’s diary
最尤法と回帰モデル|高校数学の演習を通して理解する確率分布と最尤法 #5 - lib-arts’s diary
#6では#5で取り扱った最尤法の回帰モデルへの導入をさらにベイズ化の文脈で確認できればと思います。
以下、目次になります。
1. ベイズの定理の紹介
2. 回帰モデルのパラメータのベイズ化
2-1. 最尤法と回帰モデルの復習
2-2. パラメータのベイズ化とリッジ回帰
3. まとめ
1. ベイズの定理の紹介
1節ではベイズの定理について簡単にご紹介します。大枠についての説明なので、途中でわからなくなったら読み流して先に2節をご確認いただけたらと思います。
ベイズの定理について考えるにあたって重要なのが同時確率と条件付き確率の関係式です。
ベイズの定理はこの式を変形することで下記を得ます。
上記は通常のベイズの定理の式ですが、モデリングの分脈ではAにパラメータ、Bにデータのをおいて数式を考えます。
この式はの関数ですが、を最大にするを求める問題についてここで考えます。手元のデータはすでに得られている前提で考えられるので、はについて考えるにあたっては定数とみなすことができます。
そのためについての最大値問題を考えるにあたって、上記のように数式を変形した上で、右辺の数式について見ていくことになります。ここで、はをパラメータと見なした上での尤度と考えることができ、はの事前分布と考えることができます。はデータが観測された後のの事後分布と考えられます。
ここで、の最大値問題を考える意義ですが、尤度に事前に設定したの確率分布を掛け合わせることで新たな指標を作り出していることに注目すると良いです。尤度(likelihood)を元に最大値問題を解いてを求めるのが最尤法(Maximum Likelihood Estimation)なのに対し、事後確率を元に最大値問題を解いてを求めるのが最大事後確率推定(Maximum a Posterior Estimation)になります。
2. 回帰モデルのパラメータのベイズ化
2節では回帰モデルのパラメータのベイズ化について取り扱います。2-1節で#3や#5の内容を軽く振り返った上で、2-2節で1節の内容と絡めながら回帰モデルのパラメータのベイズ化について見ていきます。
2-1. 最尤法と回帰モデルの復習
2-1節では#3や#5の復習として最尤法と回帰モデルについて再度確認します。
#5では最尤法におけるパラメータのをを用いて表現することで、上記のようなとに対する尤度を計算しています。ここで簡易化のために、は定数とみなすものとします(パラメータの事前分布の分散と比較するために分散のパラメータはとおきました)。
対数尤度を計算すると上記のようになります。が定数と設定したので、非常に簡単な式になっています。これより最小二乗法(Ordinary Least Square)を導くことができたのですが、今回はここに1節で考えたベイズの定理の考え方を導入して最大事後確率推定を行っていきます。2-2節でこちらについて考えていきます。
2-2. パラメータのベイズ化とリッジ回帰
1節で定義したの最大値問題を考えるにあたって、まずは右辺の対数を取ります。
このとき対数関数の性質から上記のように分解することができます。はパラメータがある上でのデータが観測される同時確率を尤度と読み替えているのですが、ここではとにあたり、はの集合にあたっています。そのため下記が成り立っています。
また、パラメータのとの事前分布は下記のようにそれぞれ正規分布を仮定します。簡易化のために、とは独立であると仮定しました(PRMLの1章に多変量の記載があるので詳しくはそちらを参照ください)。
したがって、aとbに着目するとは下記のようになります。
これより、は下記のように導出できます。
これよりリッジ回帰の誤差関数の式を導くことができます。ここでとの比が正則化項に着目する度合いのを導くことができます。
ここまでの議論により、回帰モデルのパラメータの事前分布に正規分布を仮定して最大事後確率推定(Maximum a Posterior Estimation)を行うと、リッジ回帰の誤差関数が導出できることがわかります。
3. まとめ
#6では#5で行った最尤法を用いたパラメータの推定からもう少し踏み込んで、パラメータの最大事後確率推定を用いてパラメータの推定について議論しました。また、パラメータの事前分布に正規分布を仮定することで、リッジ回帰の誤差関数を導出できることがわかりました。
#7では今回の議論はパラメータの推定に関してだったので、ここからさらにもう少し踏み込んで予測分布(Predictive distribution)について取り扱います。