ガウス過程に入るにあたっての前提知識の整理(Ch.1,Ch.2)|『ガウス過程と機械学習』読解メモ #1

f:id:lib-arts:20190513194548p:plain

最近購入した『ガウス過程と機械学習』ですが読んでいて面白いので読解メモをまとめていきます。

ガウス過程と機械学習 | 書籍情報 | 株式会社 講談社サイエンティフィク
#1ではCh.1とCh.2の内容を元に事前知識の整理を行います。
以下目次になります。

1. 線形回帰モデルについて(Ch.1)
2. ガウス分布について(Ch.2)
3. まとめ


1. 線形回帰モデルについて(Ch.1)
本の1章では線形回帰モデルについて取り扱われています。トピックとしてはありふれている内容で既知ではあったのですが、正規方程式などの導出が非常に丁寧で読みやすく秀逸な解説だった印象です。ベクトルの微分などもしっかり補足してあり、基礎統計や大学教養レベルの数学(概要部分なので深くなくても良いです)の事前知識があれば読める内容になっていると思います。正規方程式の導出の計算をしっかり把握していない方は一度抑えておくのが良いかと思います。
大体の前置きは行ったので内容に入っていきます。細かい章の構成としては、1.1では単回帰、1.2では重回帰、1.3では線形回帰モデルと徐々に話を拡張していっています。理論的な話は単純な話を徐々に拡張していくという流れで理解すると全体像がつかみやすいケースが多いのですが、今回はそのパターンです。また、1.4では発展事項として正則化項を加えて学習を行うリッジ回帰について解説されています。
1.1の単回帰分析は基本的な内容ですし以前の記事でも記述したので省略します。本を読むか以前のブログだとこちらをご覧ください。

次に1.2の重回帰(multiple regression)も上記の記事で言及は行っていますが、本の説明が秀逸なのでここだけ少々取り扱います。(1.26)式を書き換えると以下の式になります。
\hat{y} = Xw (1.27)
この時、Xを計画行列(design matrix)と呼んでいます。この計画行列を考える際に注意すべきは定数項も表現に含んでくれていることです。定数項のところのXはx_{0}x_{1}ではなく1を代わりにおきます。このことで定数項も行列の積に含んで考えることができます。具体的にはy=w_{0}+w_{1}x_{1}+w_{2}x{2}においてw_{0}=w_{0}×1と考えるということです。
計画行列について把握して大元の予測の数式がわかったので次は正規方程式の導出過程についてです。計算の流れとしては、(1.29)で定めた誤差関数の最小値問題を解きます。(1.33)をw偏微分することで(1.46)、(1.47)と式変形し、(1.48)の正規方程式(normal equation)導出します。これをwについて解くと
w=(X^TX)^{-1}X^Ty (1.49)
を得ることができます。詳細は本の解説が一番わかりやすいのでそちらをご確認いただくのが良いかと思います。

1.3の線形回帰モデルでは、1.2の内容においてx_{k}φ_{k}(x)と変換するだけなので1.2の内容さえしっかり理解しておけば特に理解の障害はないかと思います。解としては
w=(φ^Tφ)^{-1}φ^Ty (1.67)
を導出できます。

1.4のリッジ回帰は誤差関数に正則化項のパラメータを加えて最適化を行うので、解として
w=(X^TX + αI)^{-1}X^Ty (1.77)
を導出することができます。

 

2. ガウス分布について(Ch.2)
1節ではCh.1の線形回帰モデルについてまとめたので、2節ではCh.2のガウス分布(Gaussian distribution)について取り扱います。ガウス分布は様々な場合に使用しますが、具体的に考えた方がわかりやすいので、観測されたデータが平均0分散σ^2正規分布に従うずれεを含んだものだとしてみましょう。この際に
p(ε)=N(0,σ^2)
と表すことができ、データの背後にこのノイズを仮定したりします。

正規分布の表記でよく見るのが上記で言及した平均0、分散1の標準正規分布と、平均μ、分散σ^2ガウス分布正規分布)のオーソドックスな確率密度関数です。このガウス分布のオーソドックスな表記は
N(x|μ,σ^2)=\frac{1}{\sqrt{2π}σ}(2.2)
のように(2.2)式で表現されています。

f:id:lib-arts:20190419173312p:plain
関数を図示すると上記のような釣鐘型の関数になります。上記は平均0、分散1の標準正規分布(standard normal distribution)の確率密度関数を計算したものです。正規分布は様々なシチュエーションで用いられており、特に2.1.2で言及されている線形回帰モデルにおいて正規分布を仮定した最尤法により最小二乗法を導き出せる話は有名です。
2.2ではリッジ回帰を導出しています。
2.3では多変量ガウス分布についてまとめられており、
N(x|μ,Σ)=\frac{1}{(\sqrt{2π})^D\sqrt{Σ}}exp(-\frac{1}{2}(x-μ)^TΣ^{-1}(x-μ))(2.18)
のように表されています。ここで重要なのがΣが次元をDとした際のD×Dの共分散行列だということです。共分散行列とデータの散らばりの関係性については47ページの図2.5などを確認しておくと良いです。


3. まとめ
上記で大体の基礎知識は整理できたので、3章以降は#2以降でまとめていければと思います。