部分空間法と主成分分析(PCA)|はじめてのパターン認識9章 #6

f:id:lib-arts:20190107172430p:plain

#5では、11章の内容を取り扱いました。

#6では、9章の内容を部分空間法と主成分分析について取り扱えればと思います。
以下、目次になります。


1. 9章内容(部分空間法)
1.1 部分空間(9.1)
1.2 主成分分析(9.2)
1.3 特異値分解(9.3)
1.4 部分空間法(9.4)
1.5 ランダムフォレスト(9.5)
1.6 カーネル部分空間法(9.6)
2. まとめ&補足

3. 本全体の振り返り&今後の学習にあたって


1. 9章内容(部分空間法)

9章は部分空間に関連するアルゴリズムに関して諸々まとめられています。
数式変形が複雑でなかなか大変なので、一旦9.2の主成分分析だけ抑えて他は読み流しで十分なのではないかと思います。


1.1 部分空間(9.1)

9.1の部分空間ではこの後の議論を展開するにあたっての基本的な考え方を導入してくれています空間とは基底ベクトルによって張られるもので、本ではxで表されているものが基底ベクトルにあたるとされています。
深く考えると難しくなるので、この辺が苦手な方はざっくりと捉えられれば十分だと思います。
基礎事項としてざっくりだけでも抑えておくと良いのが、部分空間、1次独立、グラム-シュミットの正規直交化の三つになります。ここを外すと後の流れがさっぱりわからなくなるので、それぞれなんとなくのイメージだけでも持っておくようにしてください。


1.2 主成分分析(9.2)

9.2の主成分分析(PCA; Principal Component Analysis)は考え方のベースとして抑えておきたいポイントなので、多少難しくても読解する価値はあると思います。主成分分析は分散が最大になる方向に軸を取るような手法です。数式展開の詳細はわからなくても、下記にまとめた導出にあたってのなんとなくの論旨の流れを掴んでおくと良いです。
導出にあたっての論旨の流れとしては、係数ベクトルaによるデータの変換後の値をsとした際に、sの平均が0となることを利用してVar(s)をaの式で表した上で、分散をaのノルムを1にした制約条件化での最大化問題をラグランジュ関数の最大値問題で解くという話の流れになっています。この際の極値を取る条件が、共分散行列に関する固有値問題に帰着され、固有値ラグランジュの未定乗数であるλに、固有ベクトルが最初に定義したaに一致します。

とはいえちょっと難しいかもしれないので、30分くらい考えたけどわからなくて挫折しそうという方は結論として共分散行列の固有ベクトルを用いることで主成分分析が可能であり、またこの際の固有値を利用することでi番目の主成分までの累積寄与率(情報の含有率、例えば3つの主成分で99%の情報を含有できていたら他の成分の影響が小さいことがわかる)を求めることができるということだけは掴んでおければ十分です。

上記の導出の議論はPRMLの12章でも書かれていますが、こちらの方が読みやすいのでPRMLに取り掛かる前にはこちらの議論は抑えてから望む方が良いのではと思います。


1.3 特異値分解(9.3)

1.4 部分空間法(9.4)
1.5 ランダムフォレスト(9.5)
1.6 カーネル部分空間法(9.6)

9.3~9.6は一旦飛ばして必要に応じて調べるで良いと思います。後日他の記事とのバランスを見て追記するかもしれません。

 

2. まとめ&補足

主成分分析だけでも全体の流れを抑えておくと良いのではと思います。
省略したところについては後日他の記事とのバランスを見て追記するか検討できればと思います。

 

#6を持って『はじめてのパターン認識』の内容は一通り取り扱えたことになります。ある程度余裕が出てきたら2周目も良いのですが、優先順位的にそこまで高くない印象の場所も見受けられるのであまり無理しない方が良いかもしれません。あまり理論の理解だけにこだわると難しいところにはまってしまう恐れもあるので、最初から無理は禁物です。実務で用いている方はそれに関連して、そうではない方はKaggleなどのコンペティションのコンテンツを用いて実践してみると良いと思います。

この後読む本としては、がっつり理論面の記述を読みたいならPRMLなどが良いと思います。若干ギャップもあるので統計モデリングについてもざっくりおさえるなら「データ解析における統計モデリング入門(緑本)」などで先に感覚をつかむのも良いと思います。


まとめるなら、1冊読み切ったことで大体の基本的な言葉的については抑えられたと思いますので、色々と手を出してみて気になるところを調べて試していくのが良いのではと思います。なんだかんだ継続的に時間をかけていたら難しいこともだんだんとわかるようになるので、楽しんで継続できるように工夫するというのが一番重要だと思います!!