相関性の低い決定木の作成とランダムフォレスト｜高校数学の演習を通して理解する決定木・ランダムフォレスト #5

f:id:lib-arts:20190504225208p:plain

#1〜#3では決定木やランダムフォレストについて理解するにあたってベースとなる例題について取り扱いました。

#4では上記の例題を受けて、実際に決定木の学習について解説しました。

#5では決定木の多数決にあたって、相関性の低い（独立性の高い）決定木をどのように作るかに触れながらランダムフォレストについて解説を行えればと思います。
以下、目次になります。

1. ランダムフォレストにおける決定木の多数決
2. 相関性の低い決定木をどのように作成するか
3. まとめ

1. ランダムフォレストにおける決定木の多数決
1節ではランダムフォレストの大枠について捉えていきます。ランダムフォレストは複数の分類器（学習器）を用いて推論を行うアンサンブル学習(Ensemble Learning)の一つです。アンサンブル学習は大きく分けると各分類器が並列的に学習を行うバギング(bagging)と各分類器が連続的に学習を行なっていくブースティング(boosting)があるのですが、ランダムフォレストにおいては決定木を独立的に学習させるので、バギングの一種と捉えておくと良いです。
ここで#2の復習として、各意思決定主体が独立して意思決定を行う際は多数決によって正答率が上がるということを示したと思います。例えば3つの分類器の多数決においてはex.04の(4)のP(ratio)を計算することで0.5~1の区間で1以上になることを示しました。

しかし、ここで気になるのは多数決そのものではなく、それぞれの意思決定主体の独立性をどのようにして実現するかです。
独立的に決定木を学習させるとはいえ、同じデータセットを用いて学習させてしまっては大体同じような分類器ができてしまい、多数決による精度向上がうまくいきません。したがって、決定木の相関を下げるために一工夫が必要になります。その工夫に関しては2節で言及していきます。

2. 相関性の低い決定木をどのように作成するか
1節では#2の復習などをしながらランダムフォレストにおける決定木の多数決について触れ、どのようにして相関性の低い決定木を作るかが懸念すべき事項であることについて述べました。2節では相関性の低い決定木の構築方法についてまとめていきます。
この辺は若干定性的な話になるのですが、相関性の低い意思決定を実現するにあたっては二つアプローチがあると思います。
===
(1) 独立した経験を積ませる
(2) 同じ経験に対して違った見方を与える
===
もう少し噛み砕くなら(1)はそもそも違った経験をしていれば違った意思決定をするようになるということを意味しており、(2)はたとえ同じ経験をしたとしても見方によっては意思決定の仕方は異なる（ex.ディスカッション etc）ということを意味しています。
ランダムフォレストにおいて相関性の低い木を生成するという文脈で上記を考えると、(1)はサンプルをランダムに選ぶ、(2)は使用する変数をランダムに選ぶことで実現できます。この際にサンプルや変数をランダムに選んで学習した決定木の集合なのでこれを総称してランダムフォレストと言っています。

f:id:lib-arts:20190510225231p:plain

（ランダムフォレスト - Wikipedia）
詳細の手順に関してはWikipediaのランダムフォレストの解説でまとめられているので、こちらを参考にしていただけたらと思います。

3. まとめ
#5ではランダムフォレストにおける決定木の多数決の意味の大枠と、相関性の低い木を作成する方法についてまとめました。
#1〜#5で一通りランダムフォレストについてはまとめることができたので、一旦こちらのシリーズは一区切りとします。次シリーズでは決定木ベースのアルゴリズムなどについて近年流行りの内容をベースにまとめていくと面白そうなので時間の余裕がある際に書き進められればと思います。