Ch_8 Planning and Learning with Tabular Methods①｜『Reinforcement Learning(by Sutton)』を読み解く #3

f:id:lib-arts:20191102182327p:plain

強化学習に関しては概要の確認やDeep Q Network関連を中心とした論文の解説や実装の確認などをこれまで行ってきましたが、ベースの知識の再整理ということで『Reinforcement Learning(by Sutton)』をまとめていきます。

https://www.andrew.cmu.edu/course/10-703/textbook/BartoSutton.pdf

こちらのpdfは英語で書かれているものの、情報が豊富かつ非常にわかりやすく記述されているので、概要をつかんだ後に確認するにはちょうど良いです。
#1では第6章のTemporal-Difference Learningについて、#2では第7章のn-step Bootstrappingについて取り扱いました。

Ch_6 Temporal-Difference Learning｜『Reinforcement Learning(by Sutton)』を読み解く #1 - lib-arts’s diary

Ch_7 n-step Bootstrapping｜『Reinforcement Learning(by Sutton)』を読み解く #2 - lib-arts’s diary

#3では第8章のPlanning and Learning with Tabular Methodsの第一回としてSection8.1までについて取り扱います。（今回はある程度詳細も確認しつつ進めたいので、少々ペースを落とした進行とします。）
以下目次になります。
1. Planning and Learning with Tabular Methods(Chapter8)
1-1. Models and Planning(Section8.1)
2. まとめ

1. Planning and Learning with Tabular Methods(Chapter8)
まずはChapter8の冒頭部について取り扱っていきます。

f:id:lib-arts:20191207133840p:plain

Chapter全体の概要を掴むにあたって、以下では上記を要約します。
要約：『この章では強化学習における、環境のモデルを必要とする手法(model-based)とモデルを必要としない手法(model-free)の統合された視点を紹介する。モデルを必要とする手法の例としてはdynamic programmingやheuristic searchなどがあり、モデルを必要としない手法はMonte Carloやtemporal-differenceの手法がある。model-basedなアプローチでは主要な考え方としてプランニング(planning)を用いているのに対して、model-freeの手法は学習(learning)を主要な考え方として用いている。model-basedとmodel-freeのアプローチは違いがあるものの手法間には大きな共通点があり、特にvalue functionの計算については共通している。この章の目標としてはmodel-basedとmodel-freeの二つの手法の類似に着目した統合を行うことである。』
model-basedとmodel-freeの二つが出ていますが、これらの類似点に着目した統合をChapter8では取り扱っていると考えておくと良さそうです。

1-1. Models and Planning(Section8.1)
Section8.1ではまず環境モデルの表現として、1)分布モデル(distribution model)、2)サンプルモデル(sample model)の二つが紹介されています。 $p(s',r|s,a)$ は分布モデルとされています。

f:id:lib-arts:20191207134139p:plain

上記のように、分布モデルからサンプルを作成できるという意味で分布モデルはサンプルモデルよりも強力であるとされていますが、多くの応用例においてはサンプルモデルの方が分布モデルよりも簡易であるとされています。

f:id:lib-arts:20191207134316p:plain

上記では初期状態が与えられた際にサンプルモデルや分布モデルの遷移確率やエピソードが与えられることについてまとめられています。詳細は少々異なるものの、これらのモデルに関連して環境をシミュレートする(simulate the environment)や、シミュレートされた経験を生み出す(produce simulated experience)という言葉が用いられるとされているので、simulateという言葉をこの遷移確率やエピソードの生成という文脈で抑えておくのが良さそうです。

f:id:lib-arts:20191207134958p:plain

次に、本におけるプランニング(planning)の言葉の意味合いについて定めています。この本ではプランニングを「モデルを入力として用いて、モデル化された環境とインタラクティブに方策(policy)を生み出し改善するもの」と捉えているとされています。

f:id:lib-arts:20191207135844p:plain

前述のプランニングの定義に基づいて、プランニングを進めるにあたっては、1)State-space planning、2)plan-space planning、の二つのアプローチがあるとされています。

f:id:lib-arts:20191207140008p:plain

state-space planningは、learning手法と共通の構造を持つとされています。詳細については章の中で解説していくとされていますが、主に二つのideaがあり、1)全てのstate-space planningがpolicyを改善させるにあたってvalue functionの計算を用いること、2)simulated experienceに適用された演算によってupdateされたりbackupされたりしたvalue functionを計算すること、の二つだとされています。この関係性はフローチャートに示されています。

フローチャートを理解することが第8章を読み解く上で一つ重要になりそうだと思われます。8.1の理解としては以降は細かい話のようだったので、ここまでとします。

2. まとめ
#3ではChapter8のPlanning and Learning with Tabular Methodsの第一回として、Section8.1のModels and Planningまでを取り扱いました。8.1で出てきたフローチャート(diagram)の理解を目標に置きながら進めていくのが良さそうだと思われました。
#4ではSection8.2以降について取り扱っていきます。