Ch_8 Planning and Learning with Tabular Methods②|『Reinforcement Learning(by Sutton)』を読み解く #4

f:id:lib-arts:20191102182327p:plain

強化学習に関しては概要の確認やDeep Q Network関連を中心とした論文の解説や実装の確認などをこれまで行ってきましたが、ベースの知識の再整理ということで『Reinforcement Learning(by Sutton)』をまとめていきます。

https://www.andrew.cmu.edu/course/10-703/textbook/BartoSutton.pdf

こちらのpdfは英語で書かれているものの、情報が豊富かつ非常にわかりやすく記述されているので、概要をつかんだ後に確認するにはちょうど良いです。
#3では第8章のPlanning and Learning with Tabular Methodsの第一回としてSection8.1までについて取り扱いました。

Ch_8 Planning and Learning with Tabular Methods①|『Reinforcement Learning(by Sutton)』を読み解く #3 - lib-arts’s diary

#4では第8章のPlanning and Learning with Tabular Methodsの第二回としてSection8.2〜Section8.3について取り扱います。
以下目次になります。
1. Dyna: Integrated Planning, Acting, and Learning(Section8.2)
2. When the Model Is Wrong(Section8.3)
3. まとめ


1. Dyna: Integrated Planning, Acting, and Learning(Section8.2)
Section8.2ではPlanningやLearningを統合する考え方としてDyna-Qについて紹介されています。

f:id:lib-arts:20191215215650p:plain

f:id:lib-arts:20191215215706p:plain

第一パラグラフでは、プランニングを随時行っていくにあたって、環境モデルの都度の変更をどのように扱っていくかについての解決として、Dyna-Qを提起しているということについて述べられています。

f:id:lib-arts:20191215220100p:plain

第二パラグラフでは、プランニングにおいて実際の経験(real experience)は少なくとも二つの役割があるとされており、一つ目は直接モデルを学習させるために用いられる(model learning)役割、二つ目は直接価値関数(value function)や方策(policy)を改善させる(direct RL; direct reinforcement learning)役割とされています。また、この際の経験(experience)、モデル(model)、価値関数(value)、方策(policy)の関係性は右側の図に集約されているとされています。

f:id:lib-arts:20191215220910p:plain

第三パラグラフでは、直接価値関数や方策を学習させる(direct)アプローチと、モデルを介して間接的に学習する方法はそれぞれプラス面とマイナス面があるとされています。モデルを介して間接的に学習する方法は、実際の環境との相互作用(interaction)が少なくても経験から効率的に学習できるとされています。一方で経験から直接学習する方法は、シンプルでモデルの設計におけるバイアスに影響を受けにくい(安定する)とされています。directなアプローチとindirectなアプローチはそれぞれどちらかの方が良いとされる論調が多いですが、それは誇張で、対立的に見るのではなく、類似に着目するべきとされています。

f:id:lib-arts:20191215221755p:plain

f:id:lib-arts:20191215221815p:plain

第四パラグラフでは、Dyna-Qは第二パラグラフで取り扱われていたdiagramにおけるplanning、acting、model-learning、direct-RLの全てのプロセスを含んでいるとされています。

f:id:lib-arts:20191215222159p:plain

f:id:lib-arts:20191215222215p:plain

第五パラグラフでは、Dyna Qを含む枠組みであるDyna agentの全体の構造として、Figure8.1に図示されています。真ん中の列は環境との相互作用(interaction)、左は経験(real experience)を用いて価値関数や方策の直接的な更新を意味し、右は経験を元にmodelを更新し最終的に価値関数や方策の間接的な更新を意味するとされています。

f:id:lib-arts:20191215223000p:plain

f:id:lib-arts:20191215223019p:plain

第六パラグラフでは、Dyna-Qの擬似コードでのアルゴリズム(pseudocode algorithm)について紹介されています。基本的にQ学習の話に似ていますが、報酬と次ステップの更新だけModel(S,A)を用いていることについて記載されています。

大体概要についてつかめたので1節はここまでとします。


2. When the Model Is Wrong(Section8.3)
Section8.3ではモデルが間違っていた際にどう考えるべきかについてまとめられています。

f:id:lib-arts:20191215225607p:plain

第一パラグラフでは、まず、一般的に環境モデルが最初から正しいと期待することは難しいとされています。その理由として、1)環境が確率的であること、2)観測できるサンプルの数に限りがあること、3)環境モデルの学習において一般化が不十分な関数近似を用いていること、4)感競争のものが変わり同じ行動が観測されないこと、が挙げられています。モデルが不完全な状況においては、プランニングは準最適な方策(suboptimal policy)を計算するようであるとされています。

f:id:lib-arts:20191215230419p:plain

第二パラグラフでは、プランニングによって計算された準最適方策は環境のモデリングの誤差の訂正や新たな発見に役立つケースがあるとされています。

f:id:lib-arts:20191215230743p:plain

f:id:lib-arts:20191215230756p:plain

第三パラグラフでは、探索と知識利用のジレンマ(exploration and exploitation dilemma)について言及されています。プランニングのコンテクストでは、探索(exploration)は環境モデルを改善させようと試みること、知識利用(exploitation)は既存で与えられている環境モデルを用いて最適な方策にしたがって行動すること、がそれぞれあてはまるとされています。

大体の論旨がつかめたので2節はここまでとします。


3. まとめ
#4ではChapter8のPlanning and Learning with Tabular Methodsの第二回として、Section8.2のDyna: Integrated Planning, Acting, and Learningから、Section8.3のWhen the Model Is Wrongまでを取り扱いました。
#5ではSection8.4以降について取り扱っていきます。