Ch_3 Finite Markov Decision Processes②｜『Reinforcement Learning(by Sutton)』を読み解く #7

f:id:lib-arts:20191102182327p:plain

強化学習に関しては概要の確認やDeep Q Network関連を中心とした論文の解説や実装の確認などをこれまで行ってきましたが、ベースの知識の再整理ということで『Reinforcement Learning(by Sutton)』をまとめていきます。

https://www.andrew.cmu.edu/course/10-703/textbook/BartoSutton.pdf

こちらのpdfは英語で書かれているものの、情報が豊富かつ非常にわかりやすく記述されているので、概要をつかんだ後に確認するにはちょうど良いです。
#6では第3章のFinite Markov Decision ProcessesからSection3.4のUnified Notation for Episodic and Continuing Tasksまでの内容を取り扱いました。

Ch_3 Finite Markov Decision Processes①｜『Reinforcement Learning(by Sutton)』を読み解く #6 - lib-arts’s diary
#7では第3章の後半として、Section3.5のPolicies and Value Functionsから、Section3.7のOptimality and Approximationの内容について取り扱います。
以下目次になります。
1. Finite Markov Decision Processes②(Section3)
1-1. Policies and Value Functions(Section3.5)
1-2. Optimal Policies and Optimal Value Functions(Section3.6)
1-3. Optimality and Approximation(Section3.7)
2. まとめ

1. Finite Markov Decision Processes②(Section3)
1-1. Policies and Value Functions(Section3.5)
1-1節ではSection3.5のPolicies and Value Functionsについて確認していきます。

f:id:lib-arts:20200110173810p:plain

Section3.1〜Section3.4までではMDPを通して強化学習の基本的な問題設定について見てきましたが、Section3.5では問題を解いていくにあたっての指針として価値関数(Value Functions)を導入しています。価値関数はエージェントの置かれた状況の評価(how good)を行う関数で、評価については報酬(reward)の期待値(expectation)に基づいて推定(estimating)されます。価値関数という指標を導入するにあたって、1ステップごとに発生する報酬を考慮し、さらに即時的な報酬(immediate reward)だけでなく、将来も考慮した上での期待値を考慮するとなっています。

f:id:lib-arts:20200110174314p:plain

ここまでの話を数式で表現すると上記のようになり、ここで $\pi$ は方策(policy)といって、状況(state)が与えられた際にどのような行動(action)を取るかという概念です。そのため、数式(3.12)の意味としては、状態のsが与えられた際に、 $\pi$ にしたがって行動し続けた際の報酬の期待値で $v_{\pi}(s)$ を定義すると考えることができます。 $G_{t}$ についてはSection3.4で取り扱った内容を元に $R$ と $\gamma$ を用いた式として表記しています。また、状態だけではなく、行動も考慮した価値観数を考えるにあたって、数式(3.13)で状態行動価値関数も導入されています。価値関数を考えるにあたっての引数として、状態のsだけでなく、行動のaも導入されていますが、基本的な式変形自体は $v_{\pi}(s)$ も $\pi}(s,a)$ も同様な考えに基づいて変形されているということさえ押さえておけば十分です。

1-2. Optimal Policies and Optimal Value Functions(Section3.6)
1-2節ではSection3.6のOptimal Policies and Optimal Value Functionsについて確認していきます。

f:id:lib-arts:20200110175213p:plain

f:id:lib-arts:20200110175241p:plain

ここでは最適方策(Optimal Policies)について議論がされています。与えられた状況であるsに対して、最適な方策の $\pi$ が存在するとなっており、最適な方策(optimal policy)とは他の全ての方策よりも同等もしくは良い方策であるとされています。この方策を $\pi_{*}$ とし、数式(3.15)のように最適な価値関数(Optimal Value Function)を定義しています。同様に最適行動価値関数(optimal action-value function)も数式(3.16)のように定義されています。また、この際に、数式(3.13)を漸化式の要領で書き直すことにより数式(3.17)が得られていますが、これはベルマン方程式と同様の意味を持つ数式となっています。

1-3. Optimality and Approximation(Section3.7)
1-3節ではSection3.7のOptimality and Approximationについて確認していきます。

f:id:lib-arts:20200110180250p:plain

最適な価値関数や方策についてSection3.6で議論されていますが、一方でこの考え方をそのまま応用に移してベルマン方程式を解いて最適方策を求めるのは難しいということについて記述されています。例としてチェスが挙げられており、理論的な最適だけでなく近似解を求める必要性についても示唆されています。数式を用いた詳細の話はここではされていませんが、この辺の話はChapter5のMonte Carlo MethodsやChapter6のTemporal-Difference Learningに繋がってくると考えておけば良さそうです。

2. まとめ
#7では第3章の後半として、Section3.5のPolicies and Value Functionsから、Section3.7のOptimality and Approximationの内容について取り扱いました。
#8では第4章のDynamic Programmingについて取り扱います。