Ch_3 Finite Markov Decision Processes①|『Reinforcement Learning(by Sutton)』を読み解く #6

f:id:lib-arts:20191102182327p:plain

強化学習に関しては概要の確認やDeep Q Network関連を中心とした論文の解説や実装の確認などをこれまで行ってきましたが、ベースの知識の再整理ということで『Reinforcement Learning(by Sutton)』をまとめていきます。

https://www.andrew.cmu.edu/course/10-703/textbook/BartoSutton.pdf

こちらのpdfは英語で書かれているものの、情報が豊富かつ非常にわかりやすく記述されているので、概要をつかんだ後に確認するにはちょうど良いです。
#3〜#5では第8章のPlanning and Learning with Tabular Methodsの内容について取り扱いました。

Ch_8 Planning and Learning with Tabular Methods①|『Reinforcement Learning(by Sutton)』を読み解く #3 - lib-arts’s diary

Ch_8 Planning and Learning with Tabular Methods②|『Reinforcement Learning(by Sutton)』を読み解く #4 - lib-arts’s diary

Ch_8 Planning and Learning with Tabular Methods③|『Reinforcement Learning(by Sutton)』を読み解く #5 - lib-arts’s diary

#6では第3章のFinite Markov Decision Processesの内容について取り扱います。
以下目次になります。
1. Finite Markov Decision Processes(Section3)
1-1. The Agent–Environment Interface(Section3.1)
1-2. Goals and Rewards(Section3.2)
1-3. Returns and Episodes(Section3.3)
1-4. Unified Notation for Episodic and Continuing Tasks(Section3.4)
2. まとめ


1. Finite Markov Decision Processes(Section3)
Section3の冒頭では、この後の章で解く問題の設定として、Finite MDPs(Finite Markov Decision Processes)を導入するにあたっての導入について記述されています。

f:id:lib-arts:20200109193021p:plain

マルコフ決定過程(MDP; Markov Decision Process)は、逐次的意思決定(sequential decision making)の古典的な定式化であるとなっています。q_{*}(s,a)v_{*}(s)などの状態行動価値や状態価値を推定する(estimate)となっており、これらの状態依存量(state-dependent quantities)を導入することが重要であるとされています。MDPは強化学習の問題における数学的に理想化された形式で、問題の数学的な構造を考えるにあたっての重要な要素として、報酬(return)や価値関数(value functions)、ベルマン方程式(Bellman equations)を導入するとなっています。


1-1. The Agent–Environment Interface(Section3.1)
1-1節ではSection3.1のThe Agent–Environment Interfaceについて確認していきます。

f:id:lib-arts:20200109195011p:plain

f:id:lib-arts:20200109195027p:plain

まず導入として、強化学習の問題設定としてよく見る図であるFigure3.1が紹介されています。学習者(learner)や意思決定者(decision maker)はエージェント(agent)と呼び、エージェントに含まれない外部を環境(environment)と呼ぶとなっています。これらの相互作用の繰り返しで、逐次的意思決定(sequential decision making)が表現されると考えると良いのではと思います。環境(environment)は報酬(reward)も生成するとなっています。

f:id:lib-arts:20200109195947p:plain

次に、強化学習の数式を用いた立式にあたって、状態をS_{t}、行動をA_{t}、報酬をR_{t}と定義した上で、(3.2)式のように数式が定義されています。この式などをベースに意思決定問題の大枠が形作られています。


1-2. Goals and Rewards(Section3.2)
1-2節ではSection3.2のGoals and Rewardsについて確認していきます。

f:id:lib-arts:20200109200402p:plain

まず導入として、強化学習におけるエージェントの目的は報酬の最大化によって定式化できるとなっています。このとき、最大化というのは即時報酬(immediate reward)の最大化よりも累積報酬(cumulative reward)の最大化を意味しているとされています。この報酬を用いた目的の定式化は強化学習における最も特徴的なトピックであると述べられています。


1-3. Returns and Episodes(Section3.3)
1-3節ではSection3.3のReturns and Episodesについて確認していきます。

f:id:lib-arts:20200109201016p:plain

Section3.3では、エージェントの目的である累積報酬の最大化を形式的に取り扱うにあたって、エピソード(episodes)という概念を導入しています。エピソードはゲームの実施や迷路への取り組みなどの一連のエージェントと環境の相互作用のことを意味しています。このエピソードを導入することで(3.7)のTが具体的な値を持つようになります。

f:id:lib-arts:20200109202111p:plain

(3.7)の数式は累積報酬を元にした指標としてGを考えるにあたって、単純に報酬和を計算していましたが、同程度の報酬であれば即時報酬の方を優先できるように割引率(discount rate)を導入して(3.8)のような形式で指標Gを定義しています。


1-4. Unified Notation for Episodic and Continuing Tasks(Section3.4)
1-4節ではSection3.4のUnified Notation for Episodic and Continuing Tasksについて確認していきます。

f:id:lib-arts:20200109202750p:plain

ここでは数式の表記について議論がされており、3.11のように定義するとT=\infty\gamma=1のケースを考慮できるとなっています。


2. まとめ
#6では第3章のFinite Markov Decision Processesより、Section3.4までを取り扱いました。
#7では引き続き第3章より、Section3.5のPolicies and Value Functions〜Section3.7のOptimality and Approximationまでを取り扱います。