Ch_3 Finite Markov Decision Processes①|『Reinforcement Learning(by Sutton)』を読み解く #6
強化学習に関しては概要の確認やDeep Q Network関連を中心とした論文の解説や実装の確認などをこれまで行ってきましたが、ベースの知識の再整理ということで『Reinforcement Learning(by Sutton)』をまとめていきます。
https://www.andrew.cmu.edu/course/10-703/textbook/BartoSutton.pdf
こちらのpdfは英語で書かれているものの、情報が豊富かつ非常にわかりやすく記述されているので、概要をつかんだ後に確認するにはちょうど良いです。
#3〜#5では第8章のPlanning and Learning with Tabular Methodsの内容について取り扱いました。
#6では第3章のFinite Markov Decision Processesの内容について取り扱います。
以下目次になります。
1. Finite Markov Decision Processes(Section3)
1-1. The Agent–Environment Interface(Section3.1)
1-2. Goals and Rewards(Section3.2)
1-3. Returns and Episodes(Section3.3)
1-4. Unified Notation for Episodic and Continuing Tasks(Section3.4)
2. まとめ
1. Finite Markov Decision Processes(Section3)
Section3の冒頭では、この後の章で解く問題の設定として、Finite MDPs(Finite Markov Decision Processes)を導入するにあたっての導入について記述されています。
マルコフ決定過程(MDP; Markov Decision Process)は、逐次的意思決定(sequential decision making)の古典的な定式化であるとなっています。やなどの状態行動価値や状態価値を推定する(estimate)となっており、これらの状態依存量(state-dependent quantities)を導入することが重要であるとされています。MDPは強化学習の問題における数学的に理想化された形式で、問題の数学的な構造を考えるにあたっての重要な要素として、報酬(return)や価値関数(value functions)、ベルマン方程式(Bellman equations)を導入するとなっています。
1-1. The Agent–Environment Interface(Section3.1)
1-1節ではSection3.1のThe Agent–Environment Interfaceについて確認していきます。
まず導入として、強化学習の問題設定としてよく見る図であるFigure3.1が紹介されています。学習者(learner)や意思決定者(decision maker)はエージェント(agent)と呼び、エージェントに含まれない外部を環境(environment)と呼ぶとなっています。これらの相互作用の繰り返しで、逐次的意思決定(sequential decision making)が表現されると考えると良いのではと思います。環境(environment)は報酬(reward)も生成するとなっています。
次に、強化学習の数式を用いた立式にあたって、状態を、行動を、報酬をと定義した上で、(3.2)式のように数式が定義されています。この式などをベースに意思決定問題の大枠が形作られています。
1-2. Goals and Rewards(Section3.2)
1-2節ではSection3.2のGoals and Rewardsについて確認していきます。
まず導入として、強化学習におけるエージェントの目的は報酬の最大化によって定式化できるとなっています。このとき、最大化というのは即時報酬(immediate reward)の最大化よりも累積報酬(cumulative reward)の最大化を意味しているとされています。この報酬を用いた目的の定式化は強化学習における最も特徴的なトピックであると述べられています。
1-3. Returns and Episodes(Section3.3)
1-3節ではSection3.3のReturns and Episodesについて確認していきます。
Section3.3では、エージェントの目的である累積報酬の最大化を形式的に取り扱うにあたって、エピソード(episodes)という概念を導入しています。エピソードはゲームの実施や迷路への取り組みなどの一連のエージェントと環境の相互作用のことを意味しています。このエピソードを導入することで(3.7)のTが具体的な値を持つようになります。
(3.7)の数式は累積報酬を元にした指標としてGを考えるにあたって、単純に報酬和を計算していましたが、同程度の報酬であれば即時報酬の方を優先できるように割引率(discount rate)を導入して(3.8)のような形式で指標Gを定義しています。
1-4. Unified Notation for Episodic and Continuing Tasks(Section3.4)
1-4節ではSection3.4のUnified Notation for Episodic and Continuing Tasksについて確認していきます。
ここでは数式の表記について議論がされており、3.11のように定義するとやのケースを考慮できるとなっています。
2. まとめ
#6では第3章のFinite Markov Decision Processesより、Section3.4までを取り扱いました。
#7では引き続き第3章より、Section3.5のPolicies and Value Functions〜Section3.7のOptimality and Approximationまでを取り扱います。