論文で理解するR2D3の概要｜論文で理解する深層強化学習の研究トレンド #3

f:id:lib-arts:20191012205515p:plain

連載の詳細の経緯は#1に記しましたが、深層強化学習の研究トレンドを論文を元に把握していくシリーズとしています。

#1ではRainbowの後の2018年にDeepMindが発表した"Ape-X(DISTRIBUTED PRIORITIZED EXPERIENCE REPLAY)"について、#2では"R2D2(RECURRENT EXPERIENCE REPLAY IN DISTRIBUTED REINFORCEMENT LEARNING)"についてご紹介しました。

論文で理解するApe-Xの概要｜論文で理解する深層強化学習の研究トレンド #1 - lib-arts’s diary

#3ではApe-Xの後の2019年にDeepMindが発表した"R2D3(Making Efficient Use of Demonstrations to Solve Hard Exploration Problems)"についてご紹介していきます。

[1909.01387] Making Efficient Use of Demonstrations to Solve Hard Exploration Problems
以下、目次になります。

1. R2D2の概要（Abstract、Introductionの確認）
1-1 Abstractの確認
1-2 Introductionの確認(Section1)
2. 論文の重要なポイントの抜粋
2-1. Recurrent Replay Distributed DQN from Demonstrations(Section2)
2-2. Background(Section3)
2-3. Hard-Eight Task Suite(Section4)
2-4. Baselines(Section5)
2-5. Experiments(Section6)
2-6. Conclusion(Section7)
3. まとめ

1. R2D2の概要（Abstract、Introductionの確認）
1-1 Abstractの確認
1-1節ではAbstractの内容を確認しながら概要について把握します。以下一文ずつ和訳とともに解説を行います。

This paper introduces R2D3, an agent that makes efficient use of demonstrations to solve hard exploration problems in partially observable environments with highly variable initial conditions.

和訳：『この論文ではR2D3を紹介する。R2D3では初期状態において多くのバリエーションが存在する部分的な観測できる環境において、探索が難しい問題を解くためにdemonstrations(人間の熟練者の経験のデータ)を効果的に用いるエージェントを導入している。』
日本語に訳しにくい文のため、語順を必要以上に変えないようにするために、","のところで文を切って和訳を行いました。 R2D2などではAtariのゲームを学習における盤面として用いていましたが、R2D3ではより探索が難しい問題に取り組むにあたっての指針として、demonstrationsの導入について考察されています。

We also introduce a suite of eight tasks that combine these three properties, and show that R2D3 can solve several of the tasks where other state of the art methods (both with and without demonstrations) fail to see even a single successful trajectory after tens of billions of steps of exploration.

和訳：『我々はこれらの三つの属性を組み合わせた8つのタスクの組について導入し、(demonstrationsを用いていない)他のSotAの手法が何百億ステップの探索を行なったのにも関わらず失敗するタスクにおいて、R2D3はいくつかのタスクに対し解くことができた。』
探索が難しい問題においてはdemonstrationを用いないこれまでの手法ではうまくいかない一方で、R2D3ではdemonstrationを用いることで成功させることができたとされています。ちなみにdemonstrationを用いた手法は計算リソースに制限がある状況においても応用できると思われるため、ベンチマークとして知っておくと役に立つケースはあるかもしれません。

1-2 Introductionの確認(Section1)
1-2ではIntroductionの確認を行っていきます。
基本的にはAbstractの内容を詳しく書いてあることが多いので以下パラグラフ単位でリーディングしていきます。

f:id:lib-arts:20191012211836p:plain

第一パラグラフでは、強化学習を行うにあたって、demonstrationを用いる有効性について言及されています。いくつかの研究の例を示すことで、demonstrationを用いることで学習を高速化したり探索の難しい問題に取り組んだりができるとされています。

f:id:lib-arts:20191012211849p:plain

第二パラグラフでは、(1)Sparse rewards、(2)Partial observability、(3)Highly variable initial conditionsの三つの側面が学習を難しくしているとされています。(1)Sparse rewardsは報酬が正しい行動を長く取り続けてようやく取得できる状況のことだとされています。(2)Partial observabilityはエージェントが各time-stepにおいて環境を部分的にしか観測できないことだとされています。(3)Highly variable initial conditionsは初期状態のバリエーションが多いことだとされています。

f:id:lib-arts:20191012213258p:plain

第三パラグラフでは、アプローチの概要について述べられており、off-policyなrecurrent Q-learningを用いた手法にdemonstrationを組み合わせたとされています。

f:id:lib-arts:20191012213316p:plain

第四パラグラフでは、R2D3におけるアプローチの望ましい特徴として、demonstratorのパフォーマンスを上回ったことが挙げられています。また、この際にdemonstratorの気づかない戦略を発見したとされており、一つのタスクでは環境(environment)のバグを発見してそれを利用したとされています。

f:id:lib-arts:20191012214251p:plain

第五パラグラフでは、アルゴリズムの重要なパラメータ(key parameter)としてdemo-ratioを導入しています。このdemo-ratioは学習バッチにおけるexpertのdemonstrationとagentの経験の比率を意味しています。このハイパーパラメータを導入することによってアルゴリズムのパフォーマンスが劇的な効果を持ったとされています。

f:id:lib-arts:20191012214310p:plain

第六パラグラフでは、エージェントがexpertのdemonstrationから情報を効率的に抽出するメカニズムとして、エージェントが環境の探索にあたってdemonstrationを参考にしたとされています。

f:id:lib-arts:20191012214326p:plain

第七パラグラフでは、学習の効果性を検証するにあたって難易度の高いtaskを導入し、これまでのSotAのアルゴリズムが失敗するようにしたとされています。

f:id:lib-arts:20191012214341p:plain

第八パラグラフでは、論文のmain contributionについて述べられています。それぞれ、(1)sparse reward tasksを解くためのdemonstraionの効果的な利用を行うエージェントを導入したこと、(2)agentがdemonstrationから情報を抽出するメカニズムの分析を行なったこと、(3)この研究をサポートするにあたって8つのタスクセットを導入したこと、の三点とされています。

2. 論文の重要なポイントの抜粋
2節ではSection2以降の論文の重要なポイントを抜粋していきます。基本的に章立てにならいますが、細かい記述には立ち入らないで進めていきます。

2-1. Recurrent Replay Distributed DQN from Demonstrations(Section2)
Section2の"Recurrent Replay Distributed DQN from Demonstrations"ではR2D3の全体の学習の流れについてまとめられています。

f:id:lib-arts:20191012215620p:plain

上記のFigure1に全体の概要がまとまっており、learnerがdemonstrationを保存したdemo replayとactorのexperienceを保存したagent replayの二つからdemo-ratioにしたがってtraining batchを生成し、学習を行なっているというのが確認できます。replay bufferにおけるデータの保持などについてはR2D2と大きく変更がないと考えておくと良さそうでした。

2-2. Background(Section3)
Section3のBackgroundでは、主に探索が困難な問題への研究についてまとめられているようでした。

2-3. Hard-Eight Task Suite(Section4)
Section4の"Hard-Eight Task Suite"ではIntroductionでも言及されていた、(1)Sparse rewards、(2)Partial observability、(3)Highly variable initial conditionsの三つの条件を満たすタスクとされています。それぞれのタスクにおいては人間の視野を持った標準的なアバター(standardized avatar)を設定し、46の離散的な行動を取れるように設定するとされています。

f:id:lib-arts:20191012220812p:plain

タスクの設定としては、上記のようなマップにおいて赤のマークで示された大きなりんごのところまでたどり着くというものにされています。

f:id:lib-arts:20191012221235p:plain

また、タスクを解くにあたっては、上記のFigure3で表されるような様々なことを行わなければならないとされています。報酬がりんごにたどり着いた際(episode end)のため、これにより報酬にたどり着くまでに様々な行動を行う必要が生じます。
また、8つのタスクセットは下記の8つのタスクだとされています。

1) Baseball
2) Drawbridge
3) Navigate Cubes
4) Push Blocks
5) Remember Sensor
6) Throw Across
7) Wall Sensor
8) Wall Sensor Stack

2-4. Baselines(Section5)
Section5の"Baselines"ではモデルのベースラインについて議論するにあたって下記の二つのablation study(なんらか一つの条件を取り払って行う検証のこと)を行なったとされています。

◆ Two Ablation Studies
1) No Demonstrations
-> R2D3の設定においてdemonstrationを用いないケース。R2D2に近くなるとされている。

2) No Recurrence
-> R2D3においてrecurrent構造を用いないケース。demonstrationを用いたDQfDと考えておくと良いとされている。

また、全体像の図式がFigure4にまとまっています。

f:id:lib-arts:20191012222611p:plain

(a)がR2D2やR2D3のrecurrent構造を用いたAgent、(b)がDQfDのようなrecurrent構造を用いないエージェントとされています。また、(c)が入力の特徴表現(feature representation)を計算するためのネットワークアーキテクチャであるとされています。

2-5. Experiments(Section6)

f:id:lib-arts:20191012223140p:plain

上記のFigure5を確認することで、他の手法が報酬が得られていない中、R2D3が学習が進むについれてrewardを得られるようになってきていることが確認できます。

2-6. Conclusion(Section7)
ここまでの内容と被るため省略します。

3. まとめ
#3ではR2D3[2019]の論文についてまとめました。demonstrationを学習に用いることで、困難なタスクの学習にも成功するアプローチを示す内容になっていました。
#4ではこれまで取り扱ってきたmodel-freeのアプローチとは異なるアプローチでAtariのベンチマーク更新に取り組んだ研究であるMuZeroをご紹介します。