Deep Q Network(DQN)｜DeepLearning論文の原文を読む #7

f:id:lib-arts:20190128191141p:plain

DeepLearning系の研究を中心に論文の読解メモをまとめていきます。
エポックになった有名どころの論文を精読し、所感などをまとめられればと思います。
（必要以上に固く書きたくなく90%〜95%程度の確信度で書きますので、もし間違いなどがあれば気軽に
ご指摘いただけたらと思います。）

#7では強化学習への応用ということでDQN(Deep Q Network)について取り扱います。

[1312.5602] Playing Atari with Deep Reinforcement Learning
以下論文の目次です。基本的な書き方の流れとしてはAbstractは和訳＆補足、それ以外の章に関しては要約を中心にまとめます（省く章もあるかもしれません）

0. Abstract
1. Introduction
2. Background
3. Related Work
4. Deep Reinforcement Learning
5. Experiments
6. Conclusion

0 Abstract
Abstractは論文の要旨がまとまっているので一文ずつ精読していければと思います。

We present the first deep learning model to successfully learn control policies directly from high-dimensional sensory input using reinforcement learning.

和訳：『我々は強化学習を用いて高次元の知覚的な入力に対し直接ポリシーコントロールを学習することに成功した最初のディープラーニングモデルについて提案する。』

論文のメインテーマについてまとまっています。強化学習にディープラーニングを用いたというのが強調されています。

The model is a convolutional neural network, trained with a variant of Q-learning, whose input is raw pixels and whose output is a value function estimating future rewards.

和訳：『我々のモデルはQ-Learningで学習された畳み込みニューラルネットワークで、そのインプットは生のピクセルデータでアウトプットは将来的な報酬の予測である。』

前の文の具体的な内容について言及されており、強化学習におけるQ-Learningという方策(Policy)を近似するような考え方のところにディープラーニングを適用したということを示唆しています。方策はπで表現されることが多く、状態行動価値関数のQ(s,a)から導き出せます。状態価値関数のV(s)と状態行動関数のQ(s,a)は意味合いが紛らわしいので必ず抑えておくと良いです。ざっくりいうと、V(s)だけではエージェントに行動を明示的に教えられないので、代わりにある状態における行動の価値ということで、Q関数を導入したと考えておくと良いかと思います。

We apply our method to seven Atari 2600 games from the Arcade Learning Environment, with no adjustment of the architecture or learning algorithm. We find that it outperforms all previous approaches on six of the games and surpasses a human expert on three of them.

和訳：『我々はArcade Learning Environmentから選んだ7つのAtari2600のゲームに対しネットワーク構造にも学習アルゴリズムにも調整を行わずに手法を適用した。6つのゲームで従来のアプローチを上回り、3つのゲームで人間の熟練者を上回った。』

ここでは実験結果における成果について言及されています。レトロなアーケードゲームのAtariのゲームを題材にアルゴリズムの試行錯誤が行われています。また、この論文の当時はALE(Arcade Learning Environment)をベースに用いられていたのですが、最近ではOpenAIがこの手の動作環境を整えてくれているのでそちらを中心に諸々の研究が行われているようです。

全体的にシンプルに重要事項がまとまっていて読みやすいAbstractである印象でした。

1. Introduction

パラグラフ単位で要旨を取っていければと思います。
1stパラグラフは、強化学習(RL; Reinforcement Learning)においてエージェントの行動を決めるにあたって高次元の入力を取り扱うのは難しいので手製の(hand-crafted)特徴量による分類に頼っていたということについて言及されています。この論文がDeepLearningを初めて強化学習に導入したものだということを強調するためにこの辺の背景について言及されていると思われます。
2ndパラグラフでは、DeepLearningが画像のような生の高次元データをうまく取り扱うことに成功したことについて触れつつ、このことが強化学習にも有益なのではないかというこちらも研究の背景についてまとめられています。
3rdパラグラフでは、DeepLearningを強化学習に対して導入するにあたっての困難な点についてまとめられています。具体的には「大量のデータの用意について」、「系列データのため生じるサンプル間の相関について」、「アルゴリズムが新しい振る舞いを学習すると生成されるデータの分布が変わってしまうこと」の三つが主に言及されています。
4thパラグラフでは、実際にDeepLearningを強化学習に応用するにあたって、困難を軽減する(alleviate)ために工夫した点などがまとめられています。具体的にはQ-learningをベースに用いた上で、"experience replay"という仕組みを用いて訓練データ間の相関を減らしたことについて言及されています。
5thパラグラフでは実際にアルゴリズムを試すに当たってALEを用いて行なった実験についてまとめられています。

2. Background

2節については今回行った学習における問題設定の背景が諸々まとめられています。
1stパラグラフは全体的な問題定義、2ndパラグラフはMDPについて、3rdパラグラフは報酬の定義や状態行動関数のQの定義やpolicyのπなどについてもまとめられています。
4thパラグラフ以降ではQ関数の学習にあたっての誤差関数(Loss function)の設定や、勾配などの設定について諸々言及されています。

3. Related Work