Reinforcement

Ch_3 Finite Markov Decision Processes②|『Reinforcement Learning(by Sutton)』を読み解く #7

強化学習に関しては概要の確認やDeep Q Network関連を中心とした論文の解説や実装の確認などをこれまで行ってきましたが、ベースの知識の再整理ということで『Reinforcement Learning(by Sutton)』をまとめていきます。 https://www.andrew.cmu.edu/course/1…

論文で理解するAlphaZeroの概要|論文で理解する深層強化学習の研究トレンド #5

連載の詳細の経緯は#1に記しましたが、深層強化学習の研究トレンドを論文を元に把握していくシリーズとしています。 #1ではApe-X[2018]について、#2ではR2D2[2019]について、#3ではR2D3について、#4ではMuZeroについてご紹介しました。 論文で理解するApe-X…

Ch_3 Finite Markov Decision Processes①|『Reinforcement Learning(by Sutton)』を読み解く #6

強化学習に関しては概要の確認やDeep Q Network関連を中心とした論文の解説や実装の確認などをこれまで行ってきましたが、ベースの知識の再整理ということで『Reinforcement Learning(by Sutton)』をまとめていきます。 https://www.andrew.cmu.edu/course/1…

論文で理解するMuZeroの概要|論文で理解する深層強化学習の研究トレンド #4

連載の詳細の経緯は#1に記しましたが、深層強化学習の研究トレンドを論文を元に把握していくシリーズとしています。 #1ではApe-X[2018]について、#2ではR2D2[2019]について、#3ではR2D3についてご紹介しました。 論文で理解するApe-Xの概要|論文で理解する…

モンテカルロ木探索(MCTS; Monte Carlo Tree Search)の概要

https://www.andrew.cmu.edu/course/10-703/textbook/BartoSutton.pdf 上記のSutton本を読み進めているのですが、Ch.8が若干説明がややこしくなってきて読みづらくなってきたので、関連知識として気になったモンテカルロ木探索(MCTS; Monte Carlo Tree Searc…

Ch_8 Planning and Learning with Tabular Methods③|『Reinforcement Learning(by Sutton)』を読み解く #5

強化学習に関しては概要の確認やDeep Q Network関連を中心とした論文の解説や実装の確認などをこれまで行ってきましたが、ベースの知識の再整理ということで『Reinforcement Learning(by Sutton)』をまとめていきます。 https://www.andrew.cmu.edu/course/1…

Ch_8 Planning and Learning with Tabular Methods②|『Reinforcement Learning(by Sutton)』を読み解く #4

強化学習に関しては概要の確認やDeep Q Network関連を中心とした論文の解説や実装の確認などをこれまで行ってきましたが、ベースの知識の再整理ということで『Reinforcement Learning(by Sutton)』をまとめていきます。 https://www.andrew.cmu.edu/course/1…

Ch_8 Planning and Learning with Tabular Methods①|『Reinforcement Learning(by Sutton)』を読み解く #3

強化学習に関しては概要の確認やDeep Q Network関連を中心とした論文の解説や実装の確認などをこれまで行ってきましたが、ベースの知識の再整理ということで『Reinforcement Learning(by Sutton)』をまとめていきます。 https://www.andrew.cmu.edu/course/1…

Ch_7 n-step Bootstrapping|『Reinforcement Learning(by Sutton)』を読み解く #2

強化学習に関しては概要の確認やDeep Q Network関連を中心とした論文の解説や実装の確認などをこれまで行ってきましたが、ベースの知識の再整理ということで『Reinforcement Learning(by Sutton)』をまとめていきます。 https://www.andrew.cmu.edu/course/1…

Ch_6 Temporal-Difference Learning|『Reinforcement Learning(by Sutton)』を読み解く #1

強化学習に関しては概要の確認やDeep Q Network関連を中心とした論文の解説や実装の確認などをこれまで行ってきましたが、ベースの知識の再整理ということで『Reinforcement Learning(by Sutton)』をまとめていければと思います。 https://www.andrew.cmu.ed…

論文で理解するR2D3の概要|論文で理解する深層強化学習の研究トレンド #3

連載の詳細の経緯は#1に記しましたが、深層強化学習の研究トレンドを論文を元に把握していくシリーズとしています。 #1ではRainbowの後の2018年にDeepMindが発表した"Ape-X(DISTRIBUTED PRIORITIZED EXPERIENCE REPLAY)"について、#2では"R2D2(RECURRENT EXP…

論文で理解するR2D2の概要|論文で理解する深層強化学習の研究トレンド #2

上記シリーズでRainbowを取り扱ったのですが、実装ベースというよりは論文ベースでも研究トレンドを把握しておきたいということで新シリーズとして『論文で理解する深層強化学習の研究トレンド』として始めていきたいと思います。#1ではRainbowの後の2018年…

論文で理解するApe-Xの概要|論文で理解する深層強化学習の研究トレンド #1

上記シリーズでRainbowを取り扱ったのですが、実装ベースというよりは論文ベースでも研究トレンドを把握しておきたいということで新シリーズとして『論文で理解する深層強化学習の研究トレンド』として始めていきたいと思います。#1ではRainbowの後の2018年…

公式Tutorialに学ぶPyTorch④(Reinforcement Learning)|DeepLearningの実装 #12

連載経緯は#1をご確認ください。 #1はKeras、#2~#7まではTensorFLow、#8からはPyTorchを取り扱っています。 #8ではPyTorchの概要やインストール、簡易実行について、#9はAutograd、#10ではNeural Network、#11ではTraining a Classifierについて取り扱いまし…

Deep Q-Network〜Rainbowの研究の流れと実装①(Rainbowの論文の確認)|実装で理解する深層強化学習の研究トレンド #6

連載の経緯については#1に記しました。 #1〜#5では問題設定の確認ということでOpenAI Gymについて取り扱いました。 #6からはアルゴリズムのトレンドということで、Rainbow[2017]に関しての情報を中心にDeep Q-Networkの拡張(extension)について取り扱います…

OpenAI Gymの仕様を掴む⑤(Box2D_CarRacing)|実装で理解する深層強化学習の研究トレンド #5

連載の経緯については#1に記しました。 これまでは問題設定を理解するにあたってOpenAI Gymから#2ではCartPole、#3と#4ではAtariのゲームについて取り扱いました。 #5ではBox2dからCarRacingを取り扱います。以下、目次になります。 1. 進め方の再確認&Box2…

OpenAI Gymの仕様を掴む④(Atari_後編_SpaceInvaders etc)|実装で理解する深層強化学習の研究トレンド #4

連載の経緯については#1に記しました。 #3ではAtariのゲームについて取り扱うにあたって、卓球ゲームのPongについて取り扱いました。 #4ではその他のAtariのゲームについてということで、SpaceInvadersやBreakoutについて取り扱います。以下、目次になります…

OpenAI Gymの仕様を掴む③(Atari_前編_Pong)|実装で理解する深層強化学習の研究トレンド #3

連載の経緯については#1に記しました。 #1ではCartPoleを題材に強化学習のアルゴリズムの開発にあたってのToolkitであるOpenAI Gymの概要、#2ではCartPole問題に関する仕様の詳細やアルゴリズムの改善にあたっての試行錯誤について取り扱いました。 #1と#2で…

OpenAI Gymの仕様を掴む②(CartPole_後編)|実装で理解する深層強化学習の研究トレンド #2

上記シリーズでDeep Q-Networkについて概要を把握できたので、より新しい話題も取り扱えればということで新しいシリーズをスタートさせます。内容としては、実装の内容を交えながら深層強化学習のトレンドを理解していくものとできればと思います。#1ではCar…

OpenAI Gymの仕様を掴む①(CartPole_前編)|実装で理解する深層強化学習の研究トレンド #1

上記シリーズでDeep Q-Networkについて概要を把握できたので、より新しい話題も取り扱えればということで新しいシリーズをスタートさせます。内容としては、実装の内容を交えながら深層強化学習のトレンドを理解していくものとできればと思います。#1では強…

Deep Q-Network⑤における工夫|強化学習フォローアップシリーズ #5

#1では連載の経緯とDQNの理解にあたって簡単な全体像について言及し、#2ではマルコフ決定過程、#3では価値関数とベルマン方程式、#4ではQ-Networkについてまとめました。 https://lib-arts.hatenablog.com/entry/followup_reinforce4#4までで基本的な仕組み…

Deep Q-Network④におけるQ関数の近似|強化学習フォローアップシリーズ #4

#1では連載の経緯とDQNの理解にあたって簡単な全体像について言及し、#2ではマルコフ決定過程、#3では価値関数とベルマン方程式についてまとめました。 #4では状態価値や状態行動価値の算出にあたり、全ての盤面(観測したことのない盤面も含む)で行えるよ…

Deep Q-Networkベースでの強化学習の俯瞰③|強化学習フォローアップシリーズ #3

#1では連載の経緯とDQNの理解にあたって簡単な全体像について言及し、#2ではマルコフ決定過程についてまとめました。 #3では#1で上がった話題である価値関数や報酬、ベルマン方程式について詳しく解説していきたいと思います。 以下、この記事の目次になりま…

Deep Q-Networkベースでの強化学習の俯瞰②|強化学習フォローアップシリーズ #2

#1では連載の経緯とDQNの理解にあたって簡単な全体像について言及しました。 #2では#1で上がった話題であるマルコフ決定過程(MDP; Markov Decision Process)について詳しく解説していきたいと思います。 以下、この記事の目次になります。 1. 前回の復習2. …

Deep Q-Networkベースでの強化学習の俯瞰①|強化学習フォローアップシリーズ #1

強化学習の勉強会を行った際に予想以上に苦戦している方が多かった(他のトピックなら大体わかる人でも詰まっている人が多かった)ので、フォローアップシリーズを書いていければと思います。#1では「scikit-learnとTensorFlowによる実践機械学習」の16章か…

Deep Q Network(DQN)|DeepLearning論文の原文を読む #7

DeepLearning系の研究を中心に論文の読解メモをまとめていきます。エポックになった有名どころの論文を精読し、所感などをまとめられればと思います。(必要以上に固く書きたくなく90%〜95%程度の確信度で書きますので、もし間違いなどがあれば気軽にご指摘…