Reinforcement

公式Tutorialに学ぶPyTorch④(Reinforcement Learning)|DeepLearningの実装 #12

連載経緯は#1をご確認ください。 #1はKeras、#2~#7まではTensorFLow、#8からはPyTorchを取り扱っています。 #8ではPyTorchの概要やインストール、簡易実行について、#9はAutograd、#10ではNeural Network、#11ではTraining a Classifierについて取り扱いまし…

Deep Q-Network〜Rainbowの研究の流れと実装①(Rainbowの論文の確認)|実装で理解する深層強化学習の研究トレンド #6

連載の経緯については#1に記しました。 #1〜#5では問題設定の確認ということでOpenAI Gymについて取り扱いました。 #6からはアルゴリズムのトレンドということで、Rainbow[2017]に関しての情報を中心にDeep Q-Networkの拡張(extension)について取り扱います…

OpenAI Gymの仕様を掴む⑤(Box2D_CarRacing)|実装で理解する深層強化学習の研究トレンド #5

連載の経緯については#1に記しました。 これまでは問題設定を理解するにあたってOpenAI Gymから#2ではCartPole、#3と#4ではAtariのゲームについて取り扱いました。 #5ではBox2dからCarRacingを取り扱います。以下、目次になります。 1. 進め方の再確認&Box2…

OpenAI Gymの仕様を掴む④(Atari_後編_SpaceInvaders etc)|実装で理解する深層強化学習の研究トレンド #4

連載の経緯については#1に記しました。 #3ではAtariのゲームについて取り扱うにあたって、卓球ゲームのPongについて取り扱いました。 #4ではその他のAtariのゲームについてということで、SpaceInvadersやBreakoutについて取り扱います。以下、目次になります…

OpenAI Gymの仕様を掴む③(Atari_前編_Pong)|実装で理解する深層強化学習の研究トレンド #3

連載の経緯については#1に記しました。 #1ではCartPoleを題材に強化学習のアルゴリズムの開発にあたってのToolkitであるOpenAI Gymの概要、#2ではCartPole問題に関する仕様の詳細やアルゴリズムの改善にあたっての試行錯誤について取り扱いました。 #1と#2で…

OpenAI Gymの仕様を掴む②(CartPole_後編)|実装で理解する深層強化学習の研究トレンド #2

上記シリーズでDeep Q-Networkについて概要を把握できたので、より新しい話題も取り扱えればということで新しいシリーズをスタートさせます。内容としては、実装の内容を交えながら深層強化学習のトレンドを理解していくものとできればと思います。#1ではCar…

OpenAI Gymの仕様を掴む①(CartPole_前編)|実装で理解する深層強化学習の研究トレンド #1

上記シリーズでDeep Q-Networkについて概要を把握できたので、より新しい話題も取り扱えればということで新しいシリーズをスタートさせます。内容としては、実装の内容を交えながら深層強化学習のトレンドを理解していくものとできればと思います。#1では強…

Deep Q-Network⑤における工夫|強化学習フォローアップシリーズ #5

#1では連載の経緯とDQNの理解にあたって簡単な全体像について言及し、#2ではマルコフ決定過程、#3では価値関数とベルマン方程式、#4ではQ-Networkについてまとめました。 https://lib-arts.hatenablog.com/entry/followup_reinforce4#4までで基本的な仕組み…

Deep Q-Network④におけるQ関数の近似|強化学習フォローアップシリーズ #4

#1では連載の経緯とDQNの理解にあたって簡単な全体像について言及し、#2ではマルコフ決定過程、#3では価値関数とベルマン方程式についてまとめました。 #4では状態価値や状態行動価値の算出にあたり、全ての盤面(観測したことのない盤面も含む)で行えるよ…

Deep Q-Networkベースでの強化学習の俯瞰③|強化学習フォローアップシリーズ #3

#1では連載の経緯とDQNの理解にあたって簡単な全体像について言及し、#2ではマルコフ決定過程についてまとめました。 #3では#1で上がった話題である価値関数や報酬、ベルマン方程式について詳しく解説していきたいと思います。 以下、この記事の目次になりま…

Deep Q-Networkベースでの強化学習の俯瞰②|強化学習フォローアップシリーズ #2

#1では連載の経緯とDQNの理解にあたって簡単な全体像について言及しました。 #2では#1で上がった話題であるマルコフ決定過程(MDP; Markov Decision Process)について詳しく解説していきたいと思います。 以下、この記事の目次になります。 1. 前回の復習2. …

Deep Q-Networkベースでの強化学習の俯瞰①|強化学習フォローアップシリーズ #1

強化学習の勉強会を行った際に予想以上に苦戦している方が多かった(他のトピックなら大体わかる人でも詰まっている人が多かった)ので、フォローアップシリーズを書いていければと思います。#1では「scikit-learnとTensorFlowによる実践機械学習」の16章か…

Deep Q Network(DQN)|DeepLearning論文の原文を読む #7

DeepLearning系の研究を中心に論文の読解メモをまとめていきます。エポックになった有名どころの論文を精読し、所感などをまとめられればと思います。(必要以上に固く書きたくなく90%〜95%程度の確信度で書きますので、もし間違いなどがあれば気軽にご指摘…