2019-02-07から1日間の記事一覧

Deep Q-Networkベースでの強化学習の俯瞰②|強化学習フォローアップシリーズ #2

#1では連載の経緯とDQNの理解にあたって簡単な全体像について言及しました。 #2では#1で上がった話題であるマルコフ決定過程(MDP; Markov Decision Process)について詳しく解説していきたいと思います。 以下、この記事の目次になります。 1. 前回の復習2. …