2019-02-07から1日間の記事一覧

Deep Q-Networkベースでの強化学習の俯瞰②｜強化学習フォローアップシリーズ #2

Machine Learning DeepLearning Reinforcement

#1では連載の経緯とDQNの理解にあたって簡単な全体像について言及しました。 #2では#1で上がった話題であるマルコフ決定過程(MDP; Markov Decision Process)について詳しく解説していきたいと思います。以下、この記事の目次になります。 1. 前回の復習2. …