2019-02-10から1日間の記事一覧

Deep Q-Networkベースでの強化学習の俯瞰③|強化学習フォローアップシリーズ #3

#1では連載の経緯とDQNの理解にあたって簡単な全体像について言及し、#2ではマルコフ決定過程についてまとめました。 #3では#1で上がった話題である価値関数や報酬、ベルマン方程式について詳しく解説していきたいと思います。 以下、この記事の目次になりま…