2019-05-17から1日間の記事一覧

Deep Q-Network④におけるQ関数の近似|強化学習フォローアップシリーズ #4

#1では連載の経緯とDQNの理解にあたって簡単な全体像について言及し、#2ではマルコフ決定過程、#3では価値関数とベルマン方程式についてまとめました。 #4では状態価値や状態行動価値の算出にあたり、全ての盤面(観測したことのない盤面も含む)で行えるよ…