連載の詳細の経緯は#1に記しましたが、深層強化学習の研究トレンドを論文を元に把握していくシリーズとしています。 #1ではRainbowの後の2018年にDeepMindが発表した"Ape-X(DISTRIBUTED PRIORITIZED EXPERIENCE REPLAY)"について、#2では"R2D2(RECURRENT EXP…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。