1022 Deep Q Networkがどうにか動き、CartPole-v1で安定したスコアが取れるようになった。いろいろ修正したけど結局は凡ミスで、誤差項を二乗誤差にすべきところをクロスエントロピーにしていたのが原因だった。やれやれ。これをいろいろ拡張していく必要があるわけだけど、とりあえず一旦リファクタしようかなと思う。いつまでもJupyter notebookだけで作業するのはしんどい。 寝るぞ。