1017
ねむねむい。夜更かしが多い。
価値関数やQの関数近似の理論的評価にはあまり興味がない。どうせそんなの無視してディーープラーーニング先輩に丸投げするしかないのだ。発散してから考えよう。
パラメトライズド行動空間での強化学習というのがあるらしい。DQNだと離散的な行動しか選べないし、方策ベースなら連続パラメータで行動を選ぶこともできるのだが、その組み合わせをいい感じにするとか。これは目的にマッチしていそうだ。実装できるかはわからないが……。
そろそろサンプルコードの写経にも入りたい。写経っていうけど本はTensorFlowで書いてるところを僕はPyTorchで書くので移植だが。
寝ます。