andante

4933

1017

ねむねむい夜更かしが多い
価値関数やQの関数近似の理論的評価にはあまり興味がないどうせそんなの無視してディーープラーーニング先輩に丸投げするしかないのだ発散してから考えよう
パラメトライズド行動空間での強化学習というのがあるらしいDQNだと離散的な行動しか選べないし方策ベースなら連続パラメータで行動を選ぶこともできるのだがその組み合わせをいい感じにするとかこれは目的にマッチしていそうだ実装できるかはわからないが……
そろそろサンプルコードの写経にも入りたい写経っていうけど本はTensorFlowで書いてるところを僕はPyTorchで書くので移植だが


寝ます