20211107 - 日記

　休日。技術書を買って読んで多少プログラミングをしていた。GitHubの進捗を見ると、日曜日にしか色がついていない。日曜プログラマになってしまった。

　強化学習について簡単なタスクを考えて実装してみているが、実装は思ったよりも大変だし、学習もなかなか上手くいっていない。

　方策勾配系の手法が不安定というのはそうなんだろうけど、そうはいってもTRPOとかPPOとかが本質的な改善だとはなかなか思えない。些末な内容に見えてしまう。こういう工夫のない手法でやってみて一度身をもって苦労しないとありがたさがわからなさそう。

　まぁそういう体験の浅さによる手法の軽視はいったん無視するとして、感触としては「学習とパラメータの更新が明に結びつきすぎている」という感じか。深層学習で本質的にはパラメータ更新をやっていくというのが一番下のレイヤではあるとは思うんだけど、その上に一段メタ的な認知段階を構築して、そこで強化学習をするというようなイメージにしないと不安定性に一生悩まされるのではないかという気がする。パラメータ更新自体が強化学習の本質的なところに食い込むとつらいところが多い。

　じゃあ具体的にそれってなんなんだって言われたらさっぱりわからないのであまり表では言えないことではあるんだけど。なんだろうね、結局言語とかも重要になってしまうんだろうかね。