日記

日記です

20220126

 業務。喋りすぎる。


 Value損失が圧倒的に重要なんだけど、Value損失が落ちる法則が全くわからない。画像処理系で良いとされる工夫を入れるとだいたい「Policy損失だけ落ちてValue損失は落ちない」ということになる。ネットワークを共有しているのが問題なのかと思って分離したものを学習させてみたけれど、それもやっぱりValueがあまり落ちてこない。PolicyとValueがどういう関係になっているのか。整合的な説明がつけられない。

 Policyが改善しているのだからなにかあるんじゃないかって思ってしまうのが甘いのかな。当たりくじのないくじ引きをしているのかもしれない。そういう無力感っていうのは常にあるね。