提出したアピール文書が公開されていたので謎の記事を書いてみた。アピール文書の話と見せかけてPERの話しかしていない。したい話をこういうところに混入させているの良くないですね。
あとは論文をいろいろ読んだくらいで終わった。方策オン型のものを経験再生でやってはいけないというのはどれほど強い話なんだろうか。理論的な収束性とかが失われるけど実践的には学習できるのか、本当に学習できないのか。しかしブートストラップを使う方策オフ型手法を経験再生に入れたときも同じ問題は発生している気がする。詳しい人が周りにいないので自分で見つけていくしかない。
実験の方では損失と棋力があまり対応していなさそうなことがわかってきた。それは面倒だなぁ。
帰ってからは隻狼。結構進んだ。多少終わりが見えてきたかな?