大学
9時過ぎに研究室へ。午前中は回しておいた実験結果をまとめて、あとはボーっとしていた。
午後はミーティングのあと、強化学習について調べていた。Actor-Criticの気持ちがちょっとわかった気がする。これはDeepの評価関数を触っていたおかげかなぁという感じで、以前調べたときはさっぱりだったんですよね。線形評価関数 + 探索のイメージだと行動価値(状態価値)を使ってやっていく方式しかイメージできなくて、方策を直接パラメトライズするDeep型のを触ってようやく方策勾配系のもののイメージが掴めてきたという感じ。いろいろやっていくべきだなぁ。
数学パワーが足りないので方策勾配定理あたりがしっかりと追えない。根気の問題では? より厳しいですね……。
将棋ソフト開発
虚無実験。気づいたんですけど、やはり指し手予測とValue予測のそれぞれの損失も載せるべきですね。それの動きがちょっと変だった気もする。無駄に一枚に収めようとか思わなければ自動化も楽になる気がする?
競技プログラミング
ARC084のBを解いた。昨日から引き続き考えた問題で、正確には時間測れてないけどかなり考えてもわからなかったので解説を見た。これは天才。というか前にも解けなくて解説を見たはずなのに何も覚えてないんですね。全然復習ができてない。
その他
ゲームをやめて小説漫画アニメのターンになってきそう。まずは城平作品を漁りたい気分。
アニメはdアニメストアの登録が面倒くさくて、でも安いからなぁ。しかし不当に安すぎるのではという気もする。バンダイチャンネルでユリ熊嵐の1話(無料)を観たけど、こっちはちょっと高い(というか観れる期限が短い)ので手を出しにくい。一長一短だ。