0525 - 日記

日記

　9時30分ごろに研究室着。起きたのはそこそこ早かったのにちょっとだらけてしまった。

　今日も強化学習本読もうかと思ったけど、やっぱりプログラミングの日にすることを決めた。気になっていたことに手を付けていく。

　1時間くらいかけて1.引き分けの評価値、手数をUSIオプションから指定できるようにする、2.玉が動いてCaptureではない手についてもSIMDを利用して差分計算する、学習の最初にランダムムーブを入れるのを完全ランダムではなくSoftMaxでのランダムにする(意味あるのか？)など。

　強化学習本を読む。 $\lambda$ 収益アルゴリズムとTD $(\lambda)$ という呼び分けがいまいちしっくりこない。前者もTD $(\lambda)$ なんじゃないの？

　まぁそれ以外は結構わかってきて面白いなーって思うけど、今のところ全部テーブル形式で価値関数を表現する場合の話であって、関数近似し始めるとまた事情がかなり変わるんだろうなとも。特に非線形関数、まぁ今の流行で言えばニューラルネットワークですか、を使う場合にはいろいろ大変な事象が発生しそうだし、強化学習的な問題なのか深層学習の方の問題なのか切り分けられなくない？みたいな気持ちもある。ネットでポチポチ調べていたらRainbowとかいう全部乗せの最強アルゴリズムがあるらしくて面白かった。

DQNからRainbowまで〜深層強化学習の最新動向〜 from Jun Okumura

　調べていたらICLR2018読み会@PFNなんてものがあったのか。参加してみたかった、というところでYoutubeでライブ配信があるとの文言を見て素晴らしいと感じた。強い。 connpass.com

　報酬の確率分布をちゃんと考えようというの実にそれっぽい流れだと思うけど競争激しそうでウォーって感じ。

　ちらっと考えていたことも当然ながらもうやられているっぽいし、より高度な領域に踏み込んでいっているようで、ここに突撃するのきつくない？

　The Reactorってやつがそうですね。まだ全然読んでないので本当にそうなのかはわからないけど。というかDeepMindの論文ですか。うーむ。深層強化学習の分野、DeepMindだらけな気がしてしまうんだけどそれは僕がまだまだものを知らないから目立つところだけ見えてしまうということなんだろうなぁ。

　帰ってからはちょっとしてからオンラインでの競技プログラミング練習会。ちょっと現代って感じですね？　僕が遅れているだけである。

　書きたいことがいっぱいあったはずだったけど終わり。カープは勝ちました。