0529 - 日記

大学

　10:51に研究室着。名人戦第5局の先崎九段の解説を観ていたら遅くなってしまった。たこすけですね。

　さすがにそろそろ研究の方やっていかないといけないということでまずはMeta-Gradient Reinforcement Learningを読み始める。根本的なところでは強化学習のpredictionとcontrolって概念がピンとこないんですよね。Sutton & Barto本でそういう分け方をされていたから話としては分かるけど、方策を単純に価値関数最大化としていたらpredictionとcontrolの切れ目があまりない？

　discount factorである $\gamma$ とTDの係数 $\lambda$ が混在してくると一瞬わからなくなる。 $\gamma$ は小さいほうが性能良いらしい。そういうのも全然知らなかった。 $\lambda$ の方はバイアスと分散のトレードオフに関わる？　そういうものなのかー。

　とりあえずこの研究はメタパラメータをオンラインで最適化しようという話らしい。というか今気づいたけどまたこれもDeep Mindの論文？　はい……。

　まぁほーんって感じ。

　現実的に研究のネタが出てこなくて結構まずいのでは？　という気持ちになってきている。

　サーベイの分野がどんどんわからなくなっていく……。研究してから見つけたってなるの地獄でしかないのでそういうところちゃんとやっていきたいんだけど。

　AlphaZeroの論文を読み直す。elmoの存在感ですね。

　ようやくChess Programming WikiのBootStrapについてのページの意味が理解できるようになった。わかってから見ると、わかりやすい図に思える。

　この論文ではabstにshogiなる文字列が見えて驚いたけど著者みたら保木さんと金子さんで、さもありなんという感じだった。これがBonanzaメソッドの論文ですか。

　David Silver氏の、これは何論文なんだろう博士論文かなが強そうだった。しかし説明がかなり多いので読んでいくのが大変そうだ。

　Sutton & Barto本の第9章プランニングのところはよくわからなかったんだけど、これがいわゆる探索の部分と関係しているっていうことか。確かに強化学習の文脈で言うと探索はまだ学習できてない状態空間を探ることを意味するっぽくて、プランニングとか言ったほうがいいのかな。

　図10.1が本質的という気がする。この本すごいな。すごい。

　最新ドラフトが見れるということで覗いてみた。え、これひょっとして凄まじい本になっているのでは？は～強い。どうすんのこれ。サーベイ量が象さんくらいある。やっていける自信がなくなってきた。

　強化学習って言葉の指す範囲広すぎない？抽象度が高く、共通した性質が取れるのは良いことだけどつらい面もある。

　午前はそんな感じで終わった。ちょっと一息入れてから将棋ソフト開発をする。探索部をちょっと改善して少しだけ強くなった気がする。評価パラメータをごちゃごちゃいじりすぎてどれが一番強いやつだったかわからなくなってきた。

　バカなので今更ShogiGUI自体を2つ開いて並列に対局させてもいいことに気が付いた。ので対局させてるんだけど、同じ条件なはずなのに2つの勝率が全然違う……。まぁ100局ちょいではそんなものなのかな。統計をちゃんと勉強していないので計算する気が起きない。片方64%でもう片方は55%みたいな、まぁこの中間なんだろうな。計230局くらいで打ち切りますか。さすがにそれ以上ってなると計算時間が厳しい。もっと計算資源が欲しい。

　115局 57勝 12引き分け 44敗　と　120局 70勝 10引き分け 40敗。合わせて235局 127勝 22引き分け 84敗。結局引き分けって無視するのか0.5勝0.5敗なのか、どっちがいいんでしょうね。僕は0.5勝0.5敗の方が好みなんですが。その計算によって勝率は58.7%、Eloレート差にして61.1だそうです。まだまだだなぁ。

　あとはCounterMove周りを入れようと思った。もっとたくさん手を動かさねば。

　5限はグラフについて。なんとかギリギリ付いていけるけど自分では絶対思い浮かばないなぁ。

　そのあとは入玉周りをちょっといじって終了。19時45分ごろに帰宅。お夕食を大学で食べる気になれないのでこの辺の時間が限界なんですよね。そこのこだわりをなんとかできたらいいんだけど。