大学
09:29に研究室着。まぁまぁですかね。早く来て満足してちゃダメだぞ。ちゃんと進捗を生み出すんだぞ。
まずは評価関数の学習検証実験を開始する。対局の経過をちらちら見てしまうのでよくない。しかも結果がバラバラ……。何か条件を間違えているかなぁ。
それからはサーベイ。もっと研究で何するのか絞っていかないといけない。モデルベース強化学習、あまりうまくいってないという話を結構目にするし、まぁやるなら逆にありなのかもしれない。しかしモデルができてところでゲーム木探索が良いのかっていうのは昨日大渡さんにも言われたことだしなぁ。
環境モデル、状態と可能なら行動も抽象化した空間に押し込めるような学習をできれば色々できるのではないでしょうか。その結果木として扱うのが現実的かは(相手次第なので)分かりませんが、全員無茶苦茶強い、という想定がそもそもされたことの無い競技ではないかと思います。
— Katsuki Ohto (@cute_na_piglets) 2018年5月31日
これ結構本質的な指摘なんじゃないかと。この辺の感覚はやっぱりいろんなゲームの思考ソフトを作っている人の強みっぽいなぁという感じがする。
どうでもいいけどTwitter、ログインしていないとメンションとかふぁぼ見られない仕組みなの邪悪すぎる。今すぐ潰れてほしいという気持ちに染まってしまった。検索から掘り起こすことはできたけど、なんなんだこの仕様。研究室のパソコンでTwitterログインしたくないんじゃ。
ちょっと調べているとコンピュータ将棋で言うところの探索はオンラインプランニングなどと言われている感じですかね? やはり強化学習で単に探索と言うと状態空間の探索という感じになってしまうからかな?
ATreeCとかいうものはちょっと面白そうだった。あーダメ、サーベイを日記に雑にまとめてしまってはダメ。しかしいまだにちゃんとしたまとめ方わからず、Chrome上のブックマークとダウンロードしたものがぐちゃぐちゃになっている。厳しい。どうすればいいのか。
同じ条件で並列に自己対局しているはずなのに4つのうち一つだけ20%近く低い。確率的にあり得て良い結果なのか? なんだろう、検定とかしてみればいいのかな。うーん、結局統計的検定がよくわからないままになっているツケがこういうところで出てくるんですよね。
そういえば院試受かっていたようです。といっても内部の進学なので願書出しただけなんですが。進路が決まってしまった……。日々流されて生きている。ちょっとは外部の院とかも考えるべきだったかなぁ。なんとなくノリでやってしまった。
午後はそんなこんなでボーっとしている時間が長かった。ひどいなぁ。自己対局をやっているとそれに気を取られてしまう。画面を消せ!
確率分布を考えるのが大事だと思いたいんだけど、多峰性を表現する方法がよくわからない。パラメータ数が膨大になってしまうのでは。
今日はあまり良くない日だった。また明日頑張りましょう。
その他
もう6月かぁ。早いものですね。