大学
09:17に研究室着。まぁまぁですかね。
Alpha Zeroの論文を読む。これValueの学習はモンテカルロ法ってことですよね。ブートストラップ使わないんか。Policyの方は時間をかけた探索との交差エントロピーで、まぁこれはそうだろうという気はする。しかしこれもまだ無駄はありそう。けどこの辺を突っつくのはいかにも重箱の隅を楊枝でほじくる感じだよなぁ。
しかし眠い。本当にうまく眠れないのなんなんだろう。6時ごろに目が覚めるの苦しい。2度寝もできないし。大学着いてから眠くなる。
ゲーム木探索って動的計画法の一種だよね、たぶん。部分問題を求めてから全体の問題を解いてるし。
分布型強化学習についてのスライドを見たけど、これすごいなぁ。Wesserstein距離なら分布型ベルマン作用素が縮小写像になるから収束してくれるねっていうの、素晴らしい論文に思える。って最終的にWesserstein距離は使わないんかーいって感じ。この辺面白そうだけど数学力が足りないか。しかし何かを提案するならちゃんとその収束性とかは言えたほうが絶対良くて、こういうベルマン作用素の縮小性の証明とかはできなければ「やってみたら性能良かったです」しか言えないものね。
久しぶりにでぃ~ぷら~にんぐに手を出しているけど本当にtensorflowをさっぱり忘れていて笑う。何もわからない。ひえーDeepLearningやだー。
午前中はほぼdlshogiのパクりとして書いていたコードを自分の好みに合うように書き直す。思ったよりあっさり動いてくれたのはやっぱり山岡さんのコード設計が綺麗だからだろう。それをぐちゃぐちゃにしてしまったわけだけど……。学習部まで動いたのでちょっとアイデア試してみますか。GPUを占有してしまう影響で検証の対局をやるのが大変な気がするんだけど、人々はどうやっているんだろう。
方策オン型とオフ型の利点欠点がいまだに上手くつかめていない。このQiita記事では
( Off方策手法は)学習の安定性が悪くなる事がある。On方策手法は行動方策と評価方策が同じもので、学習が比較的安定している。
とあり、えーそうなん。という感じ。SarsaとQ学習という比較では、「これからの強化学習」には38ページに「Q-Learningは(中略)試されない行動がある場合には収束に時間がかかることがありうる。(中略)しかし、一般には、探索行動による影響を受けない分、Sarsaよりも学習が速いことが多い」とある。価値反復まで含めて比較したグラフを見ても本当に時と場合によるという感じに思える。つらそう。
午後はまずコンピュータ将棋をちょっとやる。探索部が崩壊していたのをなんとか以前のラインにまでは戻せたかもしれない。いや、そうでもないかも。知能がないので毎回同じミスをやってしまうのだけど、変更する場所は一か所にしないとそれが本当に効いているのかわからないじゃん。バカなのかな。いやしかし探索部ってパラメータとかが本当に多くて地獄。何が改良なのか全く分からない。
15:46までずっといじってたけどさっぱり強くならない。全く分からないしさっさと写経しろという話である。厳しいなぁ。Yane-elmoだかなんだかと比べたとき4,5手あたりまでの時点ですでに探索ノード数が1桁くらい違っているのが気になっていて、しかしこれは探索ノード数の数え方が違うからかもしれないなぁとも思ったり。全く光が見えなくて苦しいですね。うーん、どうすればいいのか。
お勉強とかはとりあえずやっていれば成果が出る(出た気になる)んだけど、コンピュータ将棋は強くならなければ無ですからね。研究もだいたい同じ感じなんだろうし、厳しいですね。厳しい。
ちょっと調べていたら結構それっぽい論文が出ているっぽいことに気づいてしまった。いやー発表前で良かったというか悪かったというか。一つ重大な論文が見つかるとその参考文献を見ることでたくさんやばそうな論文が見つかってくる。大変だ~。
21時ごろに帰宅。遅くなってしまった。集中力の低いまま居室しているの無駄なので早く帰ることを心がけよう。時間があるという意識がだらけを生んでしまうのだ。18時には帰るぞという強い気持ちでやっていこうな。
最近は帰る時間が遅すぎて趣味に時間を費やせていない。精神が荒廃していく。ダメ。ダメです。
その他
昨日は予定を完全にすっぽかしてしまい最悪だった。知能がない。ありません。
SlackとかSkypeの通知を入れていないので僕に一番連絡取りやすい手段はTwitterかもしれないないわけで、だからTwitterをもうちょっとちゃんとやる(ツイートを増やす)べきだなぁと思った。1日5ツイートくらいを目標に……といっても研究室の中ではTwitterを開かないようにしているので帰宅してからちゃんとつぶやこうということですね。どういう内容のものを呟けばいいのかちょっと悩みどころではあるけど。やっぱり将棋、コンピュータ将棋のことがいいんだろう。最近触ってないのでね……。
僕もいずれ歳を取るというの、本当に暗い話ですね。いやだなぁ。なんとかならないかなぁ。
ある人のTwitterプロフィール文「哲学的遠視 僕らは宇宙の使いみちを知っているだけで、宇宙については何も知らない」というのが好き。哲学的遠視、いい言葉ですよね。僕は何もわからない。
とうとう名取さなさんを観始めてしまった。人生の終わりが近い。
これで2500文字以上あるのか。もっと絞りたい。