日記

日記です

0603

大学

 12:53に研究室着。今日は意識的に睡眠時間をたくさん取ろうということで2度寝3度寝をし、起きたのが11時くらいだった。お昼を食べてから研究室へ。

 簡単に論文を読んでから輪講発表のスライドを修正。うーん、的確に素人質問をされたら燃えそうだなぁ。論文の表現がよくわからない箇所がそこそこある。

 いやー、実験の意味が分からない。もっと丁寧に書いてほしい。意味不明。

 一番大事なモチベーションの部分もよくわからない。何か根本的な誤読、あるいは知識不足みたいなものがありそう。ここまでわからないのはなんかおかしいぞ。

 abstとかを読み直したら多少わかってきた気もする。うーん、しかし強化学習でよくある文脈からは微妙に外れている気がするなぁ。

 結局スライドを直しただけで終わってしまった。18時過ぎに帰宅。ひどいなぁ。

 AGCにも出た。何も起きなかった。はい。

読んだ論文

 今日から1日1本なんか読んだものを書いていこうという企画をやっていこうと思った。いや、1日1本って少ないのでこれが全てではないんだけど、1本くらいはabstを和訳する英語の練習をしていないとGoogle翻訳に頼りっぱなしではダメだろうということで。

 今日はBootstrapping from Game Tree Search。いわゆるTreeStrapの論文。これは一度読んでおきたいなぁということで。NIPS2009に通ったということなのかな。

 Abstract私訳

 この論文ではヒューリスティックな評価関数のパラメータを\alpha \beta探索によって計算される値の方向にアップデートする新しいアルゴリズムを提案する。我々のアルゴリズムは既存の探索から学習する手法、Samuels checker playerやTD-Leaf法とは二つの点で異なる。一つ目は、ゲーム木における一つのノードではなく全てのノードを更新するということである。二つ目は評価関数に対する教師信号として、後に続く探索ではなく深い探索の結果を用いることである。我々は線形のヒューリスティックな関数を用いているチェスプログラムMeepにこれを実装した。重みベクトルを小さい値でランダムに初期化したのち、Meepは自己対局のみから精度の良い重みを学習した。人間とオンライン上で対局させたところ、Meepは自己対局のみからヒューリスティック学習をするチェスプログラムの中で最高性能であるMasterレベルを発揮した。

 Google翻訳

 本論文では、発見的評価関数のパラメータを、アルファベット検索によって計算された値に更新することにより、新しいアルゴリズムを導入する。 私たちのアルゴリズムは、サミュエルチェッカープレーヤーやTDリーフアルゴリズムなど、検索から学習するための従来のアプローチとは2つの重要な点で異なります。 まず、単一のノードではなく、検索ツリー内のすべてのノードを更新します。 次に、評価関数のトレーニング信号として、後続の検索の結果ではなく、深い検索の結果を使用します。 我々は、線形ヒューリスティック関数を使用して、チェスプログラムMeepでアルゴリズムを実装した。 Meepはウェイトベクトルを小さなランダム値に初期化した後、セルフプレイだけで高品質のウェイトを学習することができました。 人間の対戦相手に対してオンラインでテストされたとき、Meepはマスターレベルでプレイしました。チェスプログラムの最高のパフォーマンスで、自己再生から完全に学んだヒューリスティックです。

 論文に載ってる図がChessProgrammingWikiにも載ってたやつなんだけど、やぱりこれわかりやすいなぁという感じ。性能もTreeStrap高いってなっているんだけど、Ratingの推移グラフを見るとRootStrapとかTD-Leafがまだ収束していないので、とりあえず収束の速さは主張できるだろうけどそれ以上のことはちょっとどうなんだとも思える。まぁ近いうちに実装してみたいとは思っているのでそれで検証できればいいか。

その他

 だるまさんの専門(知らんけどさすがにこういうのが専門なんだろう。この知識量が趣味ですよ言われたら死ぬ)やばない? 何を言っているのか1行も理解できない。強すぎる。

 ダメだなぁ。コンテストもダメだったし、頭悪すぎて何をやってもダメという感じになってきた。何もかも放り出して本読んだりゲームしていたい。勉強しても無駄。