大学
09:54に研究室着。ちょっと遅くなってしまった。今日も朝6時に目が覚めてしまい、二度寝、もうまくできずベッドの上で目をつぶって横になっていただけだった。眠い。
11時までうとうとしながら競技プログラミング。解法が分かった瞬間ハッと眠気が飛び去ったのが自分でも面白かった。
そのあとは探索部をいじる。さっぱりわからない。
研究とは? 今日は一切研究しなかった。そろそろちゃんとテーマを決めないとやばい。
将棋ソフト開発
探索部さっぱりわかりませんねぇ。「変更を加えるごとに弱くなる」今日の575です。
読んだ論文
The Reactor: A fast and sample-efficient Actor-Critic agent for Reinforcement Learning | OpenReview
Abst私訳
この研究では、Reactorという新しいエージェントのアーキテクチャを提唱する。これは複数のアルゴリズムとアーキテクチャを複合したものであり、Prioritized Dueling DQNやCategorical DQNよりサンプル効率が良く、またA3Cよりも実行時間が短い。我々の最初の貢献はDistributional Retraceと呼ばれる新しい方策評価アルゴリズムを提案したことであり、それは分布を学習する強化学習のためのマルチステップ・方策オフ型の更新である。同じ方法が期待値を計算するためのマルチステップ方策評価アルゴリズムにも用いることができる。次に、行動価値をベースラインとして用いることにより分散とバイアス間のトレードオフを改善する-leaveone-out 方策勾配アルゴリズムを提案する。最後のアルゴリズム的貢献は連続のための新しい優先順序付き再生アルゴリズムであり、これは効率的な再生優先順序付けのために隣接した観測の時間的な局所性を利用するものである。Atari2600のベンチマークを使用し、これらそれぞれの新しいアイデアがサンプル効率と最終的なエージェントの性能のどちらにも貢献することを明らかにする。最終的に、Reactorは2億フレーム、一日以下の学習でstate-of-the-artの性能に至ることを示す。
いろいろ組み合されすぎていてこれを読んだだけではよくわからないな。普通のベースラインを引く方策勾配法とは何が違うんだろう。
将棋
藤井七段の終盤をぶっちぎるスピード感は痛快ですね。千田六段の解説もかゆいところに手の届く気分のいい解説っぷりでした。
uuunuuunさんの名前が出てて面白かった。うーんうーんと読むんですか。別に読み方なんてどうでもいい気もするけど(他人の名前でこういうことを言ってはいけないか?)
その他
ソースコードをプログラムの「設計図」って表現するのはなかなか良いのではなかと思った。というか自分ではそれ以上に適切な表現も思いつかないかもしれない。アルゴリズミックな部分に着目すれば手続きを示したものなんだろうけど、オブジェクト指向だとねぇ。あとはなんというか、目的の成果物はプログラムであってソースコード自体ではないということもちょっと失われていた視点だったかもしれない。基本的にはプログラミングは手段だなぁと。僕はどちらかというとプログラミングを目的としてしまいがち(競技プログラミングとかその最たるものでは)なので。
今日も研究室ではTwitter開かない作戦成功した気がする。なんだかんだ有益情報も転がっているので完全に離れるというのは現実的でないという気もするんだけど、どうでしょうね。
研究のテーマをしっかり決めなければならない。どうしましょう。多少時間の猶予はあるので練り上げていきたいところだけど。博士の人も修士の人も発表が間近に控えているようで研究室の居室率が高い。別に良いことだとも悪いことだとも思わないけど。
漫画を読む気力が出てこない。動画ばっかり観てしまう。生活が回らない。そういう人生です。
強化学習の問題設定が好きだという話をした。やはりそこなんですよね。根本的な話をすれば問題設定の美しさが全てだと思う。
どうでもいいことを日記に書くの良くないですね。もっと絞っていこうぜ。