0604 - 日記

大学

　09:03ごろに大学着。輪講で使う教室を予約してから研究室へ。この辺のシステムものすごくアナログなんだけど、もうちょっとなんとかならないんだろうか。

　その後は自己対局の結果をまとめた。探索部の改良でもっと強くなってくれなきゃ困るし、評価関数部ももっと伸びてくれないと困る。とにかく技術力の低さがそのまま反映されてしまい、さっぱり強くならないのだ。何か核心的な部分を理解できていないような感覚がある。いや、そういう願望がある。トップソフトと同じ特徴量、同じ探索部を使っているのにEloレートで3000近く差がある現状に対して、何かに気づけば大きく伸びるのではないかという期待があるわけだ。

　ただ実際には小さなことの積み重ねでそういった差が生まれているのかもしれない。貧乏人が一発逆転を目指してギャンブルに突っ込むような事態になってはいけない。いずれにせよ、模倣もできない者がどんな工夫をできるというんだ。まずはちゃんと真似できるようになるところからだろう。守破離という言葉が好きです。僕はまだ守の段階すらまともにこなせていない。

　午前中はスライドの微修正や発表の準備で終わってしまった。

　今日の目標は研究室内でTwitterを開かないことです。成功しました。

　午後はまず発表練習。なんだかんだ言って学びが多い。ちょっと参加者少なかったのが残念だったけど……。

　そのあとは5限に講義。隣の人がちょっとうるさくて集中できなかったのと、やっぱり下手くそな英語喋られても厳しい。

　講義終わってから数本だけ論文のAbstだけ読んで離脱。9時前やんなー。

今日読んだ論文の一つ

[1707.06887] A Distributional Perspective on Reinforcement Learning

　Abst私訳

　この論文では価値分布の根本的な重要性について議論する。確率的な報酬の分布は強化学習のエージェントにより獲得される。これは従来の強化学習における報酬や価値の期待値をモデル化するアプローチとは対照的である。価値分布について研究した論文は大量に確立されているが、それらは通常、リスクを認識した振る舞いの実装のような特定の目的のために用いられてきた。我々はまず方策評価と制御の設定の両方において理論的な結果を、次に重要な分布の不安定さを明らかにする。そして分布の視点を用いてベルマン方程式を価値分布の近似に適用した新しいアルゴリズムを提案する。提案手法をArcade Learning Environmentにある一揃いのゲームを用いて評価する。state-of-the-artの結果と強化学習の近似における価値分布の重要性について逸話的な証拠を得る。最後に理論的な証拠と経験的な証拠を組み合わせ、価値分布が近似の学習設定に対して影響を与える方法について強調する。

　うーむ、あまりこなれた訳にならなかった……。コロンで文章を繋がれると途端に訳が怪しくなる。こうしてみると全然英文理解できてないんだなぁ。これじゃあ論文読んでもなにもわからないでしょう。

　内容についての話をすると、いわゆるCategorical DQNというやつですね。期待値ではなく分布を分布として考えようじゃないかという話題。まぁ確かにそれができるならそうした方が良いはずで、問題は複雑さとかそういうところなわけだから、クリアできるなら万々歳というわけか。

　定義やら証明が多くてちょっと見た程度ではさっぱり理解できない。これは本腰を入れてちゃんと読んでいかないとダメそう。

その他

　言葉や文章に対する拘りが薄れてしまったのはいつからなんだろうか。もっとしっかり文章を書きたい。

　自分が本当に好きな作品に対して、好きな理由を言語化するのが怖くてちゃんと書けたことがない。言語化してしまうと反駁の対象になってしまう。感情に留めている限り、攻撃されることはない。しかしそのままではきっと広がりも小さいのだろう。書かなければならない。そこからでないと、きっと何も始まらない。

　自分が理解したことを他人に伝えるモチベーションというのはどうやって獲得していけばいいのだろうか。大抵の場合、僕が理解するときは何か本を読んだ時であり、他人に伝えたかったら僕が拙い表現で言うよりも「貴方もその本を読んで」というのが一番誠実に思える。強化学習で言ったらSutton & Barto本をちゃんと読めばすぐ僕の理解には追い付けるだろうし。

　Twitterをボーっと眺めている虚無の時間をなくしていかなければならない。

　日記、これで328日も続いているそうです。頭おかしいな。この日記によって良い影響があるのかどうか、正直よくわからない。時間を無駄にしているだけなのではないかという気もする。

　創作を発表するプラットフォームみたいなのが未だに好きになれていない。しかしちゃんと発表して評価されてというサイクルが回って活動が活発になっている人を見かけて、これはこれで良い在り方なのだろうなと思う。アマチュア物書きの注目されない自意識が渦巻く作品も結構好きなんですけどね。まぁやはり健全ではないか。健全、健全ね。健全は良いことか？

　Detroit: Become Humanというゲームが面白そうだった。しかしこういうのゲームではなくやっぱり小説で読みたいという気分になってしまう。

　好きなものについてしっかり語っていこう。ブログを書くぞ。