0606 - 日記

大学

　9:18に研究室着。やっぱり二度寝が上手くできなくて多少の眠さがある。いつも通り研究室には誰もいないと思ったら床に人が倒れていてホラーだった(寝ていただけ)。研究室に寝泊まりするって漫画とかの話ではなかったのか……！

　午前中はちょっと探索部に手を付けてから同期の輪講発表練習を観る。まぁ準備不足なのは見て取れますね。

　午後は自分のスライドを修正。先輩に見てもらいいくらか指摘を受け、しばらくしたらまた同期の発表練習。紹介されている論文の質が悪すぎて面白かった。めちゃくちゃ笑ってしまった。説明不足とかそんなん以前にグラフの軸がバラバラとかでギャグでしかない。

　その後は全体ミーティング。これの話は研究室のブログに書いてもいいのかなぁ。

　18時過ぎたあたりで高見叡王が勝っているのを見て一瞬Twitterを覗きに行ってしまった。活躍してほしい。

　そのあとはReactorの論文を読んでいた。これ自体もそうだけど、結構いろいろな技法の合わせ技みたいなので引用されているものをもっと読んでいかないといけない。

　20:20頃に離脱。夕食を大学内で食べられるようにならないとこれ以上の伸びが見込めないなぁ。うーむ。

読んだ論文

　Reactorのやつ。誤解が絶対にあると思うのであまり公開したくはないんだけど他に読んでないので……。本筋にたどり着く以前に背景とか既存研究のところが結構勉強になった(無知なので)。

1.Introduction

　近年のモデルフリー強化学習はおおむね二つに分類できる

DQN系:価値関数を経験リプレイでバッチ学習
Actor-Critic系:サンプル効率が悪いが分散により高速に学習

　(もちろんハイブリッド系もある

など)

　データ効率の良さと方策オフ学習は環境との相互作用のコストが高い実世界問題に対して重要。もちろん時間効率も重要でこれら両方を解決する手法"Reactor"(Retrace-Actor)を提案。

　サンプル効率…方策オフの経験リプレイ
　時間効率…非同期並列化

　主な貢献は4点

$\beta$ -LOOの提案:方策勾配を改善するために行動価値を上手く使う方法
Distributinal Retrace( $\lambda$ ):マルチステップ方策オフ型分布強化学習
方策オフ型学習のための新しい優先順序付き経験再生
並列にネットワークを学習させられるアーキテクチャ(？)

2.Background

2.1価値ベースのアルゴリズム

　DQN型が今の主流。

Q関数をNNで近似
ワンステップの遷移をミニバッチ分貯めて学習
経験リプレイ
教師信号の方は固定したターゲットネットワークから取る

　これの発展形として

Double DQN:方策オンで行動だけ選択して値はターゲットネットワークを使う
dueing DQN:行動価値 = 状態価値 + アドバンテージ - アドバンテージの平均
Rainbow:複合アーキテクチャ

　がある。

2.1.1優先順序付き経験リプレイ

　リプレイバッファからランダムに取り出すのではなくTD誤差に応じてソフトマックス的な？重みづけ(Prioritized Experience Replay)

2.1.2Retrace( $\lambda$ )

　DQNを用いた方策オフ型のマルチステップ学習

2.1.3Distributinal RL

　収益の分布を直接近似。Categorical DQNなど

2.2Actor-Critic法

　A3Cをベースに、同期アップデートするPPOや経験再生を用いたりRetraceを用いたり尤度による再生をしたりいろいろある。

3 The Reactor

3.1 $\beta$ -LOO

　Reactorは方策と行動価値の両方を含む。方策勾配法で方策を改善し、方策を用いてQを推定する？

　ダメだここからは数式が多くなるしブログに書いていくのはつらい……。

その他

　カープは勝ちました。野間すごいんだ。野間丸鈴木の外野、うっとりしてしまうね。カープが勝つだけでこんなにも嬉しい。単純な人間だなぁ。

　人に伝える気持ちが少ないという話、輪講等に限った話ではなくて、知性・理解に対する誠実さが問われている気がする。コンピュータ将棋の技術的な話も一度ちゃんと書かなければ。人のものを読んでばかりだものなぁ。

　Wordpressでプラグイン入れるとかなら数式が書きやすかったりするんだろうか。しかし自分でサーバ立てるとかできない人間なのでレンタルサーバ探さないといけないんですよね。

　もともとインターネットに触れ始めたときは個人サイト全盛という感じだったし、当然いずれ自分も自分のサイトを生やすものだと思っていた。しかし結局全然そういう感じにはなっていないし。もっとWeb系の技術に興味を持てよ。VRもそうだけど、こんなに技術に興味がない人間だとは思っていなかった。

　インターネット、もっと楽しくできるんじゃないかとは思っている。思っているだけ。

大学