日記

日記です

0516

大学

 09:12に研究室着。まぁ悪くない。レポート提出というミッションがあったのでちょっと気持ちに張りがあったおかげということはあるだろうけど。

 すぐイヤホンに手が伸びてしまう。集中力がない。薬中毒みたいな感じでは?

 REINFORCEをちょっと誤解していたかもしれないなぁという気分になってきた。即時報酬による近似、そんなひどい話でもないのか? というかelmo絞りとの関連性が……。モンテカルロ法とかそういうことに近いんだろうか。

 相変わらず読んだ論文をまとめる方法に悩んでいる。数式をスッと書けないと苦しいのはそうなのではてなブログはちょっと厳しいかもしれない。まぁでも[tex:]と入れるだけならまだマシな方なのかもしれないなぁ。Qiitaは数式を書きやすい? らしく、それは人気の理由になりうるだろうなという気持ちになった。

 はてな、微妙にLatexと構文が違って厳しい感じになってきた。もうLatexで書いてしまうのが良いんじゃないか? とか思うけどそれはそれでデータの共有が面倒。うーむ、悩みどころですなぁ。なんだかんだで手書きが一番楽ではとか思い始めてきた。ノートを持ち運べ。

 昼からはさっぱりやる気が出ず、記号接地問題についてつらつらと考えていた。自由意志とか責任とかの観念を人工知能にも与えなくてはならないというような直感はあるわけだけど、それが身体を必然的に要請するものなのかはまだわからない。自分と、外界が明確に区別できれば良いのでは? と思ったりもする。そのために身体が必要ということなのかもしれないけど。

 人工知能のための哲学塾

人工知能のための哲学塾

人工知能のための哲学塾

 買って途中まで読みかけて挫折した覚えがあるんだけど今パッと探した感じでは見つからなかった。買ったストアが違うか、図書館で借りたんだったか。記憶ではなんか問題意識が合いそうで合わないみたいな印象だったが、今読んだらどうかな。

 まぁ哲学の話はどこまで行っても趣味なのであまり時間をかけすぎてもいけない。実践的にはボトムアップに、やれるところからやっていくという方針でなくてはなぁ。だから数学をやらなければならないのだ。

 ここ数日暑くなってきており、扇子を持って来ようと思って毎回忘れている。今は竹不足だかなんだかで扇子が品薄みたいだけど、まぁ物は使ってなんぼでしょという精神の持ち主なので、使ってしまおう。壊れたら困るけど。

 午後にちょっと考えていたんだけど、AlphaZeroはExperience Replayをやっていて、それは方策オフ型の学習しかできないはずだから(ここちょっと怪しい)、Actor-Criticという方策オン型の学習をやっているわけがないのか。やはりExperience Replayが方策オフ型の学習にしか適用できないという言説怪しい気がする。この論文にはそう書いてあるように見えたんだけど、僕の誤読か?

 こういうあれをパッと相談できる先輩とか教授が存在せず厳しい。いや、意外と知っている人がいるんだろうか……? 人との交流が少ないので認知していない。

 まぁきっと方策オンのものについても普通にExperience Replayは使えるということなんでしょう。ある程度間隔を短くとればね。感覚的にはそうだしね。

 早めに来たことに満足して早めに(19時前に)帰ってしまった。意味ないじゃん!

 帰ったあとは小説を読んだ。久しぶりのミステリ。そこそこ面白かった。

将棋ソフト開発

 レート50くらい上がっているはずだけど検証してもかなり微妙。指し手は良くなっている気もするんだけど、なんか中盤でちょっと悪くしてしまっているようにも見える。そういう分析も統計的にちゃんとやっていかないとダメだろうなぁ。

 自己対局中にShogiGUIがなんか配列外参照が発生したとか言ってくるんだけど原因がよくわからない。強化学習中にバグるのと同じ原因だったら良いなぁ。python力が低くて棋譜の結果を読み込むスクリプトをスッと書けない。

 ちょっとだけ強くなったはずのやつをWCSC版と戦わせたら17%しか勝てなくてむしろ弱くなってる……。なにもわかりません。

 自己対局の対局結果をさらってみたら打ち歩詰めやらかしてるのを発見した。これが諸悪の根源だったら話は早いなぁ。

その他

 研究室行って帰って本を一冊読んだら一日が終わっている。ナンデ!?

 人生が厳しい。