大学
11:13に研究室着。遅すぎ。自害してほしい。
14時くらいまではなかなかいいペースで作業ができていた。しかしそのあたりで完全に集中力が途切れる。
5限には講義。グラフの話面白いなぁ。内容は結構高度で大変だけど。
将棋ソフト開発
50時間くらい学習させたものはWCSC28版に対して61勝 198敗 16分けだった。勝率約25%で、レート差は190ほど。思ったより強くなっているというのが正直なところですかね。まだまだ伸びてくれるとは信じているが、雑な学習部でどこまで行ってくれるかなぁ。
原因不明バグはいまだ不明でかなり厳しい。std::vectorのメモリ解放でなんか例外出てるっぽいようにも見えるけどそんなん知らんよ。
まぁ僕のコードがどこかおかしいんでしょうけどね。ひょっとしてメモリ不足とかそういう可能性もあるのかなぁと。想定よりも2倍以上使ってるっぽいしなぁ。メモリ管理は難しい。人間のやることではないのでは?
学習結果を晒している通り、ここ数日コードは書けてない。気合が足りない。
強化学習
なんか用語がよくわからなくて混乱してきた。この記事のAdvantageの説明合っているのかなぁ。AdvantageってQ(s,a) - V(s)として行動aの相対的な良さを測っているからそういう呼ばれ方をしていると思っていたんだけど。先を何ステップ使うかって関係なくない?
あとはREINFORCEとActor-Criticの関係とか。山岡さんのブログでdlshogiはREINFORCEを使っていると書いてあったんだけど、そのほうがいいのかなぁ。せっかくマルチタスク学習しているなら僕がActor-Criticと認識しているものでやればいい気がするんだけど。
その他
今日中に出そうと思っていたレポートを出していなかったことに気が付いて焦った。明日の午前中には出さないと。
音楽に頼るの良くない。どうしてもダメな時だけ使いましょう。
生活が壊れている。汁椀にひびが入って中身が漏れる。新しいのを買わなくちゃいけないんだけど、物を買うというのがなかなかできない。店頭に行ったらAmazonでいいやと思うし、かといって家に帰ったらAmazonを開く気が起きない。そのほかにも買うべきものはたくさんあるはずで……。
生活や家事と仲良くやっていくことができない。
早く寝ないと……。