卒論を本格的に書き始めた。これは好きとか嫌い以前に大変な作業ですね。長い文章が全然書けない。普段から鍛えておかないからこういうときに苦労することになるんだぞ。
学習曲線が全然信じられないなぁということが明らかになりつつある。学習後のパラメータを連続対局させてみるとグラフ上でのEloレーティングと全く違う結果が出てくる。試行によって収束レートもバラつき過ぎている気がするし、何かがバグっていそうなんだけど……。
あとは自分のやっていることがTDLeaf()なんだなぁということがようやくわかってきた。今までちょっと変な理解をしていたかもしれない。の値によってモンテカルロ法から1ステップTDまでを連続的に繋げられるの美しいと思うんですが、どうですか。
将棋の方でも回し始めて、結果が出ているんだか出ていないんだか。まぁまともな棋力にはならなさそうですね。れさ改に勝てない。
夕食を初めて大学の食堂で食べた。ついにこの技を解禁してしまった。これからは研究室滞在時間が圧倒的に伸びます。これは予言だよ。と思って22時まで研究室にいたら鼻血が出てきたので撤退。そうですか……。
竜王戦は横歩取り。AlphaZeroが横歩取り指さないのむかつくので後手に頑張ってほしい。通算100期だのなんだのはおまけです。横歩取りの威信をかけての戦いだ。勝手にどういうことだと思っています。