日記

日記です

0523

大学

 10:37に研究室着。遅すぎる。ここにゴミがいます。ゴミがパソコンの前に座っている。ゴミの権化。ゴミが服を着て歩いている。二度寝してしまったんですよね。

 研究は強い問題意識に基づいていないとなかなか面白い、良いものにはならないんじゃないかと思っている。さて自分の中にはどういう問題意識があるかっていうことだよなぁ。コンピュータ将棋をやっている中で、いくらか自分の中にある拘りを感じる瞬間もあるわけで、そういうのをうまく押し出していく必要がありそう。直接的にコンピュータ将棋をやるかどうかは置いといて。

 まだ興味を持っている分野が広すぎるというか、絞り込めていないので巨大な問題しか考えられない。もっと困難を分割していかないと。

 表現学習と、そこからの強化学習というのは別分野なのか、それともDeep何某みたいなもので結び付けられるのか。Deep何某をなにもわからないまま使っているの邪悪ではという気もするし、まぁそういうものなのかもしれないとも思う。

 眠くなってきたので音楽を聴き始める。人が研究室に入ってくる音すら聴こえなくなるのであれなんだけど、仕方がない。

 ずっと強化学習(Sutton&Barto)を読む。強化学習の報酬とかそういう部分の定式化が好きなんだなぁと思った。物理的な内外ではなくて制御可能性によって線を引くということ。それはある種自由意志の一側面であるよね。あとは最終的なゴールのみ報酬とすること。途中の余計な知識を部分報酬として与えないという点がよさそう。4章動的計画法のところまでまでさらーっと読んでいった。何度目かの挑戦でようやく何が言わんとされているのかがわかってきた気がする。価値反復とか一般化方策反復の気持ちがちょっとでもわかるようになったのはうれしい。練習問題とかの実装もやってみたほうがいいとは思うけど、優先順位はちょっと低いかな。

 5章も読み始めたけど全然集中できなかったので20時前に撤退。疲れた。やるべきことを何もやれていない。ダメ。

将棋ソフト開発

 elmo絞り本当に上手く行かないんだけどこれはなんなんだろう。さっぱりわからない。やっぱり探索深さが小さすぎるのかな。それだともっと高速化とかに手を付けるべきってことかなぁ。探索とかも、なんもわかりません。

 泣き言ばっかり言ってないで原因を考えなくちゃ。深さ3ではもう絞り切ったっていうことなのかなぁ本当かなぁ。今のところ気になっている点は、まず引き分けが多いこと。千日手と256手合わせて30%くらい引き分けになっている。1手1秒の対局ではそんなことにはならないんだけど、深さ3だと千日手になりやすいとかありえるのか。何か実装を間違えちゃいないか。あとは時々勾配がめちゃくちゃ大きくなること。これもよくわからない。勝率差が大きいところでそうなっている気もするし、まぁそうでもない気もする。

 ゼロベクトルからだと強くなるっていうのが謎なんですよね。そこもダメならわかるんですが。

 指し手は一応それっぽくて、さっさと2五歩決めたりするんですけどね。

 今朝は二度寝してしまったんだけど、そのときにTwitterで相互フォローの人とリアルで会う夢を見た。センスが良いなと思っている人で、実際に話してみたら(僕の夢の中だから当然だけど)面白い人だった。人と仲良くできると楽しそう。それはわかっているんだけど……。