日記

日記です

1216

今日の反省

 平日より1時間遅く家を出て大学で勉強。講義の強制力がないと朝起きるのがつらいなぁ。

 午前は統計学の課題をやる。検定の気持ちがわからない。なにかしっくりこない感覚がずっとある。選んだテーマが良くなかったかな。もうちょっと仮説が立ちにくいものにすれば良かったかもしれない。自明なものをただ確認しているという感がある。

 午後は15時まで強化学習の勉強。ちょっとわかってきた気がする。Q値をテーブルとして持つというところがピンと来ていなかったんだ。将棋だと状態数も可能な行動数も馬鹿でかいから、テーブルとして保持するというのが上手く想像できていなかった。

 Q値から方策を決定するというやり方がわかってくると、それと対比される方策勾配法もちょっとわかってきた。しかし、これを例えば将棋ソフトに応用しようとするとどうなるんだろう。例えば普通の3駒関係のやつでも、一手指した後の静的評価値をもとにソフトマックスっぽいことをやれば方策にできると思う。これはパラメトライズされた方策と言えるのだろうか? それともQ値を近似する関数器だと見なすべきなのかな? 一手動かしてから評価値を得るという方式だとQ値のイメージに近くて、方策というには動かさずに確率分布を出せなきゃいけない気がする。そういう問題でもないのか?

 実は両者に差はないという見方をするのが普通なのかもしれないというのが頭をよぎる。いやしかし強化学習面白いぞ。

 「アルゴリズムの主眼が行動価値関数の推定にあるのか、方策を直接推定することになるのかの違いである」(『これからの強化学習』p.46)なるほど。ちょっとまた理解が深まってきた気がする。僕としてはなんとなく方策勾配法の方が直観的というか、パッと思いつく強化学習のイメージだった。それでQ学習の方が上手く想像できなかったんだなぁと、今になっては思う。

 うーん、やっぱり将棋ソフトに対する応用だと方策勾配法っぽいな。ん、しかし方策勾配定理がよくわからない。行動価値関数がここで出てくるのか……。それを即時報酬で近似するっぽい? 近似の仕方にいろいろ工夫があるらしい。ここはまた読み直さないとわからないな。

 そして自然勾配法が出てきた。ちょっと注目している話。情報行列とはなんぞや。全然わからないなぁ。

 方策勾配法は連続な状態、行動に強いという話もある。それだと将棋はどっちも離散的だからそういう利点からは外れるか。行動価値関数の近似と方策勾配法の明確なライン引きが自分の中でまだできてないぞ。

 学習するデータがi.i.d.であること、本質的に重要っぽいですね。今BonanzaMethodを100局くらいのミニバッチごとにパラメータ更新をやっていて、それぞれでは1局を棋譜の順番通りに追っていっているんだけど、これは良くないのかなぁ。バッチ学習ならシャッフルの意味はないだろうし、ミニバッチサイズを大きくとれば緩和されたりするかもしれない。今の実装だとdoMoveが結構重いので、順番通りに動かした方が効率が良い気がしているんだけど、そもそも上手く学習できないんじゃ本末転倒だから、できれば安全側に倒したいところだなー。

 そうすると局面単位でなにかやることになるんだろうけど、そうかSFENを読み込んだりしてやるのが簡単か。技巧はなんか指定局面までdoMoveで動かしていた記憶があるんだけど、そうじゃないか。なるほど。それだとやねうら王とかと学習データの互換性を作っておいたほうがいいかな。ライブラリに近づくような気がして気は進まないんだけど……。

 機械学習の数学的背景、めちゃくちゃ難しい気がする。けど気持ちを理解してそれっぽいことを実装するのはまだ簡単なので、どうしてもそういう方向に逃げようとしてしまう……。数学出来ないとどこかで限界来そうな気はするんだけどなぁ。

 ソフトマックスかければなんでも方策になるみたいな考え自体が怪しいか。評価値っていうものがどういうものかをちゃんと考えないといけない気がする。行動価値関数の値はあんまり範囲決まっている気はしないし、順序付けさえできればいい値か? それだと評価値と結構近い概念な気はする。間隔尺度かどうかというところに敏感にならなければならないのか。

 15時からは画像処理の課題をやる。3時間半溶かしたのに一問も進まなくて精神が死んでいたんですが、配布されたスライドが間違っていることに気づいて勝ちました。お前~~って気持ちになったけど結構わかりやすいミスだったし、よく考えないまま鵜呑みにしていた僕も悪い。

 といっても4時間かけて1問しか進まないって大丈夫か。いや大丈夫じゃないぞ。頑張らないと。

漫画

 はい。

 全9巻完結済み。マテリアル・パズルシリーズの過去編? らしい。マテリアル・パズルシリーズのことはほとんど知らないので、まぁそこはあまり……。

 ガンガンオンラインで読めていたとき、主人公と機体が共鳴するシーンに一目ぼれして購入したのだった。あぁいうパワーで何とかしようとする態度が好きなんですよね。

 唯我論というべきなのかなぁ。主人公と虚構世界が一致しているという感じ。そういうのが好きだという気はする。世界に起こるあらゆる不幸、不正は主人公の責任だというような。もちろんそれを明示的に言われるとウゲッてなりそうだけど。

 セカイ系というのもきっとそういうことなのだろうと思っている。もっといいカテゴリ分け、言葉があるのかもしれないとは思いつつ、セカイ系という言葉の響きもまぁ気に入っているので。

その他

 んー、時間ないですねぇ。頑張ろう。