日記

日記です

0524

日記

 09:29に研究室着。これが僕の限界なのか?

 とりあえず簡単な課題を済ませたら10時近くなっていた。そんなにかかる課題ではない……。

 午前は強化学習を読み進める。モンテカルロ法のところとTD法のところをちょっと。モンテカルロ法は過去の平均を求めるけど、TD法だと最尤推定になっているみたいな話がかなり刺激的だった。確かにそうかぁ。

 3限は離散凸解析の講義。本気を出されて死に至った。L凸関数とM凸関数それぞれの定義自体がピンとこないしそれに♮が付くとかでもうなにもわからない。課題の問題もさっぱり意味が分からなかった。

 4限は可視化。英語の講義だけどかなり流暢にしゃべってくれるのでまだわかるという感じ。英語あまり得意でない日本人の教授がぼそぼそと意味不明な英語で講義するやつもあって、それはかなりやばいからなぁ。誰も幸せになってない感じがある。

 18時からは競技プログラミングの練習会に参加した。まだ2回目ということで簡単な感じだけど、まぁいくらか意味不明なことを口走ってみたりみなかったり。もうちょっと強くなりたいっすねぇ。時間と体力が足りない。

 帰ってからは王座戦挑戦者決定トーナメントを観た。羽生-深浦戦、藤井-久保戦のどちらも熱戦で面白かった。羽生竜王もかなりがっくり来ていたなぁ。やっぱり将棋で負けるというのは非常につらいことだなとアマチュアの僕ですら思うわけで、いくら羽生竜王が超人的であるといってもそういうとこは少しでも共通するなら、なんか、嬉しいかなとかちょっと感じる。

その他

 生活が回っていない。家事を代わりにやってくれる人が欲しい。ちょっと嘘をつきました。正しくは「人生を代わりにやってくれるひとが欲しい」です。よろしくお願いします。

 Twitter、"良い話"(これもパクったものかも)をバズらせてそこにアフィリエイトブログへの誘導をぶら下げるみたいな手法を目の当たりにしてなかなかの嫌悪感が去来してしまった。人がたくさん集まるところ、どんどんダメになっていく。常に流浪していくしかない。

 最近A4サイズの大きいノートを使い始めたんだけど、なかなかいい感じがする。インクの乗りがちょっと良くないのだけが不満点だけど、やはり大きくてころころ行送り、ページ送りが発生しないというのは良い。

 競技プログラミングの練習会のために教養科目を多くやっているキャンパスに来る用事が発生しているんだけど、理工学部しか入っていない†オタク†キャンパスに比べてやはりパッと見で苦手っぽい人種が多い。良くもまぁ二年間もここで過ごせていたな。

 にしても大学4年生にもなってSkypeもSlackもまともに使ったことないって時点で、どれだけ人と交流していないんだという話ですね。

 疲れてなにもできない。厳しい。とにかく動かねば。

0523

大学

 10:37に研究室着。遅すぎる。ここにゴミがいます。ゴミがパソコンの前に座っている。ゴミの権化。ゴミが服を着て歩いている。二度寝してしまったんですよね。

 研究は強い問題意識に基づいていないとなかなか面白い、良いものにはならないんじゃないかと思っている。さて自分の中にはどういう問題意識があるかっていうことだよなぁ。コンピュータ将棋をやっている中で、いくらか自分の中にある拘りを感じる瞬間もあるわけで、そういうのをうまく押し出していく必要がありそう。直接的にコンピュータ将棋をやるかどうかは置いといて。

 まだ興味を持っている分野が広すぎるというか、絞り込めていないので巨大な問題しか考えられない。もっと困難を分割していかないと。

 表現学習と、そこからの強化学習というのは別分野なのか、それともDeep何某みたいなもので結び付けられるのか。Deep何某をなにもわからないまま使っているの邪悪ではという気もするし、まぁそういうものなのかもしれないとも思う。

 眠くなってきたので音楽を聴き始める。人が研究室に入ってくる音すら聴こえなくなるのであれなんだけど、仕方がない。

 ずっと強化学習(Sutton&Barto)を読む。強化学習の報酬とかそういう部分の定式化が好きなんだなぁと思った。物理的な内外ではなくて制御可能性によって線を引くということ。それはある種自由意志の一側面であるよね。あとは最終的なゴールのみ報酬とすること。途中の余計な知識を部分報酬として与えないという点がよさそう。4章動的計画法のところまでまでさらーっと読んでいった。何度目かの挑戦でようやく何が言わんとされているのかがわかってきた気がする。価値反復とか一般化方策反復の気持ちがちょっとでもわかるようになったのはうれしい。練習問題とかの実装もやってみたほうがいいとは思うけど、優先順位はちょっと低いかな。

 5章も読み始めたけど全然集中できなかったので20時前に撤退。疲れた。やるべきことを何もやれていない。ダメ。

将棋ソフト開発

 elmo絞り本当に上手く行かないんだけどこれはなんなんだろう。さっぱりわからない。やっぱり探索深さが小さすぎるのかな。それだともっと高速化とかに手を付けるべきってことかなぁ。探索とかも、なんもわかりません。

 泣き言ばっかり言ってないで原因を考えなくちゃ。深さ3ではもう絞り切ったっていうことなのかなぁ本当かなぁ。今のところ気になっている点は、まず引き分けが多いこと。千日手と256手合わせて30%くらい引き分けになっている。1手1秒の対局ではそんなことにはならないんだけど、深さ3だと千日手になりやすいとかありえるのか。何か実装を間違えちゃいないか。あとは時々勾配がめちゃくちゃ大きくなること。これもよくわからない。勝率差が大きいところでそうなっている気もするし、まぁそうでもない気もする。

 ゼロベクトルからだと強くなるっていうのが謎なんですよね。そこもダメならわかるんですが。

 指し手は一応それっぽくて、さっさと2五歩決めたりするんですけどね。

 今朝は二度寝してしまったんだけど、そのときにTwitterで相互フォローの人とリアルで会う夢を見た。センスが良いなと思っている人で、実際に話してみたら(僕の夢の中だから当然だけど)面白い人だった。人と仲良くできると楽しそう。それはわかっているんだけど……。

0522

大学

 09:22に研究室着。今朝がたはうまく寝れなかったのでしんどい一日になりそう。睡眠の環境が悪い気がする。改善していきたい。

 輪講発表の資料を作っていく。どうまとめるのがいいのかなかなか見えてこない。

 圧倒的に眠い。眠さしかない。完全に睡眠失敗がたたっている。そんなこんなで午前中は全く使い物にならない置物として椅子に座っていた。

 午後もすごく眠くて15:30までずっと寝ていた。これはおかしいなぁ。

 ちょっとふらふらして5限からの講義に出ようと思ったら直前で今日は休講だということに気づいた。頭が狂っている。今日は本当にひどい。

 そのあともあまり集中力が出ずにあまり生産性が高くなかった。19:30ごろ帰宅。今日はダメな一日だった。また明日から切り替えてやっていきましょう。

将棋ソフト開発

 静止探索をぬるくするのはダメだった。NNの方に手を付けたい気がしているんだけどふわふわしている。

将棋

 プロパンゴリラ氏の実況を観て僕も指したくなってくるなど。以前にも観ていたし、なんだかんだで結構影響を受けているところはあると思う。横歩取りを積極的に指すところとか(4五角戦法はやらないけど)。

 でもこうしてみると角換わり棒銀も僕は一切やらないのでそこまででもないか。僕はずっと腰掛銀党だなぁ。居飛車振り飛車論争はわりとどうでもいいんですけど、腰掛銀早繰銀論争になるとやる気を出す人間です。棒銀は論外。いや、最近永瀬七段とか三浦九段とかいくらか角換わり棒銀採用している(し結果もそこそこ出ている?)けど。

 第3局二つ目の観戦記も読んだ。髙見六段も熱い人間ですね。見てて清々しさを感じる好青年という印象を受ける。今日も佐々木勇気六段に勝っていたし、本当に強いんだろうな。

その他

 某件、詳しくない話には首を突っ込むべきではないと思っているからできれば何も言いたくはないし、会見すら観てないので本当にあれなんですけど、自由意志に関する問題にはどうしても惹かれてしまうところがある。倫理とかどうでもよく、感情だけが気になる。

 マスメディアの振る舞いを見ているとそこに自分と同じものを感じる。マスメディアに邪悪性があるとすれば、それは僕の中にもある邪悪性なのだ。

 内向性が高まっているという感覚がある。人と仲良く。

 やっぱり僕は能力が低いのに、他人との交流が少ないせいでよくわからない自信を持ったりしているようだ。厳しい。

0521

大学

 09:30に研究室着。しばらくはSlackの設定をガチャガチャやったり昨日のAGCの参加ログを書いたり。

 いつの間にか10:35になっており、ハァ? って感じ。やっていくことの優先順位をちゃんとつけていかないと。

 離散凸解析の講義の課題が終わらない。というかわからない。自分がなにをやっているのかもちょっと怪しいくらいな状況で、これは結構厳しいぞ。

 お昼。いつも同じものをコンビニで買って食べているんだけど、さすがにちょっとバリエーション増やしたほうがいいのではという気分にもなる。お昼は研究室以外で食べたいんだけど、食堂とか人が多いところは苦手なのでどこかひっそりと人がいないところがあればなぁと。しかし人が来て咎められるかもしれない場所ではそれもそれで落ち着かないのでなかなか難しい。片道15分くらいかかるので家に帰るというのはさすがに現実的ではないしなぁ。

 昼食後に集中力を再び取り戻すのが結構難しいので音楽を聴く。最近はまた『神様、僕は気づいてしまった/CQCQ』が好きになってきた。結構長いこと興味が続いている気がする。

 ちょっと眠くなったところでシロクマが流れてきてシャキッとした。音楽の効能を感じた。

 13:25ごろ、ようやく課題が終わった。証明がちゃんとできているのか自分でもわからないというダメさ。全体的に数理科学科の人に比べて証明が言葉足らずというか、お気持ち表明っぽくなってしまう。まぁやはり訓練量が違うしなぁ。

 やるべきことが見当たらずかなりダラダラと過ごしていつの間にか14:28になっていた。1時間が消えた!? 輪講発表資料作りとかやらねばならない気がするが、圧倒的にやる気が出ないぞ。どうなっているんだ。

 ここらへん完全に虚無な文章が続くわけですが、研究の方向性が定まってこないという問題があります。やっぱりDeep系をやらなくてはなぁという気持ちはもちろんあるし、そうはいってもPythonが遅すぎてやる気が起きない(僕の書き方が悪い)という問題があり、C++をうまく使っていこうにもtensorflowのドキュメント貧弱では? という気分になる。NNUEみたいな形でやっていくことを目指すべきなんだろうか。

 結局5限まで無を生産した。意味が分からん。こういうところがダメなんだ。

 5限終わった後テンションが上がって21:40まで研究室で作業していた。そうしたら帰り道で精神が無になった。なんで僕はこんな遅い時間まで……。は?

将棋ソフト開発

 学習のための自己対局結果を詳細に表示するようにしたら千日手と256手による引き分けが30%くらいあるっぽく、学習データとして大丈夫なのか? という感じになった。こういうのを表示してなかったっていうのがひどいですね。プログラムが「上手くいってくれ」という祈りにまみれており、具体的な表示が少なすぎる。こういうところが致命的にダメだなぁと感じる。

 ところでNNUE型の評価関数は流行るんだろうか。今日もう一度読んでみたけどまだピンとこない。どうなのかなぁ。

 Pythonをうまく書く技術が必要なのかもしれない。なにもわからなくなってきた。

 ちょっと前に読んだ本だけど感想を書いていなかったので。

 最後の終わり方、投げるんだぁという感じですね。いや多少知ってはいたけど。別に嫌いな終わり方でもないけど。しかしどこか弱い気がしてしまうところもあった。

 ミステリ部分については、あまり僕が好きではないやつでしたね。名前を言うだけでネタバレになる例のあれ、なかなか強烈に面白いと思える作品に出合えた経験がない。でも出来が悪いということはなくて、やはり僕が本質的にミステリ読みではないということなんでしょう。

 呪いをかけるシーンは良かったですね。きっと僕らには愛か呪いか宗教が必要なんだ。僕が最近気に入っているフレーズの「神託とミサイルの区別がつかない」と近いものがあるのではないかと感じる。

その他

 今日はめっちゃくしゃみと鼻水が出たし、花粉症っぽい気がする。もう5月下旬なのにまだ残ってるのかなんなのか。

 AtCoder黄色が「特殊な人材以外にとっての最高到達点」っていうのそれっぽい。ちょっと前に言われたことだと思うけど、唐突に思い出した。

 研究室選びミスったのではという気持ちが生まれてきた。まぁ大きな選択の後ではよくあることです。

 もう半年近く前の記事だけど永瀬七段のコラムを読み返したりした。いや、これとんでもないですよね。「才なき私」というのがどれくらい本気で言われているのかが純粋に気になる。

 叡王戦第3局の観戦記(前半)が良かった。金井六段のあの千日手を選んだシーンは強く印象に残っている。失礼な話だとは思うけど、そうした弱さがある種魅力的に見えることもあるのだ。

0520

総括

 虚無っぽい一日を過ごした。虚無です。

Twitter

 衝動的にTwitterアカウント(実名ではない方)を削除してしまった。どうせ復活させるんだろうなぁ。これまで何回も削除しては30日以内に復活というのを繰り返しているんだけど、あまり良い振る舞いとは思っていない。うんまぁでも今回は下手したら本当に消えるかも。

 今のアカウントも一回消して作り直したもので、Twitter自体は高校一年生の終わりごろに始めたんじゃなかったかなぁという記憶がある。一度切れてしまっているのだから、二度目があっても不自然ではない。

 フォロー0でやっていくアカウントを作り直すというのはありかもしれないが、それはこのブログでは?

 結局何かを書く場所があれば僕は十分で、ブログを書く癖がついたのでTwitterが不要になったという見方もできる。

将棋

 公式放送で「この放送はアドバイスOK?」みたいなコメントが流れていたのが面白かった。いろいろな文化に慣れている人間がいる。

プロ野球

 少し前にDAZN契約したのでかなりカープ戦が観れている。今日の試合も1-0という痺れる展開だった。九里が良かった。やはりある程度球速が出てるから抑えられるのでは、という気もする。鈴木誠也、もうちょっと打ってくれや。

競技プログラミング

 

 

その他

f:id:tokumini:20180520085507p:plain

 作品もなにもかも全く知らない人だけどインターネット上での活動終了という話を見て悲しくなってしまった。インターネット、思ったより居心地が良くないという気もしている。

 日曜日になる度に精神が不調になっている気がする。やはり日曜日も研究室行くべきかなぁ。

0519

大学

 9時半ごろに研究室へ。

 午前中はコンピュータ将棋をちらちらとやったりやらなかったり。そこそこプログラミングしたけど集中力はなかった。

 14時からはこれを観ていた。kivantium氏、素晴らしいオタクで見てて(聞いてて)飽きない。スープジョークでダダ滑りしていたのが面白かった。いやでもプレイヤーの方々は初めて見た? 問題に対して1時間できっちり動くもの作れるのすごいですね。質疑でもかなり本質的な指摘をしていたし。

 午後はプロ野球観たり将棋観たりしながら学習を眺めていたりしたんだけど、ネットの海をさまよっていたら違う研究室の強い先輩が書いたサーベイスライドが出てきてすごかった。世の中に強い人はたくさんいる。ちょっとだけ話したことがある人なんですが、少し生意気で鼻持ちならない感じの人だったので、複雑な感情が去来したもの確か。

将棋ソフト開発

 Softmax関数の性能を見ていたが、思ったより調整が難しいという感じがする。まぁしかしこれでやっていくしかないかな。

 学習部のバグ、なんか取れたかもしれない。再現しやすい条件を発見して、そこで再現しなくなった。やっぱりマルチスレッドはもっと神経使ってコード書かないと直しにくいバグを無限に生んでしまうなぁ。CPUとメモリの気持ちにならないと。

 まぁ後はもっとコードを見直していくことが大事ですかね。

 そしてVisual Studioで関数のシグネチャを変更する方法を会得した。「署名を変更」っていうの、翻訳? ミスなのでは……。

 二か所で学習を回しているとどっちがどんな評価パラメータだったんだか思い出せなくなってくる。やっぱりJenkinsとかなんとかを導入してみるべきなのかなぁ。よくわからなく、よくわからないという気持ちが強い。

 家で学習か対局かさせていた気がするんだけどさせていなかったか。何も覚えていない。管理できていない。

 しかしゼロベクトルからの学習はできるけどそこから先の学習は上手くいかないなぁ。うーん、一度止めてしまうとダメってことがあるんだろうか。あるいはここで頭打ち……、そんなことないでしょ。

 メモリの使用量は正常だった。僕の頭の方が悪かった。

将棋

 名人戦は青野流の激しい展開に。と思ったら先手が落ちつけてこれはリードですか。角交換角打ちからもうさっさと終盤に行くのかと思ったらこんな局面になるもんなんですね。

 やはり自分で指してない期間は観る方にもいまいち張りが出ない。指す時間を捻出するのは……しばらく無理そうかなぁ。

シャニマス

 一切触ってないし今後も触る予定はないんですが、唯一気になるとしたら月岡恋鐘さん。というか下のツイートということです。

 

 月岡恋鐘さんがどういうキャラクターなのかさっぱり知らないので、まぁそういう意味での興味はあまり……。

 僕は検索窓に[月岡恋鐘 サファイア]なんて打ち込んだりはしないぞ。

その他

 まだ時々くしゃみが出るんだけど、花粉症なのかなぁ。まぁそこまでの頻度ではないので薬を飲むほどでもないんだけど。

0518

大学

 09:30過ぎくらいに研究室着。昨日は本を読んでいて寝るのが遅く(1時半くらいだったか)、なのに5時半くらいに目が覚めてしまい、どうしようもなく眠いという感じ。二度寝が上手くできないんですよね。

 午前中は強化学習のログをプロットするpythonスクリプトを書いた。pythonになれていないのでたったそれだけのことをするのですら結構苦労してしまう。

強化学習

強化学習

  • 作者: Richard S.Sutton,Andrew G.Barto,三上貞芳,皆川雅章
  • 出版社/メーカー: 森北出版
  • 発売日: 2000/12/01
  • メディア: 単行本(ソフトカバー)
  • 購入: 5人 クリック: 76回
  • この商品を含むブログ (29件) を見る

 いろいろ考えてはみているんだけど、やっぱりこれをしっかり読んでいかないと始まらないかなぁという気分になってきた。そんな時間があるのかというと微妙なところな気もするけど、この先今以上に余裕があるタイミングなんてないのでは。悩んでいる暇があったら手を付け始めろということである。

 これは昨日のことだけど「分析系の研究は結果が出ないと地獄なのでやめておいた方が良いのでは」という話を先輩たちがしていた。しかしわけもわからずモデルをいじってなんか性能出ましたみたいなの、虚無では? とも思うので、まぁ難しいところですかね。上のはM2の人が話していたことなんだけど、B4も一年で結果出さないといけないのは同じで、まぁちょっと難しいところもあるよなぁ。

 研究より勉強がしたい、頭のいい人間が考えたことを知って「ほえ~」ってなりたいだけでは? そうですね。

 午後はサーベイの発表。論文の読み方が雑だったなぁ。反省点は多いですね。読みがひどいのに口頭では謎の断定をしてしまうゴミ人間なので人々に誤解を植え付けやすい。スライドの作り方ももっとわかりやすくしなくてはダメですね。関数の型を示すのと手順を明確に示すのかなり重要っぽい。あとは新規性がどこなのかちゃんと切り分けるとか。

 パッと先輩に話しかけられたとき、ナチュラルに「うん」って言ってしまい、これだから非体育会系は……とか内心思ったが特に突っ込まれなかった。僕ならぶっ飛ばします(しません)。

 発表の後はかなり朦朧としていたやはり睡眠不足ダメ。

 足元で学習しているマシンが動いているので席がとても暑い。

 何か勉強するときにメモを取ることもあるわけだけど、取るだけ取って見返すことがほとんどない。というか全く? というわけでルーズリーフじゃなくて適当なノートで良いのかなぁという気分にもなってきた。さっさと捨てるということですね。A4サイズのノートがちょっと気になっている。

将棋ソフト開発

 学習部、変更できるように標準入力から受け取りたい情報が多すぎてめちゃくちゃ汚くなる。やっぱりクラスを作った方が良いのかなぁ。staticまみれの邪悪なlearn_self.cppができあがっている。

 しかし2値の要素(○○をするかしないか)を入力から分岐させるとそれを保存する変数がぐちゃぐちゃになる気がしてなぁ。あとはクラス内部で持てるメモリの量? みたいなのもちょっと不安。動的確保をきっちりできれば問題はないんだろうけど。string, stringのmapで確保するというのはありかもしれないなぁ。

 一つしかインスタンスを作らないクラスを作りたくないという気持ちがある。namespaceとかでくくるのかな。でもそれはあまり本質的に思えない。どうしようか……。

 いやしかし学習時にしか使わなくて、そのときだけインスタンス作るみたいに考えるとクラスにするのも合理的なのかな。大幅な変更になるかもしれないけどやってみましょうかぁ。

 あとは探索深さが伸びないことだけど、オーダリングの性能がひどいってことなんだろうか。まぁ手抜きもいいところなのでひどいんだろうけど、オーダリングをカリカリにチューニングする気力が起きない。ここもやはり機械学習様になんとかしてもらうべき領域では? 具体的な方法はわからんけど。

 EvasionMoveにオーダリング入れてなかったことに気づいて入れた。ちょっとは強くなったのでは? こういうのを定量的に測れなくてあれ。

 探索部つらいという感情ばかりが溢れてくる。なんとかならないものか。

 学習部も表示上強くなっているはずなのに弱くなっているという現象がいくらか発生していてもうなにも信じられない。探索深さによってそんなに変わるということか、ランダム性が少なすぎて決まったパターンにハマっているか。多少のランダム要素を上手く入れていく仕組みが必要ですねー。

 とりあえず1手読み(+静止探索)の評価値をもとにsoftmax関数をかけてその確率で指す関数を作った。20手くらいそれで指させてみた局面をいくらか見てみた感じではそれほど極端に形勢差がつかない感じになっていて悪くなさそう。多分フルランダムよりはこっちの方がいいんじゃないかなーという妄想をしてみるが。

 うー、ちゃんと検証プログラム書いてみるべきだな……。明日にしよう。

その他

 藤井七段爆誕。しかし角換わり棒銀なんだかんだ手ごわいのでは。将棋もちゃんとやりたいなぁ。

 時間の配分をもっとちゃんと考えていかないと。コンピュータ将棋、競技プログラミング、将棋、読書くらいがメインで、そこから下に動画視聴とかプロ野球観戦とかがいくらかある感じ。やっていくしかないですね。頑張ろう。