日記

日記です

0614

大学

 09:55に研究室着。ちょっと遅くなったのは二度寝してしまったから。根本的には昨日寝るのが遅くなったのが原因で、22時にはゲーム切り上げたのになんで寝るのが24時回っているんだか。それはニンテンドーダイレクトを観ていたからです。やっぱりスマブラ面白そうですね。

 午前中はFizzBuzzZeroと戯れたり、やっぱりC++でDeepやりたいなーと思いつつ挫折しかけたり。うーん、Pythonを高速化する方が現実的かな……。

 うーん、わからん。highレベルAPI使わない方が良いのかなぁ。tf.layersを使ったときに上手く変数をあーだこーだする方法がピンとこない。たぶんできるとは思うんだけど。

 tf.get_default_graph().as_default()の意味がよくわからない。スレッドが複数になる場合にどうのこうのって感じなのかな。default_graphを取ってきているはずなのにそれをまたdefaultとして扱う意味とは。

 わからんわからんと言っているうちに午前中が終わってしまった。木曜日はあまり時間がないのに進捗が出せない。

 3限は離散凸解析。数学的に高度すぎてなにもわかりません。

 4限は可視化。英語なのでなにもわかりません。

 ちょっとだけプログラミング。C++でtensorflowをガチャガチャ動かしてみるけど学習させるのは難しいなぁ。すぐnanになってしまう。

 18:15からは競技プログラミングの練習会。はい。

 帰宅したのが21:30とかなので今日はゲームができない……、と言うと思ったか。1時間だけ触った。

その他

 プロ野球の話。交流戦になってからカープも結構苦しんでいる感じだけど、セ・リーグ全体がまぁそんなに勝っているというわけではないのでなんとかなっているという感じ。

 Vtuberの話。

由持もに♎🍒🍆アマリリス組Vtuber (@moni_Amls) | Twitter

 動画は一切見てないけど、このVtuber? のTwitterすごいですよね。すごい。

ゲーム類雑感

 Kagetsu氏のDetroit: Become Human感想記事を見つけたけどネタバレあったらあれなのでまだ読んではいない。

 シャニマスについては、まぁ変わらずあまりやる気は無しですね。基本的に僕はアイマス民ではなくて、たまたまPSPアイドルマスターSPとかデレマスとかをちょこちょこやったことがあるだけという立ち位置です。特にデレステに関しては音ゲー自体が初めてで、そういう意味でちょっとやってみたかったのが強い。最近はもう音ゲー部分に関する上達がほぼなくなってしまったからモチベーションがなぁ(むしろ下手になっている気がする)。

 PUBG、もうちょっとあっさり廃れるかと思ったら結構長生きしているという印象。人々、結構ドンパチが好きなんだなぁ。

 ニンテンドーダイレクトを観ていて思ったわけですが、すでにSwitch版でスマブラって一作出ているんですよね。完全に取り残されている。Switch持ってないしなぁ。Switch、「せっかく持っているならやるか」くらいのゲームはいくらかある気がする(ゼルダとかスプラトゥーンとかスマブラとか)けど、個人的に本体を購入するほどの強いモチベーションになるゲームはないかなぁという感じ。

 PS4の方はBloodborneが強烈にやりたくなって、実際に面白かったのであれは良かった。ちょっと雰囲気違うからダークソウルがどうかはわからないけど、たぶんDBH終わったらやります。まぁダークソウルはPCでもできるんだあろうけど学習させることとか考えるとPS4で買っといた方がいいんじゃない? 知らんけど。最近「知らんけど」がたびたび文中に紛れ込んでくるようになってしまった。

Detroit: Become Human

 マーカス編は店と広場を荒らしたところまで。平和か暴力か、ちょうど50%を目指したんだけどちょっと平和に振れてしまったようだ。

 コナー編、警部補の機嫌を損ねすぎて頭打ち抜かれて笑った。仲が悪いぞ。急いでおばさんはなんなの。君「急いで。時間がないの」しか言わへんな。

 そしてやっぱりなんだっけ、ガイノイド編が存在しない……。パッケージど真ん中に書かれているキャラクターのエピソードがわからないとは……。

 コナー編が好き。マーカス君はもうただの革命家じゃん。アンドロイドがしょぼくれた警部補を煽りまくる(結果眉間にぶっ放される)みたいな、そういうのが良いんだよなぁ。

0613

大学

 09:13に研究室着。だいたいこのくらいの時間に定まってきましたかね。帰宅が19:30ごろなので約10時間/日。これだけ居室していて成果出せなかったら無能でしかないですね。

 10:35まで競技プログラミングをやる。AOJ1305AOJ1280を解いた。両方とも1,2回REなりTLEなり出してしまったけど、まぁ難しいという感じはしない。これくらいはさらっと解けないとダメなんだろう。

 11:00まで棋譜中継を観てすごす。千田-丸山戦は一手損角換わりですか。早繰銀でドコドコやっていけばいいみたいに言われるけど、僕は腰掛銀しか知らないのでそれをやってしまうんだよなぁ。早繰銀、普通に銀交換どうぞってされてもその後がわからない気がする。自分がやられると銀交換されたくないなーって思うんだけどねぇ。そういうところでの手筋を覚えていかないと。

 11:30まで課題をやる。そんなにかかる難易度ではなかったんだけど……。やはりちらちらTwitterを観ていたのが邪悪でしたね。

 輪講発表のスライドを修正してお昼に。なんかスライドを6枚1ページで印刷した場合の配置がぴったりになって、内容としてはちょっと増やしたいところもあるけど動かせない……という感じになった。

 午後のゴミっぷりがひどい。気づいたら14:46になっていた。時間が消失した。眠くて何もかも無理。

 5限はサーベイミーティング。書いたで

 その後はプログラミングをちょっと。久しぶりににゅ~らるねっと触っているけど非常につらいですね。pythonだとめちゃんこ遅くてC++は環境構築・プログラミングがつらすぎる。どうしたもんだかなぁ。なんだかんだでC++やれないと未来はない気がするのでもうちょっとやってみるか。

 山口さんの囲碁ソフトAQをコンパイルするところまではできた。これがコンパイルできるならあとは僕の技術力だけの問題だなぁ。いや、動いてないかな? コンパイルできただけで、PolicyNetとかを使う部分になるとなんかエラーが出る。厳しー。

 19:30になったので離脱。うーん、今日はちょっとダメでしたね。

 帰ったらすぐPS4の電源を入れる生活。これで良い。夕食をはさみつつ2時間くらいやって22時。そして寝る。一日が完全に埋まっている。

東方

 EarthQuakeSuperShock、高校生の頃にサブカルが好きな友人がよくカラオケで歌っていたんですが、これも東方の曲だったんですね。アレンジ曲? この辺の事情がまだあまりわかっていない。

Detroit: Become Human

 マーカス君がなんや英雄になり始めたぞ。というか触るだけでアンドロイドに自我を持たせられるってそのスキルはいったいなんなんだ。全体的にマーカス編が一番アレという気がする。技術レベルのわりにセキュリティとかのシステムが雑。

 コナー編は規律に厳しい感じでロールプレイしていたら警部補の機嫌を損ねてばかりになってしまう。もっとユーモアもわかる最先端アンドロイドという感じで動かすべきだったか。あと犯人を追いかけたりもみ合うところで急に反射神経ゲー始まるのやめて。おじさんには難しすぎるよ……。百合アンドロイドは撃ち殺しました。っていうかアンドロイドって男性を指すんじゃなかったっけ。女性はなんだっけ、ガイノイド

 コナー君なんでもペロペロするの面白い。コナ〇君だったのか。

 そしてマジでカーラ編が出てこない。え、あれで終わりなんすか……。人生の一回性というものを感じるなぁ(適当です)。

 

0612

大学

 09:15に研究室着。まぁいいでしょう。

 午前中はFizzBuzzZeroのコードを写経していた。学びが多い。デバイスに対してグラフを割り当てるけど構築はどこでもできる……? スコープとかその辺りをもうちょっと理解できないとなぁ。変数用のスコープとそれ以外のスコープ(使い道そんなある?)があるっぽくて、学習するパラメータを上手く取り分けて置いておくとかそういうのが重要っぽい。慣れればいろいろ柔軟に書きやすいのかな。

 午後はまず同期の輪講発表練習。集まり悪いっすねー。激しく燃え上がった感じがある。やはり先輩が選んだ論文を読むのと、B4がそれぞれ選ぶのとでは事情が違うなぁ。僕は運よくそれなりの論文を選べていたっぽい。論文選び、運でしかない。

 5限はグラフにまつわる数学の講義。言われていること一つ一つはそんなに難しくない気がするのに全体で見るとすぐわからなくなる。スピードが速いということもあるんだろうな。結構ヤバい。単位大丈夫かな~。

 19:30ごろに離脱。これが僕の定時です。宇志海いちごさんを見習っていく。

 夕食を食べて20:00くらいからゲームをやる。Twitterで呟けば自動的にタイムスタンプになってくれるな。

 ちょうど2時間くらい。ネタバレを含むので感想は一番最後に。

デレステ

 昨日の話だけど、池袋晶葉さんのSSR欲しいなーって16枚くらいあった単発チケット投入したら櫻井桃華さんが来た。Cu5人目か。意外と揃っているけど使う機会が少ないので印象が薄い。

 デレステ、完全にガシャを回すゲームと化している。全く音ゲー部分をやっていないし、親愛度を上げていない。さすがにPS4で遊ぶと時間に余裕ないっす。

Detroit: Become Human

 ネタバレ含むので注意。

 どの辺りまで進んだと言えばいいんだろうか。コナー編はご主人に虐待されて過剰な防衛行動の末に人を殺してしまったアンドロイドを尋問したところまで。メモリを抜き出したら頭を机に打ち付け始めて、眺めていたら死んでしまった。そうですか。結構選択率低かった気がする。

 マーカス編はむかつく息子を押し倒したら死んでしまい、えーという感じ。人(アンドロイド含む)が良く死ぬ。警察が来て撃たれたけど、え、廃棄雑すぎない? 普通に復活してしまえた。なんやねん。

 スティックを弾く系の動作が1回で上手く入力できなかったり、連打が足りなかったりする。連打が足りなかった方は結構致命的で、実はあの、カーラ編で虐待された子供を助けるのが間に合わなくて見殺しにしてしまいました……。統計だと2%とか出てて笑った。え、これ大丈夫なんだろうか。上の方にめっちゃ選択肢続いてたし多分助けられるんですよね。なんか逃走ルートみたいなのその前に確認してたし。

 総括すると結構面白いです。ただなんかマーカス編とかちょっと湿っぽい感じになりそうなんだよなー。どうだろうか。

0611

大学

 09:50に研究室着。ちょっと遅いけどまぁいいかなぁ。いや、妥協が始まっている。

 そういえば論文を1日1本紹介していくみたいなのすっかり忘れていた。読んではいるんだけどね。まぁやはりこの日記に書くことではないかなという気持ちが……。この日記の存在意義とは。

 やっぱりAbst読むだけではよくわからないことが多いなぁ。文章だけでは仕方ないか。論文中の図とか見てしっかり理解していかないと。

 午前中ちょっと気になった論文はこれ。階層的な強化学習をやるというものだと思うんだけど、細部がちょっとよくわからない。というか英語が読めない。最終的に(?)階層性が強化学習の中に入ってくるか(入れたほうが性能が良くなるか)はちょっと疑問。すぐ人間と照らし合わせて考えるのすごく微妙にも思えるけど、人間ってそういうことしてますかね。してるかな。

 いやしかし眠い。今日は8時間くらい寝たはずでは? なんもわからん。

 自分のいくつかひねり出した研究案を見返してみると、ベースラインとするような既存手法が最近のものばかりで、いかにもミーハーという感じが出ている。そういうのって競争も激しそうだからあんまり良くないとは思うんですけどね。独自のアイデアとか出てこない人間だ。

 既存手法の粗探ししてちょっとだけ改善しましたハイ終わり。みたいなのはまったく本質的ではないなぁとは思う。本当は良い問題設定を考えるとか、そういう部分が大事なんだろう。

 一応一番大きな目標としては、僕は計算機に内省をしてほしいんですよね。これはある種の「迷い」ということなんだろうか。振る舞いとしてみれば、計算機に「わからない」と言ってほしいということかもしれない。益体のないことを考え続けてほしい。

 創作内のキャラクターでもそうだけど、僕は基本的に内省がグルグルしているような、表面的な振る舞いはともかくとして根本的なところで自信が全くない、何もわからないと常に思っているような人格が好きなんですね。

 それはそれとして強化学習の問題設定が好きという話もあり、この辺が関係しているのかしていないのかがよくわからなかったりする。なんかこの辺をちゃんと深めていく意味でも趣味の時間はしっかりとった方がよさそうだなと感じる。

 研究にだけ時間をかけたところで僕の能力ではたかが知れているからなぁ。好きなことをやっていくべき。

 というようなことをつらつら考えていたら午前が終わっていた。午後はまず学年ミーティング。人々も面白そうな研究をするようでなによりです。僕は強化学習についてペロッと話したけど説明が下手くそすぎてひどかった。本当になぁ、こういうの上手くならないなぁ。

 その後は一瞬プログラミングをして5限へ。コンピュータビジョンに関する英語の講義、なんもわからん。流石に不真面目が過ぎるという感じですね。単位すら危うい、というか自分が単位を取るに値するほど理解できていると思えない。ひどいなぁ。

 やっぱり18時で帰宅するの無理で~す。19:30までと決めてプログラミング。しかしプログラミング以前にtensorflowがわからなすぎる。勉強のためにFizzBuzzZeroを読んでみるがこれがまーたわからないんだ。本当に同じtensorflowを使っているのか?

 tf.deviceとかtf.variable_scopeとかしっかり使っていけるようになりたい。やーこれは全部写経するべきという気がしてきた。そこまで長くもないし、うんやろう。

 model.pyとgame.pyを写経し終えたところで19:30になったので離脱。これくらいだろう。しかしtensorflowの名前空間の話がちょっとわかってきた気がする。こうやってコントロールしていくんだなぁ。

 コンピュータ将棋、もう全然やれていない。学業もちょっと忙しくなりそうだししばらく無理かなという気もする。はぁ~。

 ゲームをやるという機運が高まっている。高まっています。

 帰宅してからPS4いじって東方天空璋やって将棋ウォーズやって、みたいな文化的な過ごし方をした。文化的か? そこまで早く帰ってきたわけではないので、やる気の問題だ。寝っ転がりながら動画を観ていた時間がこっちに来ただけ。別にどっちがいい過ごし方とかないよ。

0610

大学

 11:02に研究室着。遅いけど、今日はあまり自虐する気にもならない。

 Twitterのアカウントを復活させていろいろやっていた分遅くなったのだった。本とか漫画とか、もっと読みたいな。そういうのを呟くだけのアカウントにしたい。だから研究室滞在時間を短くしなければ。集中して、効率的に成果を出すぞ。

 Thinking Fast and Slow with Deep Learning and Tree Searchを読む。何か発表のスライド?もあるようだ。expertとかapprenticeという表現にはあまりなじみがないけど、まぁだいたいAlphaZeroと同じ感じなのかな? 付録にわざわざComparison to AlphaGo Zeroという章があって、つらそうと感じでしまった(誤解かもしれない)。計算資源が10万倍差があるとか悲しい文章が見える。

 やりたい研究、既存研究ありまくる気がしてきた。無理では……。五十嵐 治一,森岡 祐一,山本 一将さんらの方策勾配法による局面評価関数とシミュレーション方策の学習とかが一瞬直撃している気がして焦ったけどそうでもなかったか。怖すぎる~。

 午前はこういった探索×強化学習について調べて終わり。昼食を食べるときにゆっくりしていたら気づいた時には13:30とかになっていた。

 カープ戦を観ながらダラダラとスライドを作っていく。集中するとはなんだったのか。

 一応それっぽく仕上がったけど、強化学習の分野はDeepMindばっかだなぁとかいう感じの印象になった。正直こんなところで戦いたくない……。なんかもっと範囲を絞ったりして変なことやりたいんだけど、普通のことを知らないと変なこともできないという感じがあり、とにかく知識が足りない。

 17:15くらいに離脱。まぁ日曜日だしね。

 帰ってからはABCに参加したり。あれ、それまでは何をやっていたんだ……? 記憶がない。

ゲーム

 Detroit:Become Human、ちょっと調べた感じだとタイトルの通りちょっとあれっぽい話で、あんまり好きじゃないかもしれないなぁと思い始めてきた。買うか微妙なラインだ。

 ダークソウルリマスター版がちょっと気になってきた。PS4でもパソコンでもできるのかな? まぁPS4を遊ばせとくのもあれだしなにかはゲームやりたいような、そうでもないような。

 確か4月とかは18時にさっさと帰宅してMHWやっていたんですよね。そういう生活が良い気がする。絶対に定時で帰るという強い気持ち。今日は悪くなかったぞ。

 まぁただ18時だとちょうど講義も終わるタイミングなので帰る人が多くて道が混んでいる気がするのがちょっと嫌なところ。それに18時帰宅だと月火水(木)は5限に講義あるのでそこで帰ることになり、研究室にいる時間が16:15くらいまでというすごいことになる。まぁしかしそれで成果出していかないといけないよなぁ。今週も「日曜日に研究室行けばいいだろ」っていう甘えがあって作業が進まなかった感があり、そういうところで作業効率が悪くなっていくのでは。今日行かないと決めていれば昨日頑張って終わらせていたはず。

 一日単位でももっとやること決めて、それが達成出来たら帰るというようにした方がいいかもしれない。ちょうどいい分量を決めるのが難しそうだけど……。

その他

 動画ばっかり観てしまう。漫画とか小説に向き合えない。どうなっているんだ。まぁでも、こういう時期ってあるんですよね。疲れているからなのか何なのかはわからないけど、また読めるようになる日が来ると信じて……。

0609

大学

 09:17に研究室着。まぁまぁですかね。

 Alpha Zeroの論文を読む。これValueの学習はモンテカルロ法ってことですよね。ブートストラップ使わないんか。Policyの方は時間をかけた探索との交差エントロピーで、まぁこれはそうだろうという気はする。しかしこれもまだ無駄はありそう。けどこの辺を突っつくのはいかにも重箱の隅を楊枝でほじくる感じだよなぁ。

 しかし眠い。本当にうまく眠れないのなんなんだろう。6時ごろに目が覚めるの苦しい。2度寝もできないし。大学着いてから眠くなる。

 ゲーム木探索って動的計画法の一種だよね、たぶん。部分問題を求めてから全体の問題を解いてるし。

 分布型強化学習についてのスライドを見たけど、これすごいなぁ。Wesserstein距離なら分布型ベルマン作用素が縮小写像になるから収束してくれるねっていうの、素晴らしい論文に思える。って最終的にWesserstein距離は使わないんかーいって感じ。この辺面白そうだけど数学力が足りないか。しかし何かを提案するならちゃんとその収束性とかは言えたほうが絶対良くて、こういうベルマン作用素の縮小性の証明とかはできなければ「やってみたら性能良かったです」しか言えないものね。

 久しぶりにでぃ~ぷら~にんぐに手を出しているけど本当にtensorflowをさっぱり忘れていて笑う。何もわからない。ひえーDeepLearningやだー。

 午前中はほぼdlshogiのパクりとして書いていたコードを自分の好みに合うように書き直す。思ったよりあっさり動いてくれたのはやっぱり山岡さんのコード設計が綺麗だからだろう。それをぐちゃぐちゃにしてしまったわけだけど……。学習部まで動いたのでちょっとアイデア試してみますか。GPUを占有してしまう影響で検証の対局をやるのが大変な気がするんだけど、人々はどうやっているんだろう。

 方策オン型とオフ型の利点欠点がいまだに上手くつかめていない。このQiita記事では

( Off方策手法は)学習の安定性が悪くなる事がある。On方策手法は行動方策と評価方策が同じもので、学習が比較的安定している。

とあり、えーそうなん。という感じ。SarsaとQ学習という比較では、「これからの強化学習」には38ページに「Q-Learningは(中略)試されない行動がある場合には収束に時間がかかることがありうる。(中略)しかし、一般には、探索行動による影響を受けない分、Sarsaよりも学習が速いことが多い」とある。価値反復まで含めて比較したグラフを見ても本当に時と場合によるという感じに思える。つらそう。

 午後はまずコンピュータ将棋をちょっとやる。探索部が崩壊していたのをなんとか以前のラインにまでは戻せたかもしれない。いや、そうでもないかも。知能がないので毎回同じミスをやってしまうのだけど、変更する場所は一か所にしないとそれが本当に効いているのかわからないじゃん。バカなのかな。いやしかし探索部ってパラメータとかが本当に多くて地獄。何が改良なのか全く分からない。

 15:46までずっといじってたけどさっぱり強くならない。全く分からないしさっさと写経しろという話である。厳しいなぁ。Yane-elmoだかなんだかと比べたとき4,5手あたりまでの時点ですでに探索ノード数が1桁くらい違っているのが気になっていて、しかしこれは探索ノード数の数え方が違うからかもしれないなぁとも思ったり。全く光が見えなくて苦しいですね。うーん、どうすればいいのか。

 お勉強とかはとりあえずやっていれば成果が出る(出た気になる)んだけど、コンピュータ将棋は強くならなければ無ですからね。研究もだいたい同じ感じなんだろうし、厳しいですね。厳しい。

 ちょっと調べていたら結構それっぽい論文が出ているっぽいことに気づいてしまった。いやー発表前で良かったというか悪かったというか。一つ重大な論文が見つかるとその参考文献を見ることでたくさんやばそうな論文が見つかってくる。大変だ~。

 21時ごろに帰宅。遅くなってしまった。集中力の低いまま居室しているの無駄なので早く帰ることを心がけよう。時間があるという意識がだらけを生んでしまうのだ。18時には帰るぞという強い気持ちでやっていこうな。

 最近は帰る時間が遅すぎて趣味に時間を費やせていない。精神が荒廃していく。ダメ。ダメです。

その他

 昨日は予定を完全にすっぽかしてしまい最悪だった。知能がない。ありません。

 SlackとかSkypeの通知を入れていないので僕に一番連絡取りやすい手段はTwitterかもしれないないわけで、だからTwitterをもうちょっとちゃんとやる(ツイートを増やす)べきだなぁと思った。1日5ツイートくらいを目標に……といっても研究室の中ではTwitterを開かないようにしているので帰宅してからちゃんとつぶやこうということですね。どういう内容のものを呟けばいいのかちょっと悩みどころではあるけど。やっぱり将棋、コンピュータ将棋のことがいいんだろう。最近触ってないのでね……。

 僕もいずれ歳を取るというの、本当に暗い話ですね。いやだなぁ。なんとかならないかなぁ。

 ある人のTwitterプロフィール文「哲学的遠視 僕らは宇宙の使いみちを知っているだけで、宇宙については何も知らない」というのが好き。哲学的遠視、いい言葉ですよね。僕は何もわからない。

 とうとう名取さなさんを観始めてしまった。人生の終わりが近い。

 これで2500文字以上あるのか。もっと絞りたい。

0608

大学

 10:03に研究室着。いやぁ遅い。ゴミですね。起きるのが遅かったのにまだ眠いってどうなっているんだ。

 一応研究の方をやっていくべきだということでReactorの論文を読もうとしたり、PFNがNLP2018で行ったチュートリアルのスライドを読んだりしていた。NLPなので言語系のことばっかりやっているのかと思ったらこういう強化学習のチュートリアルもあったのか。

 数式がさっぱりわからない。ベルマン最適方程式あたりをちゃんと理解できないと改良なんてできないよなぁ。

 午後は3限がサーベイミーティング。前回から簡単なまとめを研究室のブログに書いていくことになり、まぁちょぼちょぼ書いていきます。誤字がありそうで怖い(さっき投稿直前に一つ気づいた)。

 4限は博士課程の先輩の公聴会とやらに出席した。質問をメモしてほしいとか言われてたけどいろいろ感想とか書いてぐちゃぐちゃにしてしまい申し訳なさがあった。教授陣、結構ガシガシ質問してくるなぁって思ってたけどかなり優しいほうだったらしくてほーって感じ。なるほどなるほど。

 その後は研究室のブログをいじっているときにいろいろやらかしてしまっていたのを直していた。Wordpress使い方がわからなくて怖い……。ずっとレイアウトが崩壊してしまっていて冷や汗ダラダラ流しながら復旧させていたんだけど、僕が勝手に入れたプラグインが悪さしていたっぽかった。とりあえず直ってよかった……。

 そんなこんなで今日はほとんど研究もしていないし当然コンピュータ将棋もやっていないしで何をしているんだかという感じ。集中力が、ありません。

 19:30ごろ離脱。今日は厳しかった。

進捗が本当にノート2ページだけだ……