20220430 - 日記

　うむー、一応論文は雑に読んだけど、それくらいっていう感じの日ではあった。マジでちゃんとコンピュータ将棋に手を付けないとヤバいぞ。

　にしても自然言語処理と画像認識をかなり融合させていていいところまでは来ている、んだけど、やっぱりまだ文字自体を画像に埋め込んだ状況で全て認識できないとダメじゃない？って思ったりする。Webページをスクレイピングするんじゃなくて、全部スクリーンショットにして入力せよって気がする。でもそれってどれだけの解像度が必要なんだろう。文字を読める解像度を人間が維持できるのは、目の中央あたりだけをちゃんと見ているからなんだっけ？

　大きな画像を全部一気に注目することはできないから、もっと時系列的に一貫する自己を持って、注目する位置ちょっとずつズラしていくっていうことが必要なんじゃないかと思う。結局それをどうするかなんだよなー。

　なんか閃いてモチベーション上がればもっと休日もやっていけそうなんだけど。さてさて。