休日。なんもしてない気がする。午前はずっと寝ていたし、午後はちょっと散歩したら暑くて帰ってすぐシャワー浴びてベッドに倒れ込んでしまった。一応なんか論文は読んだか。でもプログラミングできないと良い判定にはならない。
minervaとかいうやつの論文眺めてるけど、サンプルの例が普通に難しくて、こんなのできるのマジ? って感じだな。まだ手法とか実験内容のところまで行き着いてないので実はなんか出力を作り込めるような仕組みがあるのかもしれないけどhttps://t.co/0GQqzLjDZ2
— t (@tokumini_ss) 2022年7月5日
これある程度読んで、まぁだいたいtex記法のまま数式を言語モデルに流し込んだらなんとかなりましたーって話なんだけど、それはハッキリ意外ではあったかな。人間も結局tex書くときは数式を構文に落とし込んでいるのだから、逆再現もできると言えばそうなのかもしれないけど、数式の視覚的な見た目というの大きいと思っていた。
これができるなら競技プログラミングの数式系の問題も別にそのままtex形式で入力してしまえば良いということになるのだろうな。そうすると、本当に画像情報を使わないと解けないような問題以外は一応理論上解ける情報があるという射程範囲になりそう。そのゴリ押しでアルゴリズム系コンテストなら押し切られそうだなぁ。
以前から言っている通り、僕はヒューリスティック系のコンテストで負けるまではまだ人工知能の靴は舐めないという気持ちではいる。ヒューリスティック系だとビジュアライザが提供されがちなように、さらに視覚的な思考というのが大事なってきそうで、それは言語モデル単体ではできないでしょって思っている。
まぁVision & Languageの分野も相当巨大モデルで殴る対象にはなっていそうなので、それも時間の問題なのかもしれないが……。