昼から出社。いきなり暑くなったなぁ。
相変わらず実装に苦労している。ROSという不慣れな概念の中では仕方がない面もあるが。
モチベーションもちょっと落ちてきているな。ま、やれるだけやりましょ。
プロンプト長が今の1万倍とかになったら、日中の振る舞いはパラメータ固定のTransformerで全部プロンプトに逐次的に入れて短期記憶・短期適応させれば良いだけみたいになって、夜にリプレイバッファからその日の経験を取り出してパラメータ更新させるとかそういうことになるんだろうか。スタンドアローンにこだわらないなら経験を複数ロボットで送り合ってさらにランダム性の高い勾配法やれるとか。
強化学習が「長い系列行動に対する報酬割り当てどうするの」って苦労しているところにTransformerに全部ぶっこんで解決とかなったらギャグでしかないな。別にそういう展望が見えているわけでもないけど。
本当に人類という種を代替わりさせられるような人工知能を作れるんだろうか。まぁダメだったパターンを考えることにもそこまで意味を感じないけど。どうせ自分のやっていることはそこには届かないだろうし。今やれることがこれしかないからやっているだけで。
人型ロボット、やっぱりいいなぁ。