日記

日記です

20190604

 エージェントが報酬関数を操作しだすのは反則だ。勝ちで+1,負けで-1が与えられることは固定されているからこそ、そこで報酬を最大化するエージェントは結果的に強い棋力を獲得していくことになる。もし報酬関数をいじれる中で報酬を最大化するならば、勝ちでも負けでも報酬+1としてしまえば強くなる必要なんかない。報酬関数をいじっちゃってさ、日々呼吸しているだけで幸福感を味わえるようになりたいよね。

 現実的には、報酬関数を変えることにもコストがかかる・制約があるという条件の問題になるのだろうか。負けても喜べる性格になるのには100万のコストがかかって、実は世界最強を目指す方が10万のコストでするという可能性はない? 報酬関数を変えるコストは、我々の身体的・物理的制約に由来するものに思われる。コードを一行書き換えるのは容易だが、脳の回路を変えてしまうことは難しい。

 強化学習の用語を濫用するのが趣味になってきている。悪い趣味。