エージェントが報酬関数を操作しだすのは反則だ。勝ちで+1,負けで-1が与えられることは固定されているからこそ、そこで報酬を最大化するエージェントは結果的に強い棋力を獲得していくことになる。もし報酬関数をいじれる中で報酬を最大化するならば、勝ちで…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。