大学 09:17に研究室着。まぁまぁですかね。 Alpha Zeroの論文を読む。これValueの学習はモンテカルロ法ってことですよね。ブートストラップ使わないんか。Policyの方は時間をかけた探索との交差エントロピーで、まぁこれはそうだろうという気はする。しかし…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。