引き続き機械学習の勉強をしており,今は強化学習と和解中である.今回はBellman Equationについて具体的な例を考えることで和解を試みる.報酬が現在の状態のみで決まる場合()のBellman Equationは以下となる. 以下のような例題を考える. 赤か青かを3回言…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。