引き続き機械学習の勉強をしており,今は強化学習と和解中である.
今回はBellman Equationについて具体的な例を考えることで和解を試みる.
報酬が現在の状態のみで決まる場合()のBellman Equationは以下となる.
以下のような例題を考える.
赤か青かを3回言うゲームを考える.
最終的に赤を2回以上言えば1点もらえる.
最終的に赤が1回以下なら-1点だ.
状態の例
行動
報酬の例
遷移確率は,期待した行動になる確率を,それ以外をとする.
遷移確率の例
方策関数が赤を出力し,実際に状態が赤に遷移する確率がということである.
それではやっていく.
(1)式で難しいのは以降の部分だ.ここをよく考える.
まずについてだが,これはある行動を取った際に得られる報酬を比較し,より大きい報酬が得られるを採用するという話である.
今回の場合はとでどちらが良いかを比較するということになる.
次にについては,ある行動を取った際に得られる報酬の期待値を表す.
を考えよう.2回目まで色が確定した状態である.
次の状態がとなれば勝ち,となれば負けである.
行動を取れば勝ち確定かと思ってしまうが,状態遷移は遷移確率に従って遷移するため,実際にはの確率でに遷移し,の確率でに遷移する.
状態において行動を取った際の遷移確率を数式で書くと以下となる.
ここから報酬の期待値を計算しよう.
報酬の期待値は確率×報酬の総和で得られる.
同様に行動を取った際も計算しよう.
以上の結果により,行動を取った際の報酬の期待値は,を取った際の報酬の期待値はとなり,における最適な行動はであることが分かった.
また,これを(1)式に代入してみる.なお,とする.
同様にして,であることも明らかである.
次に,を考える.これも(1)式に代入して,
行動がどんな値であっても勝ち確定なので上記のような結果となる.
同様にしてとなる.
次に考えるのはの場合だ.
(1)式に代入して,
の場合
の場合
よって(3)式に代入して
も同様に考えよう.
(1)式に代入して,
の場合
の場合
よって(4)式に代入して
最後に初期状態から開始しよう.
(1)式に代入して,
の場合
の場合
よって(5)式に代入して
このように再帰的に計算をしていくことで報酬の期待値が求められる.