Q値

機械学習に関する用語

強化学習における行動価値関数『Q値』

-Q値とは- 強化学習における行動価値関数Q値とは、特定の状態における各行動の価値を評価する関数です。Q値は、行動を取った後の長期的な報酬の期待値を表します。つまり、ある状態から特定の行動を取ると、その後に得られる報酬の合計がどれほどになるかを推定しているのです。Q値は、強化学習エージェントが最適な行動を選択するために使用され、報酬の最大化を図ります。