AI用語『ε-greedy方策』とは?強化学習におけるランダム探索の極意
-ε-greedy方策とは?-
ε-greedy方策は、強化学習においてよく使われる確率論的な探索手法です。この方策では、状態(状況)が与えられたとき、エージェントは確率εでランダムな行動を選択し、確率1-εで過去の経験に基づいて最適とされる行動を選択します。
つまり、この方策ではε(イプシロン)と呼ばれる確率パラメータが設定されており、εの値が小さいほどエージェントは最適な行動に近く、ε値が大きいほどランダムに探索するようになります。ε-greedy方策は、エージェントが未知の環境で、適切な行動を探索しつつも最適な行動を選択できるようバランスを取っています。