AdaDeltaとは?最適化手法の基礎知識
-AdaDeltaの概要-
AdaDeltaは、適応的学習率パラメータを持つ確率的勾配降下法の最適化手法です。適応的学習率とは、各パラメータに対して個別に計算され、パラメータの勾配の二乗平均に応じて調整される学習率のことです。二乗平均とは、勾配の二乗値の時間平均のことです。このメカニズムにより、AdaDeltaは、初期の学習段階では大きな学習率を使用し、徐々に減少させて収束性を高めます。その結果、パラメータが大きく変化する初期段階でも、安定したトレーニングが可能となり、ハイパーパラメータの調整を簡素化できます。さらに、AdaDeltaは、勾配のスケーリングを必要とせず、パラメータの単位に依存しません。