본문 바로가기
Computer Science/AL, ML

[Optimization] Adam

by Gofo 2022. 4. 21.

Adam

현재 가장 널리 사용되는 optimization 기법이다.

 

특징

  • Gradient descent with momentum과 RMSProp이 결합된 형태이다.
    • gradient descent with momentum
      • gradient 자체에 smoothing을 걸어줌(exponentially weighted average)
    • RMSProp
      • gradient에 smoothing을 걸고 그것으로 gradient를 나눠줌
      • gradient가 커지지 않도록 함
  • 어떤 상황에서도 gradient가 커지지 않도록 해서 전반적으로 유사한 gradient를 가지게 한다.

 

방법

  • $\beta_1$ : momentum에 대한 것
  • $\beta_2$ : RMSProp에 대한 것

(momentum + RMSProp) → bias correction → update

 

Hyperparameter

  • $\alpha$
    • learning rate
    • adam에서는 $\alpha$에 대한 영향이 적음
  • $\beta_1$
    • $dW$에 대한 weighted average 
    • 주로 0.9 사용
  • $\beta_2$
    • $dW^2$에 대한 weighted average
    • 주로 0.999 사용
  • $\epsilon$
    • 주로 $10^{-8}$ 사용

 

댓글