본문 바로가기

Computer Science/AL, ML

[Optimization] Adam

by Gofo 2022. 4. 21.

Adam

현재 가장 널리 사용되는 optimization 기법이다.

특징

Gradient descent with momentum과 RMSProp이 결합된 형태이다.
- gradient descent with momentum
  - gradient 자체에 smoothing을 걸어줌(exponentially weighted average)
- RMSProp
  - gradient에 smoothing을 걸고 그것으로 gradient를 나눠줌
  - gradient가 커지지 않도록 함
어떤 상황에서도 gradient가 커지지 않도록 해서 전반적으로 유사한 gradient를 가지게 한다.

방법

$\beta_1$ : momentum에 대한 것
$\beta_2$ : RMSProp에 대한 것

(momentum + RMSProp) → bias correction → update

Hyperparameter

$\alpha$
- learning rate
- adam에서는 $\alpha$에 대한 영향이 적음
$\beta_1$
- $dW$에 대한 weighted average
- 주로 0.9 사용
$\beta_2$
- $dW^2$에 대한 weighted average
- 주로 0.999 사용
$\epsilon$
- 주로 $10^{-8}$ 사용

'Computer Science > AL, ML' 카테고리의 다른 글

[Optimization] Local Optima in Neural Network (0)	2022.04.21
[Optimization] Learning Rate Decay (0)	2022.04.21
[Optimization] RMSProp (0)	2022.04.21
[Optimization] Gradient Descent with Momentum (0)	2022.04.21
[Optimization] Exponentially Weighted Average (0)	2022.04.21

댓글

티스토리툴바