본문 바로가기
Computer Science/AL, ML

Weight Initialization - Gradient Problem 방지

by Gofo 2022. 4. 20.

Weight Initialization

Vanishing/Exploding Gradients

네트워크가 매우 깊은 경우 깊게 들어갈 수록 가해지는 수가 많기 때문에 vanishing/exploding gradient 문제가 발생하기 쉽다.

 

아래와 같이 모든 w가 같다고 가정했을 때 네트워크가 깊어질수록 y가 쉽게 너무 매우 커질수도 너무 매우 작아질 수도 있다.

 

Gradient도 마찬가지로 네트워크가 깊어질 수록 gradient가 매우 작아지거나 너무 매우 커질 수 있다.

끝단(back의 초입부)에는 연산 횟수가 적기 때문에 문제가 발생할 가능성이 적고 깊어질 수록 문제가 발생할 가능성이 크다.

 

따라서 적당한 w을 유지해야 한다.

 

Weight Initialization

Input의 dimension(개수)을 고려해서 initialization을 한다.

 

 

'Computer Science > AL, ML' 카테고리의 다른 글

Batch, Mini-batch  (0) 2022.04.21
Normalization  (0) 2022.04.20
Early Stopping - Overfitting 방지  (0) 2022.04.20
[Regularization] Dropout  (0) 2022.04.20
Regularization - Overfitting 해소  (0) 2022.04.20

댓글