Weight Initialization
Vanishing/Exploding Gradients
네트워크가 매우 깊은 경우 깊게 들어갈 수록 가해지는 수가 많기 때문에 vanishing/exploding gradient 문제가 발생하기 쉽다.
아래와 같이 모든 w가 같다고 가정했을 때 네트워크가 깊어질수록 y가 쉽게 너무 매우 커질수도 너무 매우 작아질 수도 있다.
Gradient도 마찬가지로 네트워크가 깊어질 수록 gradient가 매우 작아지거나 너무 매우 커질 수 있다.
끝단(back의 초입부)에는 연산 횟수가 적기 때문에 문제가 발생할 가능성이 적고 깊어질 수록 문제가 발생할 가능성이 크다.
따라서 적당한 w을 유지해야 한다.
Weight Initialization
Input의 dimension(개수)을 고려해서 initialization을 한다.
'Computer Science > AL, ML' 카테고리의 다른 글
Batch, Mini-batch (0) | 2022.04.21 |
---|---|
Normalization (0) | 2022.04.20 |
Early Stopping - Overfitting 방지 (0) | 2022.04.20 |
[Regularization] Dropout (0) | 2022.04.20 |
Regularization - Overfitting 해소 (0) | 2022.04.20 |
댓글