본문 바로가기

Computer Science 254

[Batch Normalization] Covariate Shift Problem Covariate Shift Problem Training set과 dev/test set의 distribution이 비슷하지 않을 경우 covariate shift problem이 발생한다. 아래처럼 검은색 고양이 사진으로 training한 후 그렇지 않은 고양이 사진으로 test를 하면 정확도가 낮아진다. Solution : Batch Normalization Batch normalization을 이용해서 covariate shift problem을 어느정도 해결할 수 있다. Batch normalization을 사용하지 않았을 때 $W^{[3]}$와 $b^{[3]}$은 $a^{[2]}$에 대해 맞춰서 학습을 한다. 그런데 문제가 바뀌지 않았음에도 다음 sample에 대해서는 다른 값이 들어오게 된다.. 2022. 4. 21.
Batch Normalization Batch Normalization Input을 normalization을 하는 것이 아닌 중간의 것을 normalization 한다. Normalization Target : a vs. z a(비선형변환의 결과)를 normalization하지 않고 z(선형변환의 결과)를 normalization 한다. 방법 Mini-batch의 z에 대해 normalization을 수행한다. Mini-batch에 m 개의 sample이 존재한다고 하자.(mini-batch size = m) 평균과 분산을 구해서 그것을 이용해서 normalization을 한다. 아래를 이용해서 $z^{[l](i)}$ 대신에 $\widetilde{z}^{[l](i)}$을 사용한다. Parameter $\beta$, $\gamma$ $z_.. 2022. 4. 21.
Batch, Mini-batch Mini-batch 딥러닝에서 가장 중요한 알고리즘 중 하나이다. Batch vs. Mini-batch Batch는 1번 iteration(1-epoch) 할 때 사용되는 example들의 set을 말한다. Vectorization은 train example의 계산을 좀 더 효율적으로 만들어준다. 그런데 train example의 수가 너무 많아지면 단순한 batch로는 vectorization으로도 힘들어진다. 계산 시간, resource 등이 많이 필요해지기 때문이다. Mini-batch는 train sample을 disjoint하게 subset으로 나눠서 작은 사이즈로 줄인다. 이를 통해 memory와 속도 측면에서 성능을 향상시킬 수 있다. 즉, sample 기준에서 1차원으로 나열되어있는 것을 .. 2022. 4. 21.
Normalization Normalization 문제 특정 값이 엄청나게 클 때, 그것에 붙어있는 w는 조금만 커져도 activation이 크게 바뀐다. Input Normalization Training set에 대해 normalization을 했으면 test set에 대해서도 동일한 normalization을 해야 한다. 가장 많이 사용되는 normalization 방법은 정규분포화이다. input에 평균만큼 뺀다. input에 분산으로 나눠준다. 2022. 4. 20.
Weight Initialization - Gradient Problem 방지 Weight Initialization Vanishing/Exploding Gradients 네트워크가 매우 깊은 경우 깊게 들어갈 수록 가해지는 수가 많기 때문에 vanishing/exploding gradient 문제가 발생하기 쉽다. 아래와 같이 모든 w가 같다고 가정했을 때 네트워크가 깊어질수록 y가 쉽게 너무 매우 커질수도 너무 매우 작아질 수도 있다. Gradient도 마찬가지로 네트워크가 깊어질 수록 gradient가 매우 작아지거나 너무 매우 커질 수 있다. 끝단(back의 초입부)에는 연산 횟수가 적기 때문에 문제가 발생할 가능성이 적고 깊어질 수록 문제가 발생할 가능성이 크다. 따라서 적당한 w을 유지해야 한다. Weight Initialization Input의 dimension(개수.. 2022. 4. 20.