본문 바로가기

카테고리 339

[Optimization] Gradient Descent with Momentum Gradient Descent with Momentum 보통 gradient descent보다 속도가 더 빠르다. 문제 Gradient descent는 최적의 길을 바로가지 못하고 zig-zag로 돌아가게 된다. 해결 Gradient descent with momentum은 gradient에 smoothing을 건다. Initial Gradient Problem initial gradient 문제가 발생할 수 있다. 그러나 bias correction을 할 필요 없다. 주로 training iteration 수 (epoch)는 주로 크게 잡아서 초기값이 큰 영향을 주지 않기 때문이다. 2022. 4. 21.

[Optimization] Exponentially Weighted Average Exponentially Weighted Average 평균을 취할 때 최근의 것의 비중을 크게하고 과거로 갈수록 비중을 작게하면서 평균을 취하는 방법이다. $v_t = \beta v_{t-1} + (1-\beta)\theta _t$ * $\beta$ : hyperparameter Exponentially weighted average를 통해 noise를 줄이면서 smoothing 할 수 있다. Hyperparameter $/beta$ beta가 너무 작으면 : noise를 줄이지 못함 beta가 너무 크면 : delay가 너무 심함 여기서 사용된 $\beta$는 hyper parameter로 batch normalization에 사용된 $\beta$와 전혀 다른 것이다. $\frac{1}{1-\beta.. 2022. 4. 21.

Optimization Optimization 배경 Machine learning은 매우 empirical process(iterative process)이다. 때문에 모델을 여러번 train 시켜보아야 한다. 딥러닝에서는 big data를 사용해서 어느정도 문제를 해결할 수 있다. 때문에 learning speed를 최대한 줄이는 것이 여러번 훈련시키거나 빅데이터를 사용하는데 있어서 필수적이다. 장점 Neural network의 learning speed를 더 빠르게 한다. 종류 주로 exponentially weighted average 을 기반으로 사용한다. gradient descent with momentum RMSProp adam 2022. 4. 21.

[Batch Normalization] Covariate Shift Problem Covariate Shift Problem Training set과 dev/test set의 distribution이 비슷하지 않을 경우 covariate shift problem이 발생한다. 아래처럼 검은색 고양이 사진으로 training한 후 그렇지 않은 고양이 사진으로 test를 하면 정확도가 낮아진다. Solution : Batch Normalization Batch normalization을 이용해서 covariate shift problem을 어느정도 해결할 수 있다. Batch normalization을 사용하지 않았을 때 $W^{[3]}$와 $b^{[3]}$은 $a^{[2]}$에 대해 맞춰서 학습을 한다. 그런데 문제가 바뀌지 않았음에도 다음 sample에 대해서는 다른 값이 들어오게 된다.. 2022. 4. 21.

Batch Normalization Batch Normalization Input을 normalization을 하는 것이 아닌 중간의 것을 normalization 한다. Normalization Target : a vs. z a(비선형변환의 결과)를 normalization하지 않고 z(선형변환의 결과)를 normalization 한다. 방법 Mini-batch의 z에 대해 normalization을 수행한다. Mini-batch에 m 개의 sample이 존재한다고 하자.(mini-batch size = m) 평균과 분산을 구해서 그것을 이용해서 normalization을 한다. 아래를 이용해서 $z^{[l](i)}$ 대신에 $\widetilde{z}^{[l](i)}$을 사용한다. Parameter $\beta$, $\gamma$ $z_.. 2022. 4. 21.

이전 1 ··· 20 21 22 23 24 25 26 ··· 68 다음

티스토리툴바