카테고리 338 [네트워크 성능] HyperParameter HyperParameter Parameter, Hyperparameter Neural network를 effective하게 만드는 데에는 network의 parameter뿐만 아니라 hyperparamater의 값도 영향을 미친다. parameter 알고리즘이 찾아주는 파라미터 training을 통해 학습이 되는 것 $W$, $b$ hyperparameter 알고리즘이 찾지 못하는 파라미터 learning rate, iteration 수 등 Hyperparameter 수많은 hyperparameter가 존재하지만, 불행 중 다행으로 모든 hyperparameter가 같은 우선순위를 가지는 것은 아니다. Hyperparameter 탐색 Grid vs. Randomly Grid처럼 몇 개의 조합을 정해서 탐.. 2022. 4. 20. [네트워크 성능] Bias, Variance Bias, Variance Bias와 variance는 tradeoff 관계를 가진다. 둘 다 안좋지만 보통 variance 경우가 더 안좋다. High bias underfitting 모델이 너무 단순해서 문제를 못푸는 경우이다. High variance overfitting 모델이 너무 복잡해서 새로운 sample에 대해 문제를 잘 못푸는 경우이다. overfitting이 되면 이 training set에 대해서는 잘 풀지만 새로운 문제에 대해서는 잘 못풀게 된다. Error와의 관계 bais : train set에 대한 error가 클수록 bias 하다고 한다. variance : train set에 대한 error와 development set에 대한 erorr의 차이가 클수록 variance 하.. 2022. 4. 20. [네트워크 성능] Dataset Machine Learning & Dataset 네트워크가 좋은 성능을 내기 위해서는 데이터셋의 구성이 잘 되어야 한다. 데이터셋을 잘 선택하고 구성하면 네트워크의 성능과 training 속도를 매우 높일 수 있다. Dataset 종류 training set development set = validation set test set Issue disjoint (no overlap) 구성할 때 주의할 점은 training/development, test set 간에 중복되는 set(sample)이 존재해서는 안된다. 중복되는 sample이 있을 경우 overfitting이 발생할 수 있다. mismatched train/test distribution training set과 dev/test의 distri.. 2022. 4. 20. 네트워크의 성능 네트워크의 성능 개선 네트워크의 성능을 높이기 위해서 hyperparameter, dataset 등의 여러가지 요소들이 중요하다. 값, 데이터셋 등을 어떻게 구성하는지에 따라 성능이 달라지기 때문이다. Machine Learning : Iterative Process 네트워크의 성능을 높이기 위해서는 hyperparameter의 값을 조작하면서 테스트해봐야 한다. 그런데 hyperparameter의 수는 무수히 많고, hyperparameter 간에는 dependency가 존재하기 때문에 하나의 값이 바뀌면 다른 값도 바뀌어야 한다. 하나씩 테스트해볼 수 없고 여러 개의 조합을 통해 테스트해봐야 하는 것이다. 이러한 점 때문에 machine learning은 idea → code → experiment의.. 2022. 4. 20. Deep Neural Network의 Propagation Deep Neural Network의 Propagation Shallow network와 동일하게 forward/backward propagation을 통해 예측/update를 할 수 있다. Caching Backward propagation을 통해 gradient를 구할 때에는 a와 z 값을 caching 해놓는 것이 좋다. Forward propagtion을 쭉 다 한 후 backward propagation을 수행하게 되는데, forward에서 사용된 a와 z 값이 backward에서 그대로 사용되기 때문이다. 따라서 forward에서 구한 $a^{[l]}, z^{[l]}$의 값들을 버리지말고 저장해놨다가 backward에서 사용하는 것이 연산 시간을 줄일 수 있다. Backward Propagat.. 2022. 4. 20. 이전 1 ··· 22 23 24 25 26 27 28 ··· 68 다음