본문 바로가기

Computer Science 254

Neural Network Neural Network 여러 개의 unit들이 모인 여러 개의 layer로 이루어진 모델이다. 하나의 unit이 하는 일은 linear transformation + non-linear transformation이다. Logistic regression에서 모델이 커진 것이라고 생각할 수 있다. Representation Nueral Network의 구조는 크게 3가지로 나눌 수 있다. input layer hidden lyaer output layer 몇 개의 layer로 이루어져있는지를 셀 때는 input layer를 포함하지 않는다. Input layer에는 traninable variable이 존재하지 않기 때문이다. Parameters & Variables의 Shape W와 b의 개수와 sh.. 2022. 4. 7.
Logistic Regression Logistic Regression 입력값이 주어졌을 때 정답일 확률을 예측하는 방법으로, 주로 binary classification을 위해 사용된다. 하나의 unit으로 이루어진 네트워크 형태를 가진다. 입력값 x에 대해 $y=1$일 확률을 잘 추론해낼 수 있는 $w$와 $b$를 찾아야 한다. Model 선형변환 → 비선형변환 Parameter : 우리가 찾아야 하는 값 $w \in R^{n_x}$ $b \in R$ Output : 연산 수행 결과 입력값 x에 대해 y=1일 확률을 구한다. $\hat{y} = \sigma(w^T x + b)$ $w^Tx + b$ : linear transformation(affine transformation) $\sigma(z)$ : non-linear transf.. 2022. 4. 7.
Computation Graph (Forward/Backward Propagation) Neural Network에서의 Computation Forward propagation : neural network의 output을 계산하는 과정 Backward propagation : gradient(derivate)를 계산하는 과정 Computation Graph Forward/backwrad propagation 과정을 그래프로 나타낸 것이다. Computation graph를 이용해서 컴퓨터가 gradient를 간단하게 계산할 수 있도록 변환할 수 있다. 사람은 눈으로 보고 미분 방정식을 통해 쉽게 gradient를 계산할 수 있지만, 컴퓨터는 그렇지 못하다. 따라서 computation graph를 이용해서 컴퓨터가 gradient를 쉽게 계산할 수 있도록 수식을 만들어준다. 예시 아래 모.. 2022. 4. 6.
Gradient Descent Gradient Descent Minimize Cost 우리의 목표는 cost(error의 합)을 최소화하는 것이다. 더 정확히는 cost가 최소가 되는 W와 b를 찾는 것이다. 이를 위해 gradient descent 방법을 이용한다. Gradient Descent Gradient가 최소가 되는 방향으로 이동하며 optimal을 찾는 방법이다. 즉, 경사를 따라 내려가면서 cost가 최솟값일 때의 W를 찾는 방법이다. Cost function $J(w, b)$를 최소화하는 $w$와 $b$를 찾는 것이 training의 목표이다. 이를 위해 임의의 지점에서 gradient가 감소하는 방향으로 이동함으로써 목표지점 $(w, b)$ 로 이동할 수 있다. 이상적인 상황에서 목표지점(optimal)에서의 gra.. 2021. 8. 6.
Loss Function, Cost Function Loss Function = objective function, error function 모델을 training 할 때 loss function의 값을 최소화/최대화하는 방향으로 parameter를 찾아간다. 보통을 loss function을 최소화하도록 정한다. To Minimize Training set이 한 개이면 loss function을 미분해서 최소가 되는 지점을 찾으면 된다. 그러나 M의 크기가 매우 커지면 이를 계산하는 것이 힘들기 때문에 주로 gradient descent method를 사용한다. Cost Function $w, b$에 따른 loss 값의 평균이다. $J(w, b) = \frac{1}{m} \Sigma^m _{u=1} L(\hat{y}^{(i)}, y^{(i)})$ $=.. 2021. 8. 6.