LSTM (Long Short-Term Memory Networks)
RNN 종류 중 하나이다.
3종류의 메모리를 배치함으로써 vanishing/exploding gradient problem과 이전의 정보를 까먹는 문제를 모두 해결하였다.
Long-term dependency를 유지하며 학습이 가능하다.
Memory Cell
Memory와 gate로 구성되며 3 종류가 존재한다.
Gate의 특징
- Output range : 0~1
- 기능 : filtering function
- 연산 : pointwise multiplication
종류
- input gate
- 현재 메모리에서 어떤 부분을 사용할지 결정
- 1에 가까운 값은 사용하고 0에 가까운 값은 사용하지 않는다.
- forget gate
- 과거의 정보와 결합하여 메모리를 업데이트
- output gate
- 메모리의 내용을 이용해서 작업 수행
- 다음 스테이지로 넘겨주는 feature map을 생성
Gradient 계산
LSTM의 특징
LSTM은 memory cell을 이용해서 gradient 문제를 해결하고 예전 정보를 담을 수 있어서 long-term dependency가 가능하다.
다만 모델이 heavy해져서 cost가 증가한다는 단점이 있다.
'Computer Science > AL, ML' 카테고리의 다른 글
[CNN] Image Captioning & Attention (0) | 2022.06.16 |
---|---|
[RNN] GRU (Gated Recurrent Unit) (0) | 2022.06.16 |
[RNN] Vanilla RNN (0) | 2022.06.15 |
RNN : Recurrent Neural Network (0) | 2022.06.15 |
[CNN] 다양한 CNN (0) | 2022.06.15 |
댓글