본문 바로가기

RNN

(2)
Recurrent Neural Network 분포 가설과 분산 표현 Embedding Recurrent layer RNN LSTM 자연어 처리의 큰 흐름 RNN 순차적인 데이터 처리에 적합한 모델 장기 의존성 문제 기울기 소실 문제 LSTM 등장 RNN 한계 극복 기억 문제 개선 장기 의존성 처리 능력 계산 비용이 많이 든다 병렬 처리가 어렵다 GNU 등장 LSTM보다 더 간단한 구조로 복잡성이 줄어든다 Transformer self-Attention 메커니즘 병렬 처리 가능 RNN과 LSTM 단점을 극복 시퀀스에 대한 장기 의존성을 처리 분포 가설과 분산 Sparse representation 벡터의 특정 차원에 단어 혹은 의미를 직접 매핑하는 방식 해당 데이터에서 실제로 중요한 정보가 있는 일부 요소만을 표현하고 나머지 요소는 0으로 표현하는 ..
Seq2Seq(시퀀스 투 시퀀스) Seq2Seq 모델은 번역, 요약과 같이 시퀸스(sequence) Seq2Seq 모델은 번역, 요약과 같이 시퀸스(sequence) RNN 기반 모델 '시퀸스를 받아들이는 부분'과 '시퀸스를 출력하는 부분'을 분리한다 기계 번역, 챗봇, 요약, 질의응답 등의 작업에서 널리 사용한다. Language Model 단어의 시퀀스를 보고 다음 단어에 확률을 할당한다 n-1개의 단어 시퀀스 W1,⋯ ,Wn−1w1​,⋯,wn−1​가 주어졌을 때, n번째 단어 wn​ 으로 무엇이 올지를 예측하는 확률 모델이다. Statstic Language Model 단어 시퀀스에 대한 확률분포(probability distribution)이다 context-dependent 성격 - 학습 데이터에 민감하다 이점 언어모델의 불확실..