본문 바로가기

트랜스포머

(2)
Seq2Seq(시퀀스 투 시퀀스) Seq2Seq 모델은 번역, 요약과 같이 시퀸스(sequence) Seq2Seq 모델은 번역, 요약과 같이 시퀸스(sequence) RNN 기반 모델 '시퀸스를 받아들이는 부분'과 '시퀸스를 출력하는 부분'을 분리한다 기계 번역, 챗봇, 요약, 질의응답 등의 작업에서 널리 사용한다. Language Model 단어의 시퀀스를 보고 다음 단어에 확률을 할당한다 n-1개의 단어 시퀀스 W1,⋯ ,Wn−1w1​,⋯,wn−1​가 주어졌을 때, n번째 단어 wn​ 으로 무엇이 올지를 예측하는 확률 모델이다. Statstic Language Model 단어 시퀀스에 대한 확률분포(probability distribution)이다 context-dependent 성격 - 학습 데이터에 민감하다 이점 언어모델의 불확실..
Transformer - Encoder(어텐션 메커니즘) 본 내용은 참고 자료에 있는 블로그가 내용이 너무 좋아서, 해당 블로그 내용을 바탕으로 번역하면서 작성하였음을 밝힙니다. Paper Attention is all you need https://arxiv.org/pdf/1706.03762.pdf Vocab size 단어장 크기는 unique word의 수로 결정된다. N을 구하기 위해서 단어를 하나하나 토큰화해야 한다. Encoding unique word에 고유의 index 수를 할당해야 한다. 결과 Word to index index to wor Calculating Embedding 한 문장을 이루는 토큰이 input sequence로 들어갔다고 한다면, 토큰을 벡터로 embedding 해야 한다. 논문에서는 각 토큰 당 512 dimenstiona..