본문 바로가기

어텐션

(4)
SELF-ATTENTION DOES NOT NEED O(n2) MEMORY Abstract 일반적으로 self-attention은 시퀀스 길이에 비례하는 제곱수의 메모리를 필요로 한다 하지만 이 논문에서 제안하는 Attention을 대체할 수 있는 알고리즘을 통해서 시퀀스 길이에 따라 고정된 양의 메모리O(1)만 필요로 하고 더 확장하면 로그 함수에 비례하는 메모리(O(logn))만을 필요로 한다. 또한, 이 알고리즘은 메모리 효율적인 방식으로 함수를 미분하는 방법도 제공합니다 Problem Standard Self attention Query 특정 요소에 주목해야 하는 정도를 결정 Key 주목해야 할 요소 Value 요소에 연관된 정보 연산 과정은 Q와 K 사이의 alignment score를 계산하고 그 score를 사용해서 value에 가중치로 사용을 한다. 가중치를 생성..
A Review of Generalized Zero-Shot Learning Methods https://arxiv.org/pdf/2011.08641.pdf Abstract(요약) 일반화된 zero-shot learning은 Output classes가 지도 학습하는 동안 학습되지 않은 조건 아래 데이터를 분류하기 위해서 모델을 훈련하는 것이 목표이다. 이 task를 수행하기 위해서 seen 한 source와 unseen한 target class 사이의 의미 정보를 사용해서 두 classes 간의 격차를 해소하려 한다. 이것이 소개된 후부터 많은 GZSL 모델이 공식화 되어왔다. 이번 리뷰 논문에서 우리는 GZSL에 대한 포괄적인 평가를 나타내려한다. 우리는 문제들과 아직 남아 있는 도전적이 과제들을 포함해서 GZSL의 개요를 제공하고, GZSL을 위한 계층적 범주를 소개한다. 그리고 각 범주..
Seq2Seq(시퀀스 투 시퀀스) Seq2Seq 모델은 번역, 요약과 같이 시퀸스(sequence) Seq2Seq 모델은 번역, 요약과 같이 시퀸스(sequence) RNN 기반 모델 '시퀸스를 받아들이는 부분'과 '시퀸스를 출력하는 부분'을 분리한다 기계 번역, 챗봇, 요약, 질의응답 등의 작업에서 널리 사용한다. Language Model 단어의 시퀀스를 보고 다음 단어에 확률을 할당한다 n-1개의 단어 시퀀스 W1,⋯ ,Wn−1w1​,⋯,wn−1​가 주어졌을 때, n번째 단어 wn​ 으로 무엇이 올지를 예측하는 확률 모델이다. Statstic Language Model 단어 시퀀스에 대한 확률분포(probability distribution)이다 context-dependent 성격 - 학습 데이터에 민감하다 이점 언어모델의 불확실..
Transformer - Encoder(어텐션 메커니즘) 본 내용은 참고 자료에 있는 블로그가 내용이 너무 좋아서, 해당 블로그 내용을 바탕으로 번역하면서 작성하였음을 밝힙니다. Paper Attention is all you need https://arxiv.org/pdf/1706.03762.pdf Vocab size 단어장 크기는 unique word의 수로 결정된다. N을 구하기 위해서 단어를 하나하나 토큰화해야 한다. Encoding unique word에 고유의 index 수를 할당해야 한다. 결과 Word to index index to wor Calculating Embedding 한 문장을 이루는 토큰이 input sequence로 들어갔다고 한다면, 토큰을 벡터로 embedding 해야 한다. 논문에서는 각 토큰 당 512 dimenstiona..