본문 바로가기

딥러닝

(3)
A Review of Generalized Zero-Shot Learning Methods https://arxiv.org/pdf/2011.08641.pdf Abstract(요약) 일반화된 zero-shot learning은 Output classes가 지도 학습하는 동안 학습되지 않은 조건 아래 데이터를 분류하기 위해서 모델을 훈련하는 것이 목표이다. 이 task를 수행하기 위해서 seen 한 source와 unseen한 target class 사이의 의미 정보를 사용해서 두 classes 간의 격차를 해소하려 한다. 이것이 소개된 후부터 많은 GZSL 모델이 공식화 되어왔다. 이번 리뷰 논문에서 우리는 GZSL에 대한 포괄적인 평가를 나타내려한다. 우리는 문제들과 아직 남아 있는 도전적이 과제들을 포함해서 GZSL의 개요를 제공하고, GZSL을 위한 계층적 범주를 소개한다. 그리고 각 범주..
Seq2Seq(시퀀스 투 시퀀스) Seq2Seq 모델은 번역, 요약과 같이 시퀸스(sequence) Seq2Seq 모델은 번역, 요약과 같이 시퀸스(sequence) RNN 기반 모델 '시퀸스를 받아들이는 부분'과 '시퀸스를 출력하는 부분'을 분리한다 기계 번역, 챗봇, 요약, 질의응답 등의 작업에서 널리 사용한다. Language Model 단어의 시퀀스를 보고 다음 단어에 확률을 할당한다 n-1개의 단어 시퀀스 W1,⋯ ,Wn−1w1​,⋯,wn−1​가 주어졌을 때, n번째 단어 wn​ 으로 무엇이 올지를 예측하는 확률 모델이다. Statstic Language Model 단어 시퀀스에 대한 확률분포(probability distribution)이다 context-dependent 성격 - 학습 데이터에 민감하다 이점 언어모델의 불확실..
Transformer - Encoder(어텐션 메커니즘) 본 내용은 참고 자료에 있는 블로그가 내용이 너무 좋아서, 해당 블로그 내용을 바탕으로 번역하면서 작성하였음을 밝힙니다. Paper Attention is all you need https://arxiv.org/pdf/1706.03762.pdf Vocab size 단어장 크기는 unique word의 수로 결정된다. N을 구하기 위해서 단어를 하나하나 토큰화해야 한다. Encoding unique word에 고유의 index 수를 할당해야 한다. 결과 Word to index index to wor Calculating Embedding 한 문장을 이루는 토큰이 input sequence로 들어갔다고 한다면, 토큰을 벡터로 embedding 해야 한다. 논문에서는 각 토큰 당 512 dimenstiona..