본문 바로가기

전체

(17)
Recurrent Neural Network 분포 가설과 분산 표현 Embedding Recurrent layer RNN LSTM 자연어 처리의 큰 흐름 RNN 순차적인 데이터 처리에 적합한 모델 장기 의존성 문제 기울기 소실 문제 LSTM 등장 RNN 한계 극복 기억 문제 개선 장기 의존성 처리 능력 계산 비용이 많이 든다 병렬 처리가 어렵다 GNU 등장 LSTM보다 더 간단한 구조로 복잡성이 줄어든다 Transformer self-Attention 메커니즘 병렬 처리 가능 RNN과 LSTM 단점을 극복 시퀀스에 대한 장기 의존성을 처리 분포 가설과 분산 Sparse representation 벡터의 특정 차원에 단어 혹은 의미를 직접 매핑하는 방식 해당 데이터에서 실제로 중요한 정보가 있는 일부 요소만을 표현하고 나머지 요소는 0으로 표현하는 ..
챗GPT가 불러올 경제 혁명 MIT technology의 기사를 읽고 재미있어서 정리를 해보았습니다. Notes 근 몇 달간 챗GPT(ChatGPT) 같은 생성형AI 모델들로부터 사업 기회를 노리는 이른바 ‘AI 골드러시(AI gold rush)’가 시작됐다. 앱 개발자, 벤처 스타트업, 세계 굴지의 기업을 막론하고 모두가 지난해 11월 오픈AI(OpenAI)가 선보인 화제의 텍스트 생성 봇을 이해하기 위해 노력하고 있다. 지난 10년간 AI와 디지털 기술은 놀라울 정도로 발전했지만, 경제적 번영과 공동의 성장에 기여한 부분은 다소 실망스럽다. 오픈AI는 GPT-4의 매개변수 수를 정확히 밝히지 않지만 추측은 가능하다. GPT-3는 약 1,750억 개의 매개변수를 가지고 있었으며 이는 GPT-2의 약 100배에 달하는 수치였다. 빅..
A Review of Generalized Zero-Shot Learning Methods https://arxiv.org/pdf/2011.08641.pdf Abstract(요약) 일반화된 zero-shot learning은 Output classes가 지도 학습하는 동안 학습되지 않은 조건 아래 데이터를 분류하기 위해서 모델을 훈련하는 것이 목표이다. 이 task를 수행하기 위해서 seen 한 source와 unseen한 target class 사이의 의미 정보를 사용해서 두 classes 간의 격차를 해소하려 한다. 이것이 소개된 후부터 많은 GZSL 모델이 공식화 되어왔다. 이번 리뷰 논문에서 우리는 GZSL에 대한 포괄적인 평가를 나타내려한다. 우리는 문제들과 아직 남아 있는 도전적이 과제들을 포함해서 GZSL의 개요를 제공하고, GZSL을 위한 계층적 범주를 소개한다. 그리고 각 범주..
Seq2Seq(시퀀스 투 시퀀스) Seq2Seq 모델은 번역, 요약과 같이 시퀸스(sequence) Seq2Seq 모델은 번역, 요약과 같이 시퀸스(sequence) RNN 기반 모델 '시퀸스를 받아들이는 부분'과 '시퀸스를 출력하는 부분'을 분리한다 기계 번역, 챗봇, 요약, 질의응답 등의 작업에서 널리 사용한다. Language Model 단어의 시퀀스를 보고 다음 단어에 확률을 할당한다 n-1개의 단어 시퀀스 W1,⋯ ,Wn−1w1​,⋯,wn−1​가 주어졌을 때, n번째 단어 wn​ 으로 무엇이 올지를 예측하는 확률 모델이다. Statstic Language Model 단어 시퀀스에 대한 확률분포(probability distribution)이다 context-dependent 성격 - 학습 데이터에 민감하다 이점 언어모델의 불확실..
EDA를 왜 해야 할까? EDA 왜 해야 할까요? 데이터를 다양한 각도에서 관찰하고 이해를 위해서이다 데이터를 잘 이해한다는 개념은 생각보다 중요하다. 그래서 도메인을 이해하는 것이 중요한 이유기도 하다. 데이터 접근에 대한 첫 시작을 잘못하면 그 데이터를 가지고 해결하려는 문제 알고리즘도 모두 쓸모가 없어진다 이때 다양한 분석을 통해서 가설을 도출할 수도 있다 필요한 것은 데이터를 잘 읽고 잘 듣는 능력 = 이해관계자의 말을 이해하는 능력 → 무의식적인 너무 주관적인 판단은 배제한다 exploratory data analysis의 약어이다. 탐색적으로 데이터 분석한다는 의미이다. Scaling 머신 러닝을 위한 데이터 세트를 정제할 때 스케일이 다르다면? 머신러닝은 데이터 기반으로 패턴을 인식하기 때문에 편향이 생길 수 있다...
Transformer - Encoder(어텐션 메커니즘) 본 내용은 참고 자료에 있는 블로그가 내용이 너무 좋아서, 해당 블로그 내용을 바탕으로 번역하면서 작성하였음을 밝힙니다. Paper Attention is all you need https://arxiv.org/pdf/1706.03762.pdf Vocab size 단어장 크기는 unique word의 수로 결정된다. N을 구하기 위해서 단어를 하나하나 토큰화해야 한다. Encoding unique word에 고유의 index 수를 할당해야 한다. 결과 Word to index index to wor Calculating Embedding 한 문장을 이루는 토큰이 input sequence로 들어갔다고 한다면, 토큰을 벡터로 embedding 해야 한다. 논문에서는 각 토큰 당 512 dimenstiona..
머신러닝 요약(ML Summary) 머신러닝 개요 머신러닝 (Machine Learning): 컴퓨터가 데이터로부터 학습하고 패턴을 찾아 예측하거나 결정을 내리는 기술. 지도학습 (Supervised Learning): 입력과 출력 간의 대응을 학습하여 예측 모델을 생성. 비지도 학습 (Unsupervised Learning): 레이블 없는 데이터의 구조나 패턴을 찾는 학습. 강화학습 (Reinforcement Learning): 에이전트가 환경과 상호작용하여 보상을 최대화하도록 학습. 2. 주요 알고리즘: 선형 회귀 (Linear Regression): 종속 변수와 독립 변수 간의 선형 관계를 모델링. 로지스틱 회귀 (Logistic Regression): 이진 분류 문제에 사용되는 알고리즘. 결정 트리 (Decision Tree): 데..
분류 모델의 종류(classification model) 로지스틱 회귀 (Logistic Regression) 개념: 선형 결정 경계를 통해 이진 분류를 수행하는 모델. 목적: 데이터의 특성을 학습하여 새로운 데이터를 분류. 원리: 선형 결정 경계를 찾아내기 위해 최적의 가중치 학습. 필요한 함수: 시그모이드 함수, 손실 함수 (로지스틱 손실), 경사 하강법 등. 장점: 단순하고 해석이 쉬움, 이진 분류에 효과적. 결정 트리 (Decision Tree) 개념: 데이터의 특성에 따라 결정 경로를 나눠가며 분류 또는 회귀하는 모델. 목적: 데이터의 특성을 기반으로 예측 및 분류. 원리: 데이터를 최적으로 나눌 수 있는 특성을 선택해 결정 경로를 생성. 필요한 함수: 분할 기준 (불순도, 지니 계수 등). 장점: 해석력이 높음, 다양한 데이터 타입에 적용 가능. 랜..