반응형
https://arxiv.org/pdf/2011.08641.pdf
Abstract(요약)
일반화된 zero-shot learning은 Output classes가 지도 학습하는 동안 학습되지 않은 조건 아래 데이터를 분류하기 위해서 모델을 훈련하는 것이 목표이다. 이 task를 수행하기 위해서 seen 한 source와 unseen한 target class 사이의 의미 정보를 사용해서 두 classes 간의 격차를 해소하려 한다. 이것이 소개된 후부터 많은 GZSL 모델이 공식화 되어왔다. 이번 리뷰 논문에서 우리는 GZSL에 대한 포괄적인 평가를 나타내려한다. 우리는 문제들과 아직 남아 있는 도전적이 과제들을 포함해서 GZSL의 개요를 제공하고, GZSL을 위한 계층적 범주를 소개한다. 그리고 각 범주의 대표적인 method에 대해서 논의한다.. 더 나아가 우리는 이용 가능한 벤치마크 데이터 셋과 GZSL의 응용에 대해서도 논의한다.
- 연구의 필요성
- OSR은 클래스가 보지 않은 클래스에 속했는지 아닌지 확인할 수 있지만 정확한 클래스에 대해서는 라벨을 예측할 수 없다.
- Out of distribution 기술은 훈련 샘플과 다른 테스트 샘플을 식별하는 것을 시도한다. 그러나 보지 않은 클래스의 샘플은 분류할 수 없다.
Conclusion(결론)
GZSL을 두가지 방법으로 분류할 수 있다.
임베딩 기반 방법
- 임베딩 기반 방법은 시각적 공간을 시맨틱 공간과 연결하기 위해 임베딩 공간(시각적-시맨틱, 시맨틱-시각적, 공통/잠재 공간 또는 그들의 조합)을 학습
- 학습된 임베딩 공간을 사용해서 seen 및 unseen class의 데이터 샘플을 인식
- 그래프 기반, 오토인코더 기반, 메타러닝 기반, 어텐션 기반, 구성 학습 기반, 양방향 학습 기반 및 기타 방법으로 분류
- 장점
- 복잡성이 적고 구현이 쉽다
- 단점
- 시맨틱 손실(의미 손실)에 의해 전이 지식의 능력이 제한되며 보이지 않는 클래스에 대한 시각적 샘플의 부재로 인해 편향 문제
- 시맨틱 임베딩 모델에서 시각적 특징을 저차원 시맨틱 공간으로 투영하면 분산이 축소되고 식별 가능성이 제한
- Compatibility scores는 무제한이며 고정된 마진으로 인해 특정 시맨틱 구조를 학습하지 못할 수 있다
- 일반적으로 공유 공간에서 검색을 수행하면 허브 문제를 유발하여 [51], [61]의 문제를 초래
- 비주얼 임베딩 모델을 사용해 허브 문제를 완화 시킬 수 있다 하지만 시각적 특징 및 시맨틱 표현은 독립적으로 얻어지며 이들은 이질적이다. 예를 들어, 이들은 서로 다른 공간에서 온 것생성 기반 방법
- 그에 반해, 생성 기반 방법은 unseen 클래스를 위한 시각적 특징을 생성함으로써 GZSL을 전통적인 supervised 학습 문제로 변환.
- unseen 클래스의 시각적 특징이 훈련 중에 사용 불가능하므로 seen 클래스의 데이터 샘플을 사용하여 투영 함수나 생성 모델을 학습하는 것은 unseen 클래스에 관한 일반화를 보장 못함
- 장점
- 보이지 않는 클래스를 위한 시각적 특징을 합성함으로써 편향 문제를 해결하는 데 효과적이다.
- 단점
- 생성 기반 방법은 편향 문제에 취약하다.
- 모델이 보이는 및 보이지 않는 클래스를 한 번에 인식하도록 허용하지만, 이들은 보이는 클래스에 조건을 걸어 모델 클래스를 학습함으로써 시각적 특징을 생성한다. 그들은 보이는 및 보이지 않는 클래스 생성에 대한 일반적인 모델을 학습하지 않는다.
- 구조가 복잡하며 (불안정성으로 인해) 훈련이 어렵다.
- 시맨틱 표현을 사용하여 시각적 특징의 분포를 얻거나 생성된 시각적 특징과 실제 시맨틱 표현 간의 정보를 유지하기 위한 제약으로서 유클리드 거리를 사용하는 등 제한
- 보이지 않는 클래스의 데이터 샘플의 제한 없는 생성은 실제 분포에서 멀리 떨어진 샘플을 생성할 수 있다
Applications(응용)
- Computer Vision
- 컴퓨터 비전 분야에서 Generalized Zero-Shot Learning (GZSL)은 이미지 및 비디오와 관련된 문제를 해결하는 데 적용
- 이미지 처리
- 미디엄-스케일 및 파인-그레인드 데이터 세트
- SUN: 130,519 이미지, 899 클래스. SUN 속성 데이터 세트는 717 클래스에 대한 14,340 이미지로 이루어져 있으며, 645 클래스는 보이는 학습 및 테스트용으로 사용되고, 나머지 72 클래스는 보이지 않는 테스트용으로 사용된다.
- CUB: CUB-200 데이터 세트의 확장 버전으로 11,788 이미지, 200 클래스. 150 클래스는 보이는 학습 및 테스트 용으로 사용되고, 나머지 50 클래스는 보이지 않는 테스트 샘플로 사용된다.
- 객체 탐지
- 최근에는 Zero-Shot Detection이 발전하여 이전에 학습한 클래스와 일치하지 않는 클래스를 탐지할 수 있게 되었다.
- 이미지 분할, 대규모 데이터 세트에서 이미지 검색, 이미지 주석과 같은 다양한 작업에 GZSL이 적용되었다.
- 비디오 처리
- GZSL 기반 프레임워크는 단일 레이블 및 다중 레이블 인간 행동을 인식하는 데 사용된다.
- CLASTER와 같은 클러스터링 기반 방법이나 JLRE (Joint Latent Ranking Embedding)을 사용하는 MZSL (Multi-label Zero-Shot Learning) 프레임워크 등이 제안되었다.
- NLP
- 주요 응용 분야로는 단일 레이블 텍스트 분류, 다중 레이블 텍스트 분류, 그리고 잡음이 있는 텍스트 설명이 있다.
- Wang et al. [104]는 의미 임베딩 및 범주 관계를 기반으로 한 방법을 제안했다. 이 방법에서는 지식 그래프의 이점을 활용하여 의미적 임베딩 메커니즘 위에 의미 있는 분류기를 학습하는 데 지도를 제공한다.
- 다중 레이블 텍스트 분류
- GZSL을 다중 레이블 텍스트 분류에 적용하는 것은 텍스트 데이터에서 잠재적인 특징을 생성하는 데 중요한 역할
Introduction
논문의 목적
- GZSL에 대한 철저한 분석
- 해당 대표 모델 및 현실 세계 응용에 대한 설명
- 주요 연구 공백에 대한 설명 및 향후 연구 방향에 대한 제안
- 논문 흐름
- GZSL에 대한 개요
- 귀납적 및 sementic 추측 방법 검토
- 시맨틱 추측 GZSL 방법에 중점
- 다양한 도메인에 대한 응용 프로그램
- 컴퓨터 비전
- 저연어 처리ZSL (Zero-shot Learning)
- 학습했던 클래스에서 얻은 지식을 전이해서 본 적 없는 클래스 객체를 분류하는 것이 목표이다.
- 의미론적 정보는 고차원 벡터에서 보이는 클래스와 보이지 않는 클래스의 이름을 포함한다. 여기서 의미론적 정보라는 것은 클래스가 가지고 있는 수동으로 정의한 feature 벡터, 자동으로 추출된 단어 벡터, context 기반의 임베딩 또는 그것들을 조합한 내용일 것 이다.
- ZSL은 의미론적 정보를 사용해서 보이는 클래스와 보이지 않는 클래스 간의 격차를 줄인다. 이전에 학습한 개념과의 유사성을 계산해서 확률을 계산한다.
- ZSL의 테스트 데이터는 학습하지 않은 클래스의 샘플만 포함되어 있다. 이는 실제 세계와는 괴리가 있다.
- GZSL (Generalized Zero-shot learning)
- 그러나 GZSL 일반화된 제로샷 러닝은 학습하지 않은 데이터만 분류하고 인식하는 것이 아니라 학습했던 클래스와 학습하지 않은 클래스 모두를 분류하는 것을 목표로 한다
- 모델에는 주어진 샘플에서 보이는 클래스의 매니 폴드에 속하는지를 결정기 위해서 이상치 탐지 방법이 통합되어 있다.
- 샘플이 학습된 클래스에서 온 것이라면 표준 classifier이 사용되고 그렇지 않다면 이미지에 대한 미확인 클래스일 가능성을 계산해서 클래스가 할당이 된다.
- 텍스트 데이터를 사용해서 라벨 간의 의미적인 관계를 학습하고, 그 이미지를 임베딩 공간으로 매핑하는 것을 시도한다. 그리고 그 공간에서 학습한 클래스와 학습하지 않은 클래스의 샘플을 인식하기를 시도한다.
- 2016년까지는 주목을 받지 못했다. 이전에는 ZSL이 학습하지 않은 클래스를 학습한 클래스로 분류하는 경향이 크는 등의 한계가 있었다. 그래서 이 문제 해결의 접근 방식으로 "보정된 스태깅" 을 소개하여 보이는 클래스와 보이지 않는 클래스에서의 샘플을 인식하는데 필요한 trade off를 균형있게 조절했다.
- 오른쪽 설정에서는 보이는 클래스의 시각적 특징과 의미적 표현만 사용이 가능하다
- 왼쪽 설정에서는 클래스 정보에 추가로 보이지 않은 클래스의 미분류된 시각적 샘플에 접근할 수 있다.Overview of GZSL Method(개요)
- 문제 정의
- 수식
- GZSL의 학습 단계
- Inductive learning
- 모델을 설계할 때 seen 클래스의 시각적 특징과 Sementic 정보만을 활용한
- unseen 클래스에 대해 Prior 지식이 없다
- Transductive learning
- Inductive learning에 보지 않은 클래스 정보와 semantic 표현, 그리고 보지 않은 클래스의 라벨링 되지 않은 시각적 특징도 활용한다
- 보지 않은 클래스의 Prior이 유효하다
- Inductive learning
- 많은 모델들이 귀납적 학습 기반으로 개발되어 왔지만 비실용적이라고 말한다. 또한 모든 보지 못한 클래스에 대해 라벨링 되지 않은 데이터가 유효하다고 가정하는 것이 비실용적이다. 게다가 transductive learning에 대한 연구들은 보지 못한 클래스의 모든 샘플이미지를 훈련하는 동안 사용한다. 아니면 동등한 값으로 하나는 훈련을 위한 것 하나는 모델 Inference를 위한 것으로 두 몫으로 나눠서 사용한다.
- 생성 기반 방법이 순수한 귀납 학습이 아니라고 주장한다. 왜냐하면 unseen 클래스의 의미 정보가 unseen 클래스의 시각적 특징을 생성하는데 사용되기 때문이다. 따라서 이러한 생성 기반 방법을 semantic 추측 학습으로 분류한다.
- 따라서 이들은 시험하기 전에 unseen 클래스의 의미 정보에 접근하지 않고 귀납적 생성 기반 방법을 제안했다.
성과 지표
- seen class과 unseen class에 대한 정확도
- ACC
- AUSUC
- area under seen unseen accuracy curve
- GZSL Method
- Transductive GZSL Method
- HM
- harmonic mean
- 다른 성과 지표
- seen class의 관점을 가지고 GZSL기반의 method의 타고난 편향을 측정할 수 있다
만약 seen class 쪽으로 편향이 있다면 seen class에 대한 ACC가 unseen class에 대한 ACC 보다 더 높아질 것이다. 그럼 HM 점수는 떨어지게 된다.
Semantic Information(의미론적 정보)
- GZSL의 열쇠이다.
- unseen한 클래스 간의 관계를 구축하기 위해 사용되어 일반화 된 제로샷 인식이 가능하게 한다
- semantic 정보는 unseen 클래스의 인식 속성을 포함해야 하고, 각 unseen 클래스에 대한 충분한 의미적 정보가 제공되도록 보장되어야 한다.
- 이 정보는 특정 공간에서 샘플과 관련이 있어야 한다.
- 수동으로 정의된 속성
- 이러한 속성은 원모양 파란색과 같은 색상과 같은 특징을 포함한다. 속성은 정확하지만 대규모 문제에는 적합하지 않은 어노테이션의 인력이 필요하다.
- semantic 속성을 seen class와 useen class에 모두 활용하기 위해서 글로벌 시맨틱 일관성 네트워크인 GSC-Net을 제안했다.
- 속성 라벨 트리에 따라 데이터 별 특징 추출기를 개발하기도 했다.
- word vector
- 이러한 벡터들은 대량의 텍스트 코퍼스(예: 위키피디아)에서 자동으로 추출되어 각 단어 간의 유사성과 차이를 나타내며 각 객체의 특성을 설명
- 대규모 데이터 세트에 적합
- 모델 성능에 영향을 미치는 노이즈가 포함
- Embedding space
- 대부분의 GZSL 방법은 seen 클래스의 low level 시각적 특징과 해당 시맨틱 벡터를 연관시키기 위한 임베딩/매핑 함수를 학습
- 임베딩/매핑 함수는 릿지 회귀 손실 또는 두 공간의 호환성 점수에 대한 랭킹 손실을 통해 최적화하고 그런 다음 학습된 함수는 임베딩 공간의 데이터 샘플의 프로토타입 표현과 예측된 표현 간의 유사성 수준을 측정하여 새로운 클래스를 인식하는 데 사용
- 임베딩 공간
- 유클리드 공간 (Euclidean Space):
- 간단하지만 정보 손실 발생
- 유클리드 공간은 흔히 우리가 일상적으로 생각하는 3차원 공간과 같은 공간을 나타낸다.
- 유클리드 공간에서는 거리를 측정할 때 직선 거리, 즉 유클리드 거리를 사용한다.. 두 점 간의 거리는 각 좌표 축에서 차이를 제곱하여 더한 후 제곱근을 취한 값이다.
- 각 축의 값은 실수(Real numbers)로 가정되며, 이 공간에서의 벡터는 특정 좌표에 위치한 점을 나타낸다.
- 비유클리드 공간 (Non-Euclidean Space):
- graph Net, 매니폴드 학습 또는 cluster를 기반으로 한다.
- 데이터 샘플 간의 관계를 보존하기 위해서 공간 간의 기하학적 관계를 사용
- 비유클리드 공간은 유클리드 공간과는 다른 거리 측정 방법을 사용하는 공간을 의미한다.
- 비유클리드 거리 측정은 유클리드 거리의 성질을 벗어나거나, 다른 메트릭을 사용하여 거리를 측장힌다. 예를 들어, 매니폴드(Manifold)에서 거리를 측정할 때는 매니폴드의 고유한 구조를 고려할 수 있다.
- 비유클리드 공간은 주로 복잡한 데이터 구조를 모델링하거나 특수한 성질을 가진 데이터에 대해 효과적일 수 있다.
- 유클리드 공간 (Euclidean Space):
- 임베딩
- 시맨틱 임베딩
- 시각적 임베딩
- 잠재공간 임베딩Semantic Embedding
- 시각적 공간에서 시맨틱 공간으로의 (순방향) 투영 함수를 학습하고 다양한 제약 조건이나 손실 함수를 사용하여 시맨틱 공간에서 분류를 수행
- 목표는 하나의 클래스에 속하는 모든 이미지의 시맨틱 임베딩이 어떤 ground truth 레이블 임베딩으로 매핑되도록 하는 것
- 최상의 투영 함수를 얻었을 때 주어진 테스트 이미지를 인식하기 위해 가장 가까운 이웃 검색을 수행할 수 있다.
- Visual Embedding 시각적 임베딩
- 시각적 임베딩 (그림 3 (b))은 시맨틱 표현을 시각적 공간으로 (역방향으로) 매핑하는 투영 함수를 학습하고 시각적 공간에서 분류를 수행
- . 목표는 시맨틱 표현을 해당 시각적 특징과 가깝게 만드는 것'
- latent Embedding 잠재 임베딩
- 시맨틱 및 시각적 임베딩 모델은 한 가지 모달리티의 공간, 즉 시각적 또는 시맨틱 공간에서 다른 모달리티의 공간으로의 투영/임베딩 함수를 학습
- 서로 다른 모달리티의 독특한 특성으로 인해 두 공간 간의 명시적인 투영 함수를 학습하는 것은 어려운 문제
- 이런 측면에서 잠재 공간 임베딩 (그림 3 (c))은 시각적 특징과 시맨틱 표현을 공통의 공간 L, 즉 잠재 공간에 투영하여 다양한 모달리티 간의 공통 의미 속성을 탐색
- 목표는 각 클래스의 시각적 및 시맨틱 특징을 잠재 공간으로 가깝게 투영
- 이상적인 잠재 공간
- 클래스 내의 적응력
- 클래스 간의 분리성
도전적인 문제
- 시맨틱 임베딩 공간을 학습하고 가장 가까운 이웃 검색을 활용하여 인식을 수행
- 허브 문제
- 허브 문제는 최근접 이웃 방법에 영향을 주는 차원의 저주로, 한 샘플이 다른 샘플의 k-최근접 이웃 내에서 나타나는 횟수
- 다양한 맵 벡터가 공통 항목들로 둘러싸여 있으며 이러한 항목들의 존재가 고차원 공간에서 문제
- 투영 도메인 이동 문제
- ZSL 및 GZSL 모델은 먼저 시맨틱 및 시각적 공간 간의 매핑 함수를 학습하기 위해 보이는 클래스의 데이터 샘플을 활용한다. 그런 다음 학습된 매핑 함수는 시각적 공간에서 시맨틱 공간으로 보이지 않는 클래스 이미지를 투영하는 데 사용
- 한편 시각적 및 시맨틱 공간은 두 가지 다른 엔터티이다. 또한 보이는 및 보이지 않는 클래스의 데이터 샘플은 일부 클래스에 대해 연관이 없을 수 있으며, 분포가 다를 수 있어 큰 도메인 갭이 발생
- 따라서 보이는 클래스의 시각적 특징만을 사용하여 임베딩 공간을 학습하면 보이지 않는 클래스에 대한 적응 없이 투영 도메인 이동 문제가 발생
- 따라서 편향을 피하고 결과적인 GZSL 모델의 효과를 보장하기 위해 정확한 매핑 함수를 학습하는 것이 중요
이상적인 편향되지 않은 매핑 함수이다. 이 함수는 보이는 및 보이지 않는 클래스의 시각적 샘플을 잠재 공간에서 각각의 시맨틱 특징 주변으로 밀어 넣는다.- 실제로 GZSL 작업에서는 훈련 및 테스트 샘플이 겹치지 않는다. 이로 인해 보이는 클래스에 대한 편향되지 않은 매핑 함수를 학습하게 되는데, 이 함수는 보이지 않는 클래스의 시각적 특징을 해당 시맨틱 특징에서 멀리 투영 한다 (그림 4 (b) 참조)
- 이는 훈련 중에 보이지 않는 클래스 데이터에 접근할 수 없기 때문이다. 이 문제를 극복하기 위해 추론 기반 방법은 보이는 클래스에서 추가적인 제약 조건이나 정보를 통합
- 투영 도메인 이동 문제를 완화하기 위해 여러 트랜스덕티브 기반 방법이 개발
- 따라서 Detector 는 테스트 샘플이 보이는 클래스에 속하는지 아니면 보이지 않는 클래스에 속하는지를 식별하려고 한다. 이 전략은 테스트 샘플이 어떤 집합 (보이는 클래스 또는 보이지 않는 클래스)에 속하는지에 대한 정보를 제공함으로써 가능한 클래스 집합을 제한 한다
- Socher 등 [15]는 보이지 않는 클래스가 보이는 클래스와 관련하여 분포 밖으로 투영된다고 생각했다. 보이지 않는 클래스의 데이터 샘플은 보이는 클래스의 분포에 대한 이상치로 취급된다.
여기서 대부분의 ZSL 방법은 이 문제를 효과적으로 해결하지 못했다. 이 문제를 완화하기 위해 교정 스태킹 [20], [74] 및 신규성 탐지기와 같은 여러 전략이 제안되었다.
- 교정 스태킹 [20] 방법은 다음 공식을 사용하여 보이는 및 보이지 않는 클래스에서 데이터 샘플을 인식하는 것 사이의 균형
- 탐지기는 테스트 샘플이 보이는 클래스에 속하는지 아니면 보이지 않는 클래스에 속하는지를 식별
- Socher 등 [15]은 보이지 않는 클래스가 보이는 클래스와 관련하여 분포 외부로 투영된다고 생각 , 보이지 않는 클래스의 데이터 샘플은 보이는 클래스의 분포에 대한 이상치로 취급
- Bhattaxharjee [73]는 오토인코더 기반 프레임워크를 개발하여 가능한 클래스 집합을 식별, 추가 정보, 즉 올바른 클래스 정보가 디코더에 부과되어 입력 샘플을 재구성 , 이후에는 엔트로피 기반 [76], 확률 기반 [75], [87], 거리 기반 [88], 클러스터 기반 [89] 및 매개변수 기반 이상 탐지 [51] 접근 방식이 개발되어 보이지 않는 클래스, 즉 OOD를 감지하는 데 사용
- Felix 등 [90]은 잠재 공간을 사용하여 테스트 샘플이 보이는 클래스에 속하는지 여부를 식별하기 위한 판별 모델을 학습
- Geng 등 [91]은 GZSL을 open set recognition (OSR) [9] 및 ZSL 작업으로 분해Review of GZSL Method(평가)
- 두가지 주요 문제
- 보이는 클래스에서 보이지 않는 클래스로 지식을 어떻게 전달할 것인가
- 보이지 않는 클래스의 레이블이 지정된 샘플에 액세스하지 않고도 보이는 및 보이지 않는 클래스의 이미지를 인식하기 위해 모델을 어떻게 학습할 것인가
- 방법
- 임베딩 기반 방법
- 보이는 클래스의 저수준 시각적 특징과 해당 시맨틱 벡터를 연결하기 위해 임베딩 공간을 학습
- 생성기반 방법
- 보이는 클래스의 샘플 및 양 클래스의 시맨틱 표현을 기반으로 보이지 않는 클래스의 이미지 또는 시각적 특징을 생성하는 모델을 학습
- 임베딩 기반 방법 (a)은 보이는 클래스의 시각적 및 시맨틱 특징을 공통 공간으로 투영하기 위해 임베딩 공간을 학습, 그런 다음 학습된 임베딩 공간을 사용하여 인식을 수행
- 반면에 생성 기반 방법 (b)은 보이는 클래스의 샘플에 대한 시맨틱 특징을 기반으로 생성 모델을 학습, 그런 다음 학습된 모델을 사용하여 보이지 않는 클래스의 시맨틱 특징을 사용하여 보이지 않는 클래스의 시각적 특징을 생성
- 임베딩 기반 방법
- 분포 외 탐지 기반 방법
- 분포 외 또는 이상치 탐지는 다른 사용 가능한 샘플과 이상하거나 현저하게 다른 데이터 샘플을 식별하는 것을 목표
- 클래스 간의 상위어-하위어 관계를 이용하여 보이지 않는 클래스의 객체가 가장 관련 있는 보이는 클래스 중 하나로 범주화될 것으로 예상
- 먼저 이상치 탐지 기술을 사용하여 보이는 클래스 인스턴스와 보이지 않는 클래스 인스턴스를 분리 ,그런 다음 도메인 전문가 분류기 (보이는/보이지 않는), 예를 들어 보이는 클래스의 표준 분류기 및 보이지 않는 클래스의 ZSL 방법과 같은,을 채택하여 보이는 클래스와 보이지 않는 클래스 데이터 샘플을 따로 분류
- 그래프 기반
- 그래프는 노드와 그들의 관계(간선)로 이루어진 데이터 구조로 일련의 객체를 모델링하는 데 유용
- 그래프 학습은 머신 러닝 기술을 활용하여 그래프의 속성을 임베딩 공간에서 동일한 차원의 특징 벡터로 매핑하는 데 사용
- 머신 러닝 기술은 그래프 기반 속성을 낮은 차원의 공간으로 투영하지 않고도 추출된 정보를 일련의 특징으로 변환
- 일반적으로 각 클래스는 그래프 기반 방법에서 노드로 표현된다. 각 노드는 다른 노드(즉, 클래스)와의 관계를 인코딩하는 간선을 통해 연결
- 문제
- 보이지 않는 클래스에 대한 시각적 예제 없이 구조화된 정보와 복잡한 관계를 사용하여 분류기를 학습하는 것은 어려운 문제
- 그래프 기반 정보 사용은 모델의 복잡성을 증가
여기서 b는 재구성 계수를 포함하며 k는 1,...., Cs+Cu 이다. 클래스 간의 관계를 학습한 후에 두 공간의 공유 재구성 계수를 학습하여 보이지 않는 클래스의 이미지 프로토 타입을 합성한다. 재구성 프로세스 중에 적은 수의 관련 클래스를 선택하기 위해 정규화 용어가 도입되었다.재구성 계수는 시맨틱 프로토 타입에서 이미지 프로토 타입으로 지식을 전달하기 위해 공유된다.
- 메타 러닝 기반 방법
- 메타 러닝 또는 학습 to 학습으로도 알려진 메타 러닝은 다른 학습 알고리즘으로부터 학습하는 학습 패러다임의 하위 집합
- 모델을 개발하면서 오버피팅 문제를 피하기 위해 보조 작업의 집합에서 전송 가능한 지식을 추출하는 것을 목표
- 특정 데이터 세트에 대한 최적의 학습 알고리즘을 식별하는 데 도움
- 과정
- 메타 러닝 기반 GZSL 방법은 훈련 클래스를 지원 및 쿼리로 나누어 보이는 클래스와 보이지 않는 클래스에 해당하는 두 세트로 나눈
- 서포트 및 쿼리 세트에서 클래스를 무작위로 선택하여 다양한 작업을 훈련한다
- 이 메커니즘은 메타 러닝 방법이 보이는 클래스에서 보이지 않는 클래스로 지식을 전달하여 편향 문제를 완화하는데 도움을 준다.
- 어텐션 기반 방법
- 전역 시각적 특징과 의미 벡터 간의 임베딩 공간을 학습하는 것과는 달리, 어텐션 기반 방법은 가장 중요한 이미지 영역을 학습하는 데 중점
- 입력의 가장 중요한 부분, 예를 들면 문장이나 이미지의 일부분에 가중치를 추가하기 위해 딥러닝 모델에 학습 가능한 매개변수로 작용
- 세부적인 클래스를 식별하는 데 효과적이며, 이는 이러한 클래스가 몇 개의 영역에서만 식별 가능한 판별적인 정보를 포함하기 때문이다.
- 어텐션 메커니즘의 주요 장점 중 하나는 작업을 수행하는 데 필요한 중요한 정보를 인식하는 능력이다.
- 반면에 어텐션 메커니즘은 일반적으로 계산 부하를 증가시켜 어텐션 기반 방법의 실시간 구현에 영향을 미친다.
- 합성 학습 기반 방법 CL
- 알려진 객체의 조합, 예를 들어 물고기와 고양이, 및 원시 상태, 예를 들어 귀엽고 낡은 것,의 조합을 인식할 수 있는 모델을 학습하는 것을 목표양방향 학습 방법
- 이 범주는 양방향 투영을 활용하여 데이터 샘플의 정보를 완전히 활용하고 더 범용적인 투영을 학습하여 보이는 클래스와 보이지 않는 클래스를 구분하는 데 기여
- 시각적 및 의미적 공간을 공동으로 공유 부분 공간으로 투영하고 각 공간은 양방향 투영 학습을 통해 재구성
- 오토인코더 기반 방법
- 오토인코더(Autoencoders, AEs)는 표현 학습을 위해 NNs를 활용하는 비지도 학습 기술
- 저 데이터를 압축/인코딩하는 방법을 학습하고, 그런 다음 데이터를 가능한 한 원본 데이터와 가깝게 재구성하는 방법을 학습 , 먼저 임베딩 공간을 학습하기 위해 인코더를 활용하고, 그런 다음 디코더를 사용하여 입력을 재구
Research Gaps(한계)
- 주요 한계
- 도메인 변환 문제: GZSL에서의 주요 도전 과제 중 하나는 보이지 않는 클래스에 대한 시각적 샘플의 부족
- 대부분의 GZSL 방법은 이상적인 데이터 세트를 기반으로 하며, 이는 실제 상황에서는 현실적이지 않다. 이상적인 설정은 불확실한 간섭의 영향을 받는다.
- 도메인 분류 포함한 새로운 프레임워크 필요: 도메인 분류를 포함하면서 잠재 공간 학습에 의존하지 않는 새로운 프레임워크가 필요하다.
- 해결 방법 제안
- 지도 분류 문제 해결 기법 활용: GZSL 문제를 해결하기 위해 지도 분류 문제를 해결할 수 있는 기법들이 활용될 수 있다. 예를 들어, 앙상블 모델과 메타 러닝 전략이 있다.
- 앙상블 모델 활용: 앙상블 모델은 여러 개별 분류기를 사용하여 여러 예측을 생성하며 최종 결정은 예측을 결합하여 이루어진다. 최근에는 Felix et al. [74]이 GZSL의 다중 모달 측면을 탐구하기 위해 시각 및 의미적 분류기의 앙상블을 소개했다.
- 메타 러닝 전략 활용: 메타 러닝은 모델의 학습 능력을 여러 학습 에피소드의 경험을 기반으로 개선하려는 목표를 가지고 있다. GZSL은 또한 새로운 작업을 더 효과적으로 처리하기 위해 강화 학습 [235], [248], [249]과 결합될 수 있다.'
- 확장
- 다양한 측면에서의 GZSL 확장: GZSL은 여러 측면에서 확장될 수 있다. 이에는 멀티모달 학습 [85], [237], [238], 멀티 레이블 학습 [228], 멀티뷰 학습 [229], 쉽게 어려운 학습 인스턴스를 점진적으로 통합하는 약간 지도된 학습 [100], [138], 지속적 학습 [110], 롱테일 학습 [250], 퓨샷 학습에서 일부 클래스의 레이블이 지정된 작은 샘플을 사용하는 온라인 학습 [67] 등이 포함될 수 있다.
- 구체적인 문제점 및 도전 과제
- 계산 비용과 시간 소모: Seen 및 Unseen 클래스를 분리하기 위해 이상 탐지 방법, Seen 클래스 샘플을 분류하는 지도 학습 모델, Unseen 클래스 샘플을 인식하는 ZSL 모델 등 여러 모델을 훈련해야 한다. 이로 인해 계산 비용 및 시간 소모가 크게 발생한다.
- Novelty Detector의 어려움: Unseen 클래스의 사전 정보가 없는 경우, Novelty Detector를 사용하여 Seen 클래스를 Unseen 클래스로부터 분리하는 것은 어려울 수 있다. 또한 Seen 및 Unseen 클래스 샘플 간에 겹치는 영역이 있을 수 있으며, 모델 매개변수를 조정하는 어려움이 있다.
- 시각적 또는 의미적 특징의 부족: 시각적 또는 의미적 특징이 충분히 차별화되지 않을 수 있다. 따라서 시각 및 의미적 공간의 정보를 결합하는 것이 필요하다.
- 편향 문제: 편향 문제는 잘못된 최종 예측으로 이어질 수 있다.
- 도전 과제 해결을 위한 접근: Dong 등 [251]은 테스트 이미지를 소스, 타겟 및 불확실한 공간으로 분류하여 불확실한 공간에 속하는 테스트 샘플을 분석하고 모호한 인스턴스를 분류하는 통계적 방법을 사용하는 방법을 제안했다.
- 트랜스포머 기반 언어 모델의 활용: 최근에는 트랜스포머 기반 언어 모델이 다양한 NLP 작업에서 우수한 성능을 보여주고 있다. GPT-2, GPT-3, CLIP, DALL-E 등은 ZSL 및 few-shot 설정에서 작업을 수행하는데 탁월한 성과를 보여주고 있다. 이러한 모델의 능력은 GZSL 작업에 활용될 수 있으며, 특히 레이블이 없는 대규모 텍스트 데이터 세트로부터 직접 학습하는 능력이 GZSL 작업에 유용할 수 있다.'
- Data 문제
- 의미론적 표현은 GZSL에서 보이는 클래스와 보이지 않는 클래스 사이의 격차를 해결하는 데 중요하다. 기존 데이터 세트는 주석 및 확장성에 문제가 있는 인간이 정의한 속성이나 큰 텍스트 말뭉치에서 자동으로 추출되어 노이즈를 유발하는 단어 벡터에 의존하는 경우가 많다. 특히 세분화된 시나리오에서는 이러한 데이터 세트에서 귀중한 지식을 추출하는 것이 어렵다.
- 오디오와 같은 대체 형식을 사용하면 데이터 품질이 향상될 수 있다. 식별 가능한 의미론적 속성 벡터를 자동으로 생성하고, 다양한 의미론적 공간을 탐색하거나, 다양한 의미론적 임베딩을 결합하여 표시된 클래스와 보이지 않는 클래스 간의 관계를 정확하게 캡처하고 투영 도메인 이동 및 편향 문제를 해결하는 기술을 개발하는 것이 필수적이다.
2024.01.15 - [AI] - Train Once, Test Anywhere : Zero-Shot Learning for Text Classification
2024.01.15 - [AI] - Transformer - Encoder(어텐션 메커니즘)
반응형
'AI' 카테고리의 다른 글
Scikit-Learn Machine Learning - 머신 러닝을 알아보자 (0) | 2024.01.20 |
---|---|
Recurrent Neural Network (0) | 2024.01.20 |
Seq2Seq(시퀀스 투 시퀀스) (0) | 2024.01.15 |
EDA를 왜 해야 할까? (0) | 2024.01.15 |
Transformer - Encoder(어텐션 메커니즘) (0) | 2024.01.15 |