jax (1) 썸네일형 리스트형 SELF-ATTENTION DOES NOT NEED O(n2) MEMORY Abstract 일반적으로 self-attention은 시퀀스 길이에 비례하는 제곱수의 메모리를 필요로 한다 하지만 이 논문에서 제안하는 Attention을 대체할 수 있는 알고리즘을 통해서 시퀀스 길이에 따라 고정된 양의 메모리O(1)만 필요로 하고 더 확장하면 로그 함수에 비례하는 메모리(O(logn))만을 필요로 한다. 또한, 이 알고리즘은 메모리 효율적인 방식으로 함수를 미분하는 방법도 제공합니다 Problem Standard Self attention Query 특정 요소에 주목해야 하는 정도를 결정 Key 주목해야 할 요소 Value 요소에 연관된 정보 연산 과정은 Q와 K 사이의 alignment score를 계산하고 그 score를 사용해서 value에 가중치로 사용을 한다. 가중치를 생성.. 이전 1 다음