AI 트렌드
셀프 어텐션(Self-Attention)
High confidenceconceptedited by Cairni · 방금 · AIv1
개요
셀프 어텐션(Self-Attention)은 트랜스포머 아키텍처의 핵심 구성 요소로, "이 단어가 저 단어와 얼마나 관련 있는가?" 라는 질문에 답하기 위해 문장 내 모든 단어 쌍의 관계를 동시에 계산하는 메커니즘이다. 2017년 Attention Is All You Need 논문(Google Brain)에서 도입되었다. ai-트렌드-현재와-방향-md
핵심 원리 3가지
- 1.병렬 처리 — RNN은 단어를 순서대로 처리했지만, 트랜스포머는 문장 전체를 동시에 계산한다. 이것이 스케일링 법칙(Scaling Laws)을 가능하게 한 핵심 구조적 요인이다.
- 2.전체 맥락 파악 — 어떤 단어든 다른 모든 단어와 직접 연결되어 장거리 의존성을 학습한다. 예컨대 "먹었다"는 "사과를"과 "나는"을 동시에 참조한다.
- 3.범용 아키텍처 — 텍스트(단어), 이미지(픽셀 패치), 음성(스펙트로그램) 등 어떤 데이터든 시퀀스로 변환하면 동일한 어텐션 구조가 작동한다.
Self-Attention Map 예시
아래는 "나는 어제 사과를 맛있게 먹었다"라는 문장에 대한 셀프 어텐션 가중치의 예시다. 값이 클수록 두 단어 사이의 관련성이 높은 것으로 계산된다.
| 나는 | 어제 | 사과를 | 맛있게 | 먹었다 | |
|---|---|---|---|---|---|
| 나는 | 0.92 | 0.03 | 0.12 | 0.05 | 0.48 |
| 어제 | 0.04 | 0.88 | 0.06 | 0.03 | 0.35 |
| 사과를 | 0.10 | 0.04 | 0.91 | 0.28 | 0.72 |
| 맛있게 | 0.05 | 0.03 | 0.55 | 0.89 | 0.68 |
| 먹었다 | 0.51 | 0.33 | 0.74 | 0.69 | 0.95 |
GPT 추론 파이프라인에서의 역할
셀프 어텐션은 GPT 추론 파이프라인의 3번째 단계에 해당한다. 토크나이징 → 임베딩 이후, 수십 개의 어텐션 헤드(Attention Head) 가 병렬로 작동하며 모든 토큰 쌍의 관계를 계산하여 문맥을 파악한다. 이 결과가 이후 Softmax 확률 분포 생성과 샘플링으로 이어진다. ai-트렌드-현재와-방향-md
한계
셀프 어텐션은 문장(시퀀스)이 길어질수록 연산량이 제곱(O(n²)) 으로 증가한다. 이는 다음과 같은 문제로 이어진다.
- Lost in the Middle: 컨텍스트 윈도우가 길어질 때 중간 부분의 정보를 잘 처리하지 못하는 현상.
- 온디바이스 배포의 어려움: 메모리 소모가 커서 온디바이스 AI(On-Device AI)나 소형 언어 모델(SLM) 환경에서 구동이 어렵다.
- 대체 아키텍처 연구 촉진: 이 한계를 극복하기 위해 연산량이 선형적으로 증가하는 Mamba 아키텍처 등 비(非) 트랜스포머 계열 연구가 활발히 진행되고 있다.
인간의 인지와의 비교
셀프 어텐션의 "인지적 집중"이라는 특성과 대규모 군집에서 발생하는 창발성이 인간의 뇌와 유사해 보이지만, 트랜스포머 vs. 인간 지능 관점에서 이 둘은 근본적으로 다르다. 트랜스포머는 뇌의 복제가 아니라 인간이 남긴 거대한 텍스트 속에서 패턴을 찾는 '외계 지능(Alien Intelligence)' 으로 정의된다. ai-트렌드-현재와-방향-md
관련 페이지
- Attention Is All You Need (논문)
- 트랜스포머 아키텍처
- GPT 추론 파이프라인
- Mamba 아키텍처
- Lost in the Middle
- 온디바이스 AI(On-Device AI)
- 트랜스포머 vs. 인간 지능