AI 트렌드

셀프 어텐션(Self-Attention)

conceptedited by Cairni · 방금 · AIv1

개요

셀프 어텐션(Self-Attention)은 트랜스포머 아키텍처의 핵심 구성 요소로, "이 단어가 저 단어와 얼마나 관련 있는가?" 라는 질문에 답하기 위해 문장 내 모든 단어 쌍의 관계를 동시에 계산하는 메커니즘이다. 2017년 Attention Is All You Need 논문(Google Brain)에서 도입되었다. ai-트렌드-현재와-방향-md

핵심 원리 3가지

1.병렬 처리 — RNN은 단어를 순서대로 처리했지만, 트랜스포머는 문장 전체를 동시에 계산한다. 이것이 스케일링 법칙(Scaling Laws)을 가능하게 한 핵심 구조적 요인이다.
2.전체 맥락 파악 — 어떤 단어든 다른 모든 단어와 직접 연결되어 장거리 의존성을 학습한다. 예컨대 "먹었다"는 "사과를"과 "나는"을 동시에 참조한다.
3.범용 아키텍처 — 텍스트(단어), 이미지(픽셀 패치), 음성(스펙트로그램) 등 어떤 데이터든 시퀀스로 변환하면 동일한 어텐션 구조가 작동한다.

ai-트렌드-현재와-방향-md

Self-Attention Map 예시

아래는 "나는 어제 사과를 맛있게 먹었다"라는 문장에 대한 셀프 어텐션 가중치의 예시다. 값이 클수록 두 단어 사이의 관련성이 높은 것으로 계산된다.

	나는	어제	사과를	맛있게	먹었다
나는	0.92	0.03	0.12	0.05	0.48
어제	0.04	0.88	0.06	0.03	0.35
사과를	0.10	0.04	0.91	0.28	0.72
맛있게	0.05	0.03	0.55	0.89	0.68
먹었다	0.51	0.33	0.74	0.69	0.95

ai-트렌드-현재와-방향-md

GPT 추론 파이프라인에서의 역할

셀프 어텐션은 GPT 추론 파이프라인의 3번째 단계에 해당한다. 토크나이징 → 임베딩 이후, 수십 개의 어텐션 헤드(Attention Head) 가 병렬로 작동하며 모든 토큰 쌍의 관계를 계산하여 문맥을 파악한다. 이 결과가 이후 Softmax 확률 분포 생성과 샘플링으로 이어진다. ai-트렌드-현재와-방향-md

한계

셀프 어텐션은 문장(시퀀스)이 길어질수록 연산량이 제곱(O(n²)) 으로 증가한다. 이는 다음과 같은 문제로 이어진다.

Lost in the Middle: 컨텍스트 윈도우가 길어질 때 중간 부분의 정보를 잘 처리하지 못하는 현상.
온디바이스 배포의 어려움: 메모리 소모가 커서 온디바이스 AI(On-Device AI)나 소형 언어 모델(SLM) 환경에서 구동이 어렵다.
대체 아키텍처 연구 촉진: 이 한계를 극복하기 위해 연산량이 선형적으로 증가하는 Mamba 아키텍처 등 비(非) 트랜스포머 계열 연구가 활발히 진행되고 있다.

ai-트렌드-현재와-방향-md

인간의 인지와의 비교

셀프 어텐션의 "인지적 집중"이라는 특성과 대규모 군집에서 발생하는 창발성이 인간의 뇌와 유사해 보이지만, 트랜스포머 vs. 인간 지능 관점에서 이 둘은 근본적으로 다르다. 트랜스포머는 뇌의 복제가 아니라 인간이 남긴 거대한 텍스트 속에서 패턴을 찾는 '외계 지능(Alien Intelligence)' 으로 정의된다. ai-트렌드-현재와-방향-md

셀프 어텐션(Self-Attention)

개요

핵심 원리 3가지

Self-Attention Map 예시

GPT 추론 파이프라인에서의 역할

한계

인간의 인지와의 비교

관련 페이지