/AI 트렌드
AI 트렌드

셀프 어텐션(Self-Attention)

High confidenceconceptedited by Cairni · 방금 · AIv1

개요

셀프 어텐션(Self-Attention)은 트랜스포머 아키텍처의 핵심 구성 요소로, "이 단어가 저 단어와 얼마나 관련 있는가?" 라는 질문에 답하기 위해 문장 내 모든 단어 쌍의 관계를 동시에 계산하는 메커니즘이다. 2017년 Attention Is All You Need 논문(Google Brain)에서 도입되었다. ai-트렌드-현재와-방향-md


핵심 원리 3가지

  1. 1.병렬 처리 — RNN은 단어를 순서대로 처리했지만, 트랜스포머는 문장 전체를 동시에 계산한다. 이것이 스케일링 법칙(Scaling Laws)을 가능하게 한 핵심 구조적 요인이다.
  2. 2.전체 맥락 파악 — 어떤 단어든 다른 모든 단어와 직접 연결되어 장거리 의존성을 학습한다. 예컨대 "먹었다"는 "사과를"과 "나는"을 동시에 참조한다.
  3. 3.범용 아키텍처 — 텍스트(단어), 이미지(픽셀 패치), 음성(스펙트로그램) 등 어떤 데이터든 시퀀스로 변환하면 동일한 어텐션 구조가 작동한다.

ai-트렌드-현재와-방향-md


Self-Attention Map 예시

아래는 "나는 어제 사과를 맛있게 먹었다"라는 문장에 대한 셀프 어텐션 가중치의 예시다. 값이 클수록 두 단어 사이의 관련성이 높은 것으로 계산된다.

나는어제사과를맛있게먹었다
나는0.920.030.120.050.48
어제0.040.880.060.030.35
사과를0.100.040.910.280.72
맛있게0.050.030.550.890.68
먹었다0.510.330.740.690.95

ai-트렌드-현재와-방향-md


GPT 추론 파이프라인에서의 역할

셀프 어텐션은 GPT 추론 파이프라인의 3번째 단계에 해당한다. 토크나이징 → 임베딩 이후, 수십 개의 어텐션 헤드(Attention Head) 가 병렬로 작동하며 모든 토큰 쌍의 관계를 계산하여 문맥을 파악한다. 이 결과가 이후 Softmax 확률 분포 생성과 샘플링으로 이어진다. ai-트렌드-현재와-방향-md


한계

셀프 어텐션은 문장(시퀀스)이 길어질수록 연산량이 제곱(O(n²)) 으로 증가한다. 이는 다음과 같은 문제로 이어진다.

  • Lost in the Middle: 컨텍스트 윈도우가 길어질 때 중간 부분의 정보를 잘 처리하지 못하는 현상.
  • 온디바이스 배포의 어려움: 메모리 소모가 커서 온디바이스 AI(On-Device AI)소형 언어 모델(SLM) 환경에서 구동이 어렵다.
  • 대체 아키텍처 연구 촉진: 이 한계를 극복하기 위해 연산량이 선형적으로 증가하는 Mamba 아키텍처 등 비(非) 트랜스포머 계열 연구가 활발히 진행되고 있다.

ai-트렌드-현재와-방향-md


인간의 인지와의 비교

셀프 어텐션의 "인지적 집중"이라는 특성과 대규모 군집에서 발생하는 창발성이 인간의 뇌와 유사해 보이지만, 트랜스포머 vs. 인간 지능 관점에서 이 둘은 근본적으로 다르다. 트랜스포머는 뇌의 복제가 아니라 인간이 남긴 거대한 텍스트 속에서 패턴을 찾는 '외계 지능(Alien Intelligence)' 으로 정의된다. ai-트렌드-현재와-방향-md


관련 페이지

Made with CairniExplore public wikis →