트랜스포머 아키텍처
개요
트랜스포머 아키텍처는 Google Brain이 2017년 발표한 논문 "Attention Is All You Need"에서 처음 제안되었다. 기존 순차 처리 방식(RNN, LSTM)의 한계를 극복하고, 셀프 어텐션(Self-Attention)과 병렬 처리를 핵심 메커니즘으로 채택하여 현대 대형 언어 모델의 기반이 되었다. AI 트렌드 — 현재와 방향 세션에서는 이를 "모든 것의 시작"으로 규정한다. AI 트렌드 — 현재와 방향.md
핵심 특징
기존 아키텍처 대비 혁신
- 병렬 처리: RNN은 단어를 순서대로 처리했으나, 트랜스포머는 문장 전체를 동시에 계산한다. 이것이 스케일링 법칙(Scaling Laws)을 가능하게 한 핵심 요소다.
- 투입량 확장성: 데이터와 파라미터를 늘릴수록 성능이 오르는 스케일링 가능한 구조를 가진다.
- 범용성: 어떤 데이터든 시퀀스로 표현할 수 있으면 동일한 구조로 처리 가능하다.
범용 아키텍처로서의 확장
트랜스포머는 텍스트에 국한되지 않고 다양한 모달리티를 통합한다.
| 모달리티 | 처리 방식 |
|---|---|
| 텍스트 | 단어(토큰) 시퀀스 |
| 이미지 | 픽셀 패치 시퀀스 |
| 음성 | 스펙트로그램 시퀀스 |
| 영상 | 시공간 패치 시퀀스 |
"어떤 데이터든 시퀀스로 표현할 수 있으면 어텐션으로 패턴을 학습할 수 있다" AI 트렌드 — 현재와 방향.md
셀프 어텐션의 원리
셀프 어텐션은 "이 단어가 저 단어와 얼마나 관련 있는가?"를 모든 단어 쌍에 대해 동시에 계산하는 메커니즘이다.
예시: "나는 어제 사과를 맛있게 먹었다"의 Self-Attention Map
| 나는 | 어제 | 사과를 | 맛있게 | 먹었다 | |
|---|---|---|---|---|---|
| 나는 | 0.92 | 0.03 | 0.12 | 0.05 | 0.48 |
| 어제 | 0.04 | 0.88 | 0.06 | 0.03 | 0.35 |
| 사과를 | 0.10 | 0.04 | 0.91 | 0.28 | 0.72 |
| 맛있게 | 0.05 | 0.03 | 0.55 | 0.89 | 0.68 |
| 먹었다 | 0.51 | 0.33 | 0.74 | 0.69 | 0.95 |
이 구조 덕분에 "먹었다"는 "사과를"과 "나는"을 동시에 참조하여 장거리 의존성을 학습한다. AI 트렌드 — 현재와 방향.md
GPT 추론 파이프라인과의 연결
GPT 추론 파이프라인에서 트랜스포머는 다음 5단계를 통해 텍스트를 생성한다.
- 1.토크나이징 — 텍스트를 숫자 ID(토큰)로 분해
- 2.임베딩 — 각 토큰을 수천 차원의 벡터 공간에 배치
- 3.셀프 어텐션 — 모든 토큰 쌍의 관계를 계산하여 문맥 파악
- 4.확률 분포 생성 (Softmax) — 어휘 전체에 대해 다음 토큰일 확률 계산
- 5.샘플링 — 확률에 따라 다음 토큰 선택 후 반복(자기회귀)
AI 트렌드 — 현재와 방향.md
인간 지능과의 근본적 차이
트랜스포머 vs. 인간 지능 비교에서 드러나듯, 트랜스포머는 뇌의 복제가 아니다.
| 구분 | 인간의 뇌 | 트랜스포머 |
|---|---|---|
| 효율성 | 20W 에너지 / Few-shot 학습 | 수십 메가와트 / 대규모 데이터 필요 |
| 체화된 인지 | 물리적 세계와 상호작용하며 발달 | 텍스트의 통계적 확률로만 세상 인식 |
| 학습과 추론 | 실시간 학습과 추론이 동시에 진행 | 학습 완료 후 가중치 동결(Frozen) |
트랜스포머는 인간이 남긴 거대한 텍스트 속에서 패턴을 찾는 '외계 지능(Alien Intelligence)'이다. AI 트렌드 — 현재와 방향.md
이 구조적 특성은 환각(Hallucination)과 Lost in the Middle 문제의 근본 원인이기도 하다.
구조적 한계
- 환각 문제: "가장 그럴듯한 다음 토큰 예측"이라는 특성상 자신 있게 틀린 답을 내놓을 수 있다. → 환각(Hallucination)
- 컨텍스트 한계: 컨텍스트가 길어질수록 연산량이 제곱으로 증가하여 메모리를 과다 소모한다. → Mamba 아키텍처 등 대안 연구 동기
- Lost in the Middle: 긴 컨텍스트에서 중간 부분 정보를 잘 기억하지 못하는 현상. → Lost in the Middle
- 가중치 동결: 학습 완료 후 지식이 고정되어 실시간 업데이트가 불가능하다. → 지속 학습(Continual Learning) 연구 동기
AI 트렌드 — 현재와 방향.md
한계 극복을 위한 연구 방향
트랜스포머의 한계를 넘기 위한 기술적 돌파구로 다음이 논의된다.
- 추론 시간 스케일링(Test-Time Compute) — 학습 규모 대신 추론 시간을 늘려 성능 향상
- 월드 모델(World Model) — 물리 법칙·인과 관계를 시뮬레이션하는 모델
- 뉴로심볼릭 AI(Neuro-Symbolic AI) — 패턴 인식과 기호 논리의 결합으로 환각 근본 해결
- 지속 학습(Continual Learning) — 새로운 지식을 실시간으로 학습하는 능력
- Mamba 아키텍처 등 선형(Linear) 모델 — 연산량을 선형적으로 줄여 엣지 디바이스 적합화
AI 트렌드 — 현재와 방향.md
온디바이스 AI로의 전환과의 관계
현재의 클라우드 + 무거운 GPU + 트랜스포머 조합은 클라우드 AI vs. 온디바이스 AI 관점에서 AI 가능성을 증명하기 위한 '프로토타입'으로 평가된다. 온디바이스 AI로의 전환을 위해서는 트랜스포머를 대체하거나 경량화하는 소형 언어 모델(SLM) 및 비(非) 트랜스포머 아키텍처 연구가 핵심 과제다. AI 트렌드 — 현재와 방향.md
관련 항목
- Attention Is All You Need (논문)
- 셀프 어텐션(Self-Attention)
- GPT 추론 파이프라인
- 스케일링 법칙(Scaling Laws)
- AI 역사 타임라인 (2017~현재)
- 트랜스포머 vs. 인간 지능
- Mamba 아키텍처