AI 트렌드

트랜스포머 아키텍처

conceptedited by Cairni · 방금 · AIv1

개요

트랜스포머 아키텍처는 Google Brain이 2017년 발표한 논문 "Attention Is All You Need"에서 처음 제안되었다. 기존 순차 처리 방식(RNN, LSTM)의 한계를 극복하고, 셀프 어텐션(Self-Attention)과 병렬 처리를 핵심 메커니즘으로 채택하여 현대 대형 언어 모델의 기반이 되었다. AI 트렌드 — 현재와 방향 세션에서는 이를 "모든 것의 시작"으로 규정한다. AI 트렌드 — 현재와 방향.md

핵심 특징

기존 아키텍처 대비 혁신

병렬 처리: RNN은 단어를 순서대로 처리했으나, 트랜스포머는 문장 전체를 동시에 계산한다. 이것이 스케일링 법칙(Scaling Laws)을 가능하게 한 핵심 요소다.
투입량 확장성: 데이터와 파라미터를 늘릴수록 성능이 오르는 스케일링 가능한 구조를 가진다.
범용성: 어떤 데이터든 시퀀스로 표현할 수 있으면 동일한 구조로 처리 가능하다.

범용 아키텍처로서의 확장

트랜스포머는 텍스트에 국한되지 않고 다양한 모달리티를 통합한다.

모달리티	처리 방식
텍스트	단어(토큰) 시퀀스
이미지	픽셀 패치 시퀀스
음성	스펙트로그램 시퀀스
영상	시공간 패치 시퀀스

"어떤 데이터든 시퀀스로 표현할 수 있으면 어텐션으로 패턴을 학습할 수 있다" AI 트렌드 — 현재와 방향.md

셀프 어텐션의 원리

셀프 어텐션은 "이 단어가 저 단어와 얼마나 관련 있는가?"를 모든 단어 쌍에 대해 동시에 계산하는 메커니즘이다.

예시: "나는 어제 사과를 맛있게 먹었다"의 Self-Attention Map

	나는	어제	사과를	맛있게	먹었다
나는	0.92	0.03	0.12	0.05	0.48
어제	0.04	0.88	0.06	0.03	0.35
사과를	0.10	0.04	0.91	0.28	0.72
맛있게	0.05	0.03	0.55	0.89	0.68
먹었다	0.51	0.33	0.74	0.69	0.95

이 구조 덕분에 "먹었다"는 "사과를"과 "나는"을 동시에 참조하여 장거리 의존성을 학습한다. AI 트렌드 — 현재와 방향.md

GPT 추론 파이프라인과의 연결

GPT 추론 파이프라인에서 트랜스포머는 다음 5단계를 통해 텍스트를 생성한다.

1.토크나이징 — 텍스트를 숫자 ID(토큰)로 분해
2.임베딩 — 각 토큰을 수천 차원의 벡터 공간에 배치
3.셀프 어텐션 — 모든 토큰 쌍의 관계를 계산하여 문맥 파악
4.확률 분포 생성 (Softmax) — 어휘 전체에 대해 다음 토큰일 확률 계산
5.샘플링 — 확률에 따라 다음 토큰 선택 후 반복(자기회귀)

AI 트렌드 — 현재와 방향.md

인간 지능과의 근본적 차이

트랜스포머 vs. 인간 지능 비교에서 드러나듯, 트랜스포머는 뇌의 복제가 아니다.

구분	인간의 뇌	트랜스포머
효율성	20W 에너지 / Few-shot 학습	수십 메가와트 / 대규모 데이터 필요
체화된 인지	물리적 세계와 상호작용하며 발달	텍스트의 통계적 확률로만 세상 인식
학습과 추론	실시간 학습과 추론이 동시에 진행	학습 완료 후 가중치 동결(Frozen)

트랜스포머는 인간이 남긴 거대한 텍스트 속에서 패턴을 찾는 '외계 지능(Alien Intelligence)'이다. AI 트렌드 — 현재와 방향.md

이 구조적 특성은 환각(Hallucination)과 Lost in the Middle 문제의 근본 원인이기도 하다.

구조적 한계

환각 문제: "가장 그럴듯한 다음 토큰 예측"이라는 특성상 자신 있게 틀린 답을 내놓을 수 있다. → 환각(Hallucination)
컨텍스트 한계: 컨텍스트가 길어질수록 연산량이 제곱으로 증가하여 메모리를 과다 소모한다. → Mamba 아키텍처 등 대안 연구 동기
Lost in the Middle: 긴 컨텍스트에서 중간 부분 정보를 잘 기억하지 못하는 현상. → Lost in the Middle
가중치 동결: 학습 완료 후 지식이 고정되어 실시간 업데이트가 불가능하다. → 지속 학습(Continual Learning) 연구 동기

AI 트렌드 — 현재와 방향.md

한계 극복을 위한 연구 방향

트랜스포머의 한계를 넘기 위한 기술적 돌파구로 다음이 논의된다.

추론 시간 스케일링(Test-Time Compute) — 학습 규모 대신 추론 시간을 늘려 성능 향상
월드 모델(World Model) — 물리 법칙·인과 관계를 시뮬레이션하는 모델
뉴로심볼릭 AI(Neuro-Symbolic AI) — 패턴 인식과 기호 논리의 결합으로 환각 근본 해결
지속 학습(Continual Learning) — 새로운 지식을 실시간으로 학습하는 능력
Mamba 아키텍처 등 선형(Linear) 모델 — 연산량을 선형적으로 줄여 엣지 디바이스 적합화

AI 트렌드 — 현재와 방향.md

온디바이스 AI로의 전환과의 관계

현재의 클라우드 + 무거운 GPU + 트랜스포머 조합은 클라우드 AI vs. 온디바이스 AI 관점에서 AI 가능성을 증명하기 위한 '프로토타입'으로 평가된다. 온디바이스 AI로의 전환을 위해서는 트랜스포머를 대체하거나 경량화하는 소형 언어 모델(SLM) 및 비(非) 트랜스포머 아키텍처 연구가 핵심 과제다. AI 트렌드 — 현재와 방향.md

트랜스포머 아키텍처

개요

핵심 특징

기존 아키텍처 대비 혁신

범용 아키텍처로서의 확장

셀프 어텐션의 원리

GPT 추론 파이프라인과의 연결

인간 지능과의 근본적 차이

구조적 한계

한계 극복을 위한 연구 방향

온디바이스 AI로의 전환과의 관계

관련 항목