/AI 트렌드
AI 트렌드

트랜스포머 아키텍처

High confidenceconceptedited by Cairni · 방금 · AIv1

개요

트랜스포머 아키텍처는 Google Brain이 2017년 발표한 논문 "Attention Is All You Need"에서 처음 제안되었다. 기존 순차 처리 방식(RNN, LSTM)의 한계를 극복하고, 셀프 어텐션(Self-Attention)과 병렬 처리를 핵심 메커니즘으로 채택하여 현대 대형 언어 모델의 기반이 되었다. AI 트렌드 — 현재와 방향 세션에서는 이를 "모든 것의 시작"으로 규정한다. AI 트렌드 — 현재와 방향.md


핵심 특징

기존 아키텍처 대비 혁신

  • 병렬 처리: RNN은 단어를 순서대로 처리했으나, 트랜스포머는 문장 전체를 동시에 계산한다. 이것이 스케일링 법칙(Scaling Laws)을 가능하게 한 핵심 요소다.
  • 투입량 확장성: 데이터와 파라미터를 늘릴수록 성능이 오르는 스케일링 가능한 구조를 가진다.
  • 범용성: 어떤 데이터든 시퀀스로 표현할 수 있으면 동일한 구조로 처리 가능하다.

범용 아키텍처로서의 확장

트랜스포머는 텍스트에 국한되지 않고 다양한 모달리티를 통합한다.

모달리티처리 방식
텍스트단어(토큰) 시퀀스
이미지픽셀 패치 시퀀스
음성스펙트로그램 시퀀스
영상시공간 패치 시퀀스
"어떤 데이터든 시퀀스로 표현할 수 있으면 어텐션으로 패턴을 학습할 수 있다" AI 트렌드 — 현재와 방향.md

셀프 어텐션의 원리

셀프 어텐션은 "이 단어가 저 단어와 얼마나 관련 있는가?"를 모든 단어 쌍에 대해 동시에 계산하는 메커니즘이다.

예시: "나는 어제 사과를 맛있게 먹었다"의 Self-Attention Map

나는어제사과를맛있게먹었다
나는0.920.030.120.050.48
어제0.040.880.060.030.35
사과를0.100.040.910.280.72
맛있게0.050.030.550.890.68
먹었다0.510.330.740.690.95

이 구조 덕분에 "먹었다"는 "사과를"과 "나는"을 동시에 참조하여 장거리 의존성을 학습한다. AI 트렌드 — 현재와 방향.md


GPT 추론 파이프라인과의 연결

GPT 추론 파이프라인에서 트랜스포머는 다음 5단계를 통해 텍스트를 생성한다.

  1. 1.토크나이징 — 텍스트를 숫자 ID(토큰)로 분해
  2. 2.임베딩 — 각 토큰을 수천 차원의 벡터 공간에 배치
  3. 3.셀프 어텐션 — 모든 토큰 쌍의 관계를 계산하여 문맥 파악
  4. 4.확률 분포 생성 (Softmax) — 어휘 전체에 대해 다음 토큰일 확률 계산
  5. 5.샘플링 — 확률에 따라 다음 토큰 선택 후 반복(자기회귀)

AI 트렌드 — 현재와 방향.md


인간 지능과의 근본적 차이

트랜스포머 vs. 인간 지능 비교에서 드러나듯, 트랜스포머는 뇌의 복제가 아니다.

구분인간의 뇌트랜스포머
효율성20W 에너지 / Few-shot 학습수십 메가와트 / 대규모 데이터 필요
체화된 인지물리적 세계와 상호작용하며 발달텍스트의 통계적 확률로만 세상 인식
학습과 추론실시간 학습과 추론이 동시에 진행학습 완료 후 가중치 동결(Frozen)
트랜스포머는 인간이 남긴 거대한 텍스트 속에서 패턴을 찾는 '외계 지능(Alien Intelligence)'이다. AI 트렌드 — 현재와 방향.md

이 구조적 특성은 환각(Hallucination)과 Lost in the Middle 문제의 근본 원인이기도 하다.


구조적 한계

  • 환각 문제: "가장 그럴듯한 다음 토큰 예측"이라는 특성상 자신 있게 틀린 답을 내놓을 수 있다. → 환각(Hallucination)
  • 컨텍스트 한계: 컨텍스트가 길어질수록 연산량이 제곱으로 증가하여 메모리를 과다 소모한다. → Mamba 아키텍처 등 대안 연구 동기
  • Lost in the Middle: 긴 컨텍스트에서 중간 부분 정보를 잘 기억하지 못하는 현상. → Lost in the Middle
  • 가중치 동결: 학습 완료 후 지식이 고정되어 실시간 업데이트가 불가능하다. → 지속 학습(Continual Learning) 연구 동기

AI 트렌드 — 현재와 방향.md


한계 극복을 위한 연구 방향

트랜스포머의 한계를 넘기 위한 기술적 돌파구로 다음이 논의된다.

AI 트렌드 — 현재와 방향.md


온디바이스 AI로의 전환과의 관계

현재의 클라우드 + 무거운 GPU + 트랜스포머 조합은 클라우드 AI vs. 온디바이스 AI 관점에서 AI 가능성을 증명하기 위한 '프로토타입'으로 평가된다. 온디바이스 AI로의 전환을 위해서는 트랜스포머를 대체하거나 경량화하는 소형 언어 모델(SLM) 및 비(非) 트랜스포머 아키텍처 연구가 핵심 과제다. AI 트렌드 — 현재와 방향.md


관련 항목

Made with CairniExplore public wikis →