/AI 트렌드
AI 트렌드

GPT 추론 파이프라인

High confidenceconceptedited by Cairni · 방금 · AIv1

개요

GPT 시리즈는 "다음 단어 맞추기"를 수조 번 반복하며 세상의 패턴을 학습한다. GPT는 정답을 아는 것이 아니라, 가장 그럴듯한 다음 조각을 계속 이어 붙이는 방식으로 동작한다. 이 과정은 크게 5단계 추론 파이프라인과 자기회귀 루프로 설명된다. AI 트렌드 — 현재와 방향.md


5단계 추론 과정

단계명칭설명
1토크나이징 (Tokenizing)텍스트를 숫자 ID(토큰)로 분해. 예: "나는 오늘" → [15, 2847, 391]
2임베딩 (Embedding)각 토큰을 수천 차원의 벡터 공간에 배치. 의미가 비슷한 단어는 가까운 위치에 놓인다.
3셀프 어텐션 (Self-Attention)모든 토큰 쌍의 관계를 계산하여 문맥을 파악. 수십 개의 어텐션 헤드가 병렬로 작동.
4확률 분포 생성 (Softmax)어휘 전체(~10만 개 단어)에 대해 다음 토큰일 확률을 계산.
5샘플링 (Sampling)확률에 따라 다음 토큰을 선택. Temperature로 창의성을 조절한 뒤 이 과정을 반복.

AI 트렌드 — 현재와 방향.md


자기회귀 루프 (Autoregressive Loop)

출력된 단어가 다시 입력으로 들어가는 '무한 꼬리물기' 구조다.

예시: "범인이 수진이라는 게 밝혀졌다. 범인인 [?]"

  1. 1.입력 문맥이 트랜스포머 아키텍처 신경망에 투입된다.
  2. 2.다음 단어 확률 분포가 출력된다 (예: 수진 85% / 철수 8% / 그 3%).
  3. 3.선택된 단어("수진")가 입력 문장 끝에 붙어 다시 신경망에 투입된다.
  4. 4.이 과정이 반복된다.

3단계 원리

  • 문맥 이해 (Attention): 셀프 어텐션(Self-Attention)이 '범인'이라는 단어와 앞서 언급된 '수진'의 강한 연결을 계산한다.
  • 확률 계산 (Prediction): 학습된 데이터를 바탕으로 이 문맥 다음에 올 가장 자연스러운 단어들의 확률을 계산한다. 정답을 아는 것이 아니라 확률을 계산할 뿐이다.
  • 자기회귀 (Autoregressive): 선택된 단어가 다시 입력 문장의 끝에 붙고, 전체 문장을 다시 신경망에 넣어 그 다음 단어를 예측한다.

AI 트렌드 — 현재와 방향.md


구조적 특성과 한계

GPT 추론 파이프라인의 "가장 그럴듯한 다음 토큰 예측"이라는 구조적 특성은 두 가지 중요한 한계를 낳는다.

  • 환각(Hallucination): 자신 있게 틀린 답을 내놓는 문제는 RAG나 파인튜닝으로 완화할 순 있어도 완전히 없앨 수 없다.
  • Lost in the Middle: 컨텍스트 윈도우가 길어질수록 중간 부분의 정보를 잘 기억하지 못하는 현상이 발생한다. 길게 넣는 것과 제대로 이해하는 것은 다르다.

AI 트렌드 — 현재와 방향.md


추론 비용 문제

o1/o3 추론 모델로 대표되는 추론 시간 스케일링(Test-Time Compute) 방식은 추론 시간을 늘려 성능을 향상시키지만, 추론 시간을 10배 늘리면 비용도 기하급수적으로 증가한다는 과제를 안고 있다.

에이전트 시대에는 하나의 작업에 수십 번의 LLM 호출이 발생하여, 사용자는 월 20달러를 내는데 인프라 비용은 200달러가 나오는 구조가 될 수 있다. 이 때문에 모든 회사가 추론 비용(Inference Cost)을 낮추는 데 사활을 걸고 있다. AI 트렌드 — 현재와 방향.md


관련 항목

Made with CairniExplore public wikis →