AI 트렌드

GPT 추론 파이프라인

conceptedited by Cairni · 방금 · AIv1

개요

GPT 시리즈는 "다음 단어 맞추기"를 수조 번 반복하며 세상의 패턴을 학습한다. GPT는 정답을 아는 것이 아니라, 가장 그럴듯한 다음 조각을 계속 이어 붙이는 방식으로 동작한다. 이 과정은 크게 5단계 추론 파이프라인과 자기회귀 루프로 설명된다. AI 트렌드 — 현재와 방향.md

5단계 추론 과정

단계	명칭	설명
1	토크나이징 (Tokenizing)	텍스트를 숫자 ID(토큰)로 분해. 예: "나는 오늘" → `[15, 2847, 391]`
2	임베딩 (Embedding)	각 토큰을 수천 차원의 벡터 공간에 배치. 의미가 비슷한 단어는 가까운 위치에 놓인다.
3	셀프 어텐션 (Self-Attention)	모든 토큰 쌍의 관계를 계산하여 문맥을 파악. 수십 개의 어텐션 헤드가 병렬로 작동.
4	확률 분포 생성 (Softmax)	어휘 전체(~10만 개 단어)에 대해 다음 토큰일 확률을 계산.
5	샘플링 (Sampling)	확률에 따라 다음 토큰을 선택. Temperature로 창의성을 조절한 뒤 이 과정을 반복.

AI 트렌드 — 현재와 방향.md

자기회귀 루프 (Autoregressive Loop)

출력된 단어가 다시 입력으로 들어가는 '무한 꼬리물기' 구조다.

예시: "범인이 수진이라는 게 밝혀졌다. 범인인 [?]"

1.입력 문맥이 트랜스포머 아키텍처 신경망에 투입된다.
2.다음 단어 확률 분포가 출력된다 (예: 수진 85% / 철수 8% / 그 3%).
3.선택된 단어("수진")가 입력 문장 끝에 붙어 다시 신경망에 투입된다.
4.이 과정이 반복된다.

3단계 원리

문맥 이해 (Attention): 셀프 어텐션(Self-Attention)이 '범인'이라는 단어와 앞서 언급된 '수진'의 강한 연결을 계산한다.
확률 계산 (Prediction): 학습된 데이터를 바탕으로 이 문맥 다음에 올 가장 자연스러운 단어들의 확률을 계산한다. 정답을 아는 것이 아니라 확률을 계산할 뿐이다.
자기회귀 (Autoregressive): 선택된 단어가 다시 입력 문장의 끝에 붙고, 전체 문장을 다시 신경망에 넣어 그 다음 단어를 예측한다.

AI 트렌드 — 현재와 방향.md

구조적 특성과 한계

GPT 추론 파이프라인의 "가장 그럴듯한 다음 토큰 예측"이라는 구조적 특성은 두 가지 중요한 한계를 낳는다.

환각(Hallucination): 자신 있게 틀린 답을 내놓는 문제는 RAG나 파인튜닝으로 완화할 순 있어도 완전히 없앨 수 없다.
Lost in the Middle: 컨텍스트 윈도우가 길어질수록 중간 부분의 정보를 잘 기억하지 못하는 현상이 발생한다. 길게 넣는 것과 제대로 이해하는 것은 다르다.

AI 트렌드 — 현재와 방향.md

추론 비용 문제

o1/o3 추론 모델로 대표되는 추론 시간 스케일링(Test-Time Compute) 방식은 추론 시간을 늘려 성능을 향상시키지만, 추론 시간을 10배 늘리면 비용도 기하급수적으로 증가한다는 과제를 안고 있다.

에이전트 시대에는 하나의 작업에 수십 번의 LLM 호출이 발생하여, 사용자는 월 20달러를 내는데 인프라 비용은 200달러가 나오는 구조가 될 수 있다. 이 때문에 모든 회사가 추론 비용(Inference Cost)을 낮추는 데 사활을 걸고 있다. AI 트렌드 — 현재와 방향.md

GPT 추론 파이프라인

개요

5단계 추론 과정

자기회귀 루프 (Autoregressive Loop)

구조적 특성과 한계

추론 비용 문제

관련 항목