AI 스케일링 시대 타임라인(2017~현재)
개요
AI 트렌드 — 현재와 방향.md에 따르면, 2017년 "Attention Is All You Need" 논문을 기점으로 AI는 세 개의 뚜렷한 챕터를 거쳐 왔다. 스케일링의 시대 → 레이스의 공개 → 선회(Pivot)가 그것이다. 각 챕터는 서로 다른 가설과 한계, 그리고 그에 대한 업계의 반응으로 구분된다.
챕터 0 — 모든 것의 시작 (2017)
"Attention Is All You Need" (Google Brain, 2017)
트랜스포머 아키텍처의 출발점이 된 이 논문은 다음 특성을 제시했다.
- 기존 순차 처리(RNN, LSTM)의 한계를 극복한 병렬 처리 구조
- 셀프 어텐션 메커니즘 도입
- 투입량을 늘릴수록 성능이 오르는 스케일링 가능한 구조
- 텍스트, 이미지(픽셀 패치), 음성(스펙트로그램), 영상(시공간 패치)을 동일한 방식으로 처리하는 범용 아키텍처
"어떤 데이터든 시퀀스로 표현할 수 있으면 어텐션으로 패턴을 학습할 수 있다" AI 트렌드 — 현재와 방향.md
챕터 1 — 스케일링의 시대 (2017~2022)
가설: 더 크게, 더 많이, 더 강하게 → AGI에 도달한다
| 시기 | 모델 | 파라미터 | 의미 |
|---|---|---|---|
| 2018.06 | GPT-1 | 117M | "사전학습 후 파인튜닝" 패러다임 제시. 트랜스포머 최초 대규모 적용. |
| 2018.10 | BERT | 340M | 구글 검색 적용. 양방향 이해 모델. 트랜스포머 첫 실용화. |
| 2020.06 | GPT-3 | 175B | GPT-1 대비 1,500배 증가. 스케일링 법칙 실증. 업계 충격. |
| 2021.01 | DALL-E | 12B | 텍스트로 이미지 생성. 트랜스포머가 멀티모달로 확장되는 첫 신호. |
| 2022.03 | InstructGPT | 175B + RLHF | 인간 피드백 강화학습(RLHF) 도입. ChatGPT의 직접적인 전신. |
4년 만에 파라미터 수 1,500배 증가가 이 시기의 핵심 지표다. AI 트렌드 — 현재와 방향.md
챕터 2 — 레이스가 공개되다 (2022~2024)
| 시기 | 모델 | 파라미터 | 의미 |
|---|---|---|---|
| 2022.11 | ChatGPT | ~175B | 5일 만에 100만, 2개월 만에 1억 유저. AI의 가능성이 대중에게 완전히 공개된 순간. |
| 2023.03 | GPT-4 | ~1T 추정(MoE) | 스케일링의 정점. 동시에 "더 키워도 성능이 기대만큼 안 오른다"는 한계가 드러난 분기점. |
| 2023.07 | Llama 2 | 7B / 13B / 70B | Meta 오픈소스 공개. "AI는 빅테크만 만든다"는 공식 붕괴. 생태계 폭발적 확장. |
| 2024.05 | GPT-4o | 미공개 | 인터페이스 혁신(음성·이미지 통합). 그러나 추론 성능 자체의 도약은 없었음. |
이 시기의 분기점은 The Silent Consensus로 요약된다.
"같은 방식으로는 성능이 더 이상 오르지 않는다." AI 트렌드 — 현재와 방향.md
GPT-5 출시의 반복적인 지연은 업계 내부의 조용한 인정으로 해석된다. 스케일링 법칙의 한계가 실질적으로 드러난 구간이다.
챕터 3 — 선회 (2024~현재)
스케일링 법칙의 한계에 직면한 업계는 여러 방향으로 선회했다.
| 시기 | 사건 | 의미 |
|---|---|---|
| 2024.09 | o1 출시 | 추론 시간 스케일링(Test-Time Compute)의 시작. 더 오래 생각하게 하여 성능 향상. |
| 2024.12~2025.01 | DeepSeek V3 / R1 충격 | 극단적 저비용으로 GPT-4급 성능 달성. 시장 패러다임 변화. |
| 2025 하반기 | 에이전트 전쟁 본격화 | 단순 챗봇에서 자율 수행 에이전트로 진화. |
| 2025.12 | 온디바이스 원년 | 온디바이스 AI 탑재 스마트폰·PC 보편화. |
| 2026.06 | Anthropic 개발 중단 촉구 | 자기 참조 루프(Recursive Self-Improvement) 위험 경고. |
AI 트렌드 — 현재와 방향.md
추론 시간 스케일링의 본질과 한계
- 성능 향상의 대부분은 "더 오래 생각하게 한 것"에서 기인한다.
- 추론 시간을 10배 늘리면 비용도 기하급수적으로 증가한다.
- 이 방식 역시 새로운 한계에 도달하고 있다.
자세한 내용은 추론 시간 스케일링(Test-Time Compute) 참조.
스케일링 이후의 기술적 돌파구
스케일링 한계를 넘기 위해 4가지 방향이 제시되고 있다. AI 트렌드 — 현재와 방향.md
| 방향 | 핵심 아이디어 | 관련 페이지 |
|---|---|---|
| 추론 시간 스케일링 | 학습 대신 추론 시 더 오래 생각하게 함 | Test-Time Compute |
| 월드 모델 | 물리 법칙·인과 관계를 시뮬레이션하는 모델 | 월드 모델 |
| 뉴로심볼릭 AI | 신경망 패턴 인식 + 기호 논리 추론 결합 | 뉴로심볼릭 AI |
| 지속 학습 | 새로운 것을 배우면서 기존 지식을 잊지 않는 능력 | 지속 학습 |
AGI 내러티브와 상품화로의 전환
공개적 내러티브("AGI를 어떻게 만드는지 안다")와 실제 기업 행동(구독 모델·B2B 엔터프라이즈 피벗) 사이의 괴리가 이 시기의 특징이다.
꿈이 좌절됐을 때 오히려 시장이 더 커지는 역설 — AGI에서 상품화로의 전환 AI 트렌드 — 현재와 방향.md
트랜스포머가 외계 지능(Alien Intelligence)으로서의 본질적 한계를 가지는 이유, 그리고 AI 기업의 구조적 한계는 별도 페이지에서 다룬다.