스케일링 법칙(Scaling Laws)
개요
스케일링 법칙(Scaling Laws)이란 "더 크게, 더 많이, 더 강하게 → AGI에 도달한다" 는 가설로, 모델 파라미터 수·학습 데이터 양·투입 연산량을 늘릴수록 모델 성능이 예측 가능하게 향상된다는 경험적 원칙이다. AI 트렌드 — 현재와 방향 발표(SVIC Private Session, 2026.06.13)에서는 스케일링 법칙을 중심으로 AI 개발의 역사와 방향 전환을 분석한다. AI 트렌드 — 현재와 방향.md
스케일링의 기술적 토대
스케일링 법칙이 가능했던 핵심 이유는 Attention Is All You Need (논문)(Google Brain, 2017)에서 제안된 트랜스포머 아키텍처의 구조적 특성에 있다.
- 병렬 처리: 기존 RNN·LSTM의 순차 처리 한계를 극복하여 대규모 병렬 연산이 가능해짐
- 셀프 어텐션(Self-Attention): 모든 토큰 쌍의 관계를 동시에 계산하는 구조
- 투입량을 늘릴수록 성능이 오르는 스케일링 가능한 구조: 파라미터·데이터·컴퓨팅을 늘릴수록 성능이 향상됨
"어떤 데이터든 시퀀스로 표현할 수 있으면 어텐션으로 패턴을 학습할 수 있다" AI 트렌드 — 현재와 방향.md
스케일링의 시대 (2017~2022)
이 시기는 파라미터 수의 폭발적 증가로 대표된다.
| 시기 | 모델 | 파라미터 | 의의 |
|---|---|---|---|
| 2018.06 | GPT-1 | 117M | "사전학습 후 파인튜닝" 패러다임 제시 |
| 2018.10 | BERT | 340M | 구글 검색 적용, 트랜스포머 첫 실용화 |
| 2020.06 | GPT-3 | 175B | GPT-1 대비 1,500배 증가, 스케일링 법칙 실증 |
| 2021.01 | DALL-E | 12B | 멀티모달 확장의 첫 신호 |
| 2022.03 | InstructGPT | 175B + RLHF | ChatGPT의 직접적 전신 |
4년 만에 파라미터 수 1,500배 증가라는 수치가 스케일링 법칙의 위력을 상징적으로 보여준다. AI 트렌드 — 현재와 방향.md
스케일링의 한계 — 분기점
GPT 시리즈의 발전 과정에서 스케일링 법칙의 한계가 드러났다.
- GPT-4 (~1T 파라미터 추정, MoE, 2023.03): 스케일링의 정점이자, "더 키워도 성능이 기대만큼 안 오른다"는 한계가 드러난 분기점
- GPT-5 출시의 반복적인 지연: 업계 내부의 조용한 인정으로 해석됨
- The Silent Consensus: "같은 방식으로는 성능이 더 이상 오르지 않는다"
이 한계는 AGI(범용 인공지능) 개발 경쟁에서의 사실상 방향 전환을 촉발했다. AI 트렌드 — 현재와 방향.md
스케일링을 제약하는 구조적 문제들
단순한 파라미터 확장 외에도 여러 구조적 한계가 스케일링의 효용을 제한한다.
- 환각(Hallucination): "가장 그럴듯한 다음 토큰 예측"이라는 트랜스포머의 구조적 특성으로, 완전히 제거 불가
- Lost in the Middle: 컨텍스트 윈도우가 커져도 중간 정보를 제대로 활용하지 못하는 현상
- 데이터 고갈: 고품질 인터넷 텍스트가 사실상 소진되었고, 합성 데이터 의존 시 모델 붕괴(Model Collapse) 위험 존재
- 추론 비용 폭발: 에이전트 시대에는 하나의 작업에 수십 번의 LLM 호출이 발생하여 수익 구조 불균형 심화
AI 트렌드 — 현재와 방향.md
스케일링의 다변화 — 대안적 방향 4가지
트랜스포머의 한계를 넘기 위한 새로운 스케일링 방향이 모색되고 있다.
① 추론 시간 스케일링(Test-Time Compute) 학습 규모를 키우는 대신, 추론 시점에 더 오래 생각하게 만드는 방식. o1/o3 추론 모델이 대표적이다. 현재 가장 유효한 성능 향상 방법이나, 추론 비용 증가라는 과제를 안고 있다.
② 월드 모델(World Model) 텍스트 패턴 인식을 넘어 물리 법칙·공간 관계·인과 관계 등 세상 자체를 시뮬레이션하는 모델. 자율주행과 로봇 공학(Physical AI)을 위한 필수적인 다음 단계.
③ 뉴로심볼릭 AI(Neuro-Symbolic AI) 신경망의 패턴 인식 능력과 기호 논리의 정확한 추론 능력을 결합하여 환각 문제를 근본적으로 해결하는 방향.
④ 지속 학습(Continual Learning) 학습 완료 후 가중치가 고정되는 현재 모델의 한계를 극복하여, 인간처럼 새로운 것을 배우면서 기존 지식을 잊지 않는 능력.
AI 트렌드 — 현재와 방향.md
하드웨어 측면의 스케일링 전환
스케일링 법칙의 한계는 하드웨어 경쟁 구도에도 변화를 예고한다.
- 현재: 소수의 데이터센터 GPU 중심
- 전환 방향: 온디바이스 AI(On-Device AI)와 소형 언어 모델(SLM)로의 이동
- 관련 기술: Mamba 아키텍처 등 선형 RNN, 뉴로모픽 칩(Neuromorphic Chip), NPU 통합 칩 아키텍처
"이 전환이 완성되는 순간, 반도체 수요의 중심은 소수의 데이터센터 GPU에서 수십억 대의 스마트폰, PC, IoT 기기에 탑재되는 엣지 AI 칩으로 이동한다. 이 시장의 지배자는 엔비디아가 아닐 수 있다." AI 트렌드 — 현재와 방향.md
관련 개념
- AI 역사 타임라인 (2017~현재)
- 트랜스포머 vs. 인간 지능
- 클라우드 AI vs. 온디바이스 AI
- 결정적 전략 우위(Decisive Strategic Advantage)
- 자기 참조 루프(Recursive Self-Improvement)