소형 언어 모델(SLM, Small Language Model)
개요
소형 언어 모델(SLM)은 수천억 개의 파라미터를 가진 거대 언어 모델(LLM) 대신, 스마트폰이나 PC 등 엣지 디바이스의 제한된 메모리(8~16GB)에서 구동 가능하도록 설계된 경량화 언어 모델이다. 온디바이스 AI(On-Device AI) 전환을 가능하게 하는 핵심 기술 방향 중 하나다. AI 트렌드 — 현재와 방향.md
등장 배경
현재 주류 AI 구조는 클라우드(데이터센터 GPU)에서 추론이 이루어지는 방식으로, 다음과 같은 구조적 한계를 가진다.
- 비용의 한계 — 모든 사용자의 일상적 질문과 센서 데이터를 클라우드 GPU로 처리할 경우 어떤 거대 기업도 파산할 수 있는 비용이 발생한다.
- 레이턴시의 한계 — 네트워크 왕복 시간으로 인해 피지컬 AI에 필수적인 실시간 즉각 반응이 불가능하다.
- 프라이버시 한계 — 로봇 카메라 영상이나 개인 대화 기록을 24시간 클라우드로 전송하기 어렵다.
이러한 한계를 극복하기 위해, 연산을 클라우드에서 엣지로 끌어내리는 흐름이 가속화되고 있으며 SLM이 그 중심에 있다. AI 트렌드 — 현재와 방향.md
주요 사례
| 모델 | 파라미터 규모 | 특징 |
|---|---|---|
| Llama 3.2 | 1B / 3B | Meta 오픈소스. 엣지 디바이스 구동 목표 |
| Phi-3 Mini | 소형 | Microsoft의 경량 모델 |
| 맥북 로컬 70B 구동 | 70B (양자화) | 양자화 기술로 데스크톱급 기기에서 실행 가능 |
양자화(Quantization) 기술을 통해 모델 크기를 대폭 줄이면서도 성능 저하를 최소화하는 최적화 기술이 함께 발전하고 있다. AI 트렌드 — 현재와 방향.md
핵심 지원 기술
NPU 통합 칩 아키텍처
데이터센터용 GPU가 아닌 엣지 디바이스에 특화된 칩 구조로, CPU·GPU·NPU를 하나로 묶고 메모리를 공유하여 에너지 효율을 극대화한다.
- 대표 사례: Apple M 시리즈, Qualcomm Snapdragon X Elite AI 트렌드 — 현재와 방향.md
비트랜스포머 아키텍처
트랜스포머 아키텍처는 컨텍스트가 길어질수록 연산량이 제곱으로 증가하는 구조적 한계를 가진다. 비트랜스포머 아키텍처: Mamba & RWKV 등 연산량이 선형적으로 늘어나는 아키텍처는 메모리 효율이 극도로 높아 엣지 디바이스의 핵심이 될 것으로 전망된다. AI 트렌드 — 현재와 방향.md
하이브리드 에이전트 구조에서의 역할
SLM은 모든 것을 클라우드로 보내지 않는 하이브리드(클라우드 + 로컬) 에이전트 구조에서 핵심 역할을 담당한다.
- SLM(로컬)이 처리하는 것: 화면 인식, 단순 대화, 로봇 제어 등 가벼운 일상적 판단 → 기기 내부에서 즉각 처리
- LLM(클라우드)이 처리하는 것: 방대한 지식이 필요한 순간에만 호출
대표 사례: Apple Intelligence AI 트렌드 — 현재와 방향.md
반도체 시장에 대한 함의
SLM과 온디바이스 AI로의 전환이 완성될 경우, 반도체 수요의 중심은 소수의 데이터센터 GPU에서 수십억 대의 스마트폰, PC, IoT 기기에 탑재되는 엣지 AI 칩으로 이동할 것으로 분석된다. 이 시장의 지배자는 현재 데이터센터 GPU 시장을 장악한 엔비디아가 아닐 수 있다는 전망도 제기된다. AI 트렌드 — 현재와 방향.md
관련 개념
- 트랜스포머 아키텍처 — SLM이 경량화 대상으로 삼는 주류 아키텍처
- 스케일링 법칙(Scaling Laws) — 거대 모델 중심의 패러다임으로, SLM은 이에 대한 대안적 방향
- 추론 시간 스케일링(Test-Time Compute) — 추론 성능 향상의 또 다른 방향
- 월드 모델(World Model) — 물리적 세계와 상호작용하는 AI를 위한 개념으로, 온디바이스 SLM과 함께 Physical AI의 핵심
- 비트랜스포머 아키텍처: Mamba & RWKV — SLM의 엣지 구동을 가능하게 하는 아키텍처 대안
- 온디바이스 AI(On-Device AI) — SLM이 실현하는 상위 개념
- 환각(Hallucination) — LLM과 SLM 모두가 직면한 구조적 한계