온디바이스 AI(On-Device AI)
개요
온디바이스 AI란 AI 추론(Inference) 연산을 원격 데이터센터의 GPU가 아닌, 사용자의 스마트폰·PC·IoT 기기 등 엣지(Edge) 디바이스 자체에서 수행하는 방식을 말한다. AI 트렌드 — 현재와 방향.md에서는 이를 "메인프레임에서 PC로 연산이 내려왔듯, 클라우드에서 엣지로 내려오는" 흐름으로 정의한다. 스케일링 법칙의 한계와 클라우드 구조의 구조적 문제가 이 전환을 가속하고 있다. AI 트렌드 — 현재와 방향.md
클라우드 구조의 3가지 치명적 한계
현재 AI가 일상에 완전히 녹아들지 못하는 이유는 연산이 클라우드에 집중되어 있기 때문이다. AI 트렌드 — 현재와 방향.md
| 한계 | 내용 |
|---|---|
| 비용의 한계 | 모든 사람의 일상적 질문과 센서 데이터를 클라우드 GPU로 처리하면 어떤 거대 기업도 파산한다 |
| 레이턴시의 한계 | 네트워크 왕복 시간 때문에 피지컬 AI에 필수적인 실시간 즉각 반응이 불가능하다 |
| 프라이버시 한계 | 로봇 카메라 영상·개인 대화 기록 등을 24시간 클라우드로 전송할 수 없다 |
모바일 혁명이 가능했던 이유는 "연산이 손 안에 있었기" 때문이다. 현재 AI 구조에서는 스마트폰이 그저 입출력 단말기일 뿐이며, 실제 추론은 수천만 원짜리 데이터센터 GPU에서 이루어진다. AI 트렌드 — 현재와 방향.md
모바일 혁명과의 구조적 비교
| 구분 | 모바일 혁명 | 현재 AI |
|---|---|---|
| 연산 위치 | 로컬 (스마트폰 자체) | 클라우드 (데이터센터 GPU) |
| 구조 | 연산과 센서가 내 손안에 존재 | 내 폰은 입출력 단말기일 뿐 |
| 결과 | 언제 어디서나 즉각적인 실행 가능 | 피지컬 AI가 일상에 스며들기엔 너무 무겁다 |
AI 트렌드 — 현재와 방향.md
온디바이스 AI를 가능하게 하는 3가지 기술 경로
① 모델 경량화 — [[slm|소형 언어 모델(SLM)]]
수천억 개 파라미터의 거대 모델 대신, 스마트폰 메모리(8~16GB)에서 구동 가능한 소형 모델과 최적화 기술이 급성장하고 있다. 대표 사례로는 Llama 3.2(1B/3B), Phi-3 Mini, 양자화(Quantization) 기술 등이 있으며, 맥북에서 70B 모델을 로컬 구동하는 것이 현실화되고 있다. AI 트렌드 — 현재와 방향.md
② NPU 통합 칩 아키텍처
데이터센터용 GPU가 아닌 엣지 디바이스에 특화된 칩 구조로, CPU·GPU·NPU를 하나로 묶고 메모리를 공유하여 에너지 효율을 극대화한다. Apple M 시리즈, Qualcomm Snapdragon X Elite가 대표적이다. 이 전환이 완성되면 반도체 수요의 중심이 소수의 데이터센터 GPU에서 수십억 대의 스마트폰·PC·IoT 기기에 탑재되는 엣지 AI 칩으로 이동하며, "이 시장의 지배자는 엔비디아가 아닐 수 있다"고 지적된다. AI 트렌드 — 현재와 방향.md
③ [[mamba-rwkv|비트랜스포머 아키텍처(Mamba & RWKV)]]
트랜스포머 아키텍처는 컨텍스트가 길어질수록 연산량이 제곱으로 늘어나 메모리를 엄청나게 소모하는 구조적 한계를 지닌다. Mamba, RWKV 등 선형(Linear) 모델은 연산량이 선형적으로 늘어나 메모리 효율이 극도로 높아 엣지 디바이스의 핵심 아키텍처 후보로 부상하고 있다. AI 트렌드 — 현재와 방향.md
하이브리드(클라우드 + 로컬) 에이전트 모델
모든 것을 클라우드로 보내는 대신, 역할을 분리하는 구조가 현실적인 전환 경로로 제시된다. AI 트렌드 — 현재와 방향.md
- 기기 내부 소형 모델(SLM): 화면 인식, 단순 대화, 로봇 제어 등 가벼운 일상적 판단을 즉각 처리
- 클라우드 대형 모델(LLM): 방대한 지식이 필요한 순간에만 선택적으로 호출
- 대표 사례: Apple Intelligence
뉴로모픽(Neuromorphic) 칩의 실용화
기존 폰 노이만 구조(메모리와 연산장치 분리)의 병목을 극복하기 위해, 인간의 뇌신경망 구조를 하드웨어적으로 모방한 뉴로모픽 칩이 등장하고 있다. 전력 소모를 극단적으로 줄이면서 병렬 연산을 수행하는 것이 목표다. AI 트렌드 — 현재와 방향.md
관련 개념 및 맥락
- 온디바이스 AI로의 전환은 추론 시간 스케일링(Test-Time Compute)의 추론 비용 증가 문제와 직결된다. 에이전트 시대에는 하나의 작업에 수십 번의 LLM 호출이 발생하므로, 추론 비용을 낮추는 것이 핵심 과제다. AI 트렌드 — 현재와 방향.md
- 트랜스포머가 가진 구조적 한계(환각, 컨텍스트 윈도우 문제)를 근본적으로 해결하기 위한 방향 중 하나로 월드 모델과 지속 학습 도입이 함께 논의된다. AI 트렌드 — 현재와 방향.md
- 소프트웨어 측면에서는 스케일링 법칙의 한계 도달 이후 AI 개발 방향이 다변화되는 흐름(AI 기업의 구조적 한계)과 맞닿아 있다. AI 트렌드 — 현재와 방향.md
- 현재의 '클라우드 + 무거운 GPU + 트랜스포머' 조합은 AI의 가능성을 증명하기 위한 "프로토타입"으로 묘사되며, 온디바이스 전환이 완성 단계로 나아가는 진정한 전장으로 제시된다. AI 트렌드 — 현재와 방향.md