/AI 트렌드
AI 트렌드

온디바이스 AI(On-Device AI)

High confidenceconceptedited by Cairni · 방금 · AIv1

개요

온디바이스 AI란 AI 추론(Inference) 연산을 원격 데이터센터의 GPU가 아닌, 사용자의 스마트폰·PC·IoT 기기 등 엣지(Edge) 디바이스 자체에서 수행하는 방식을 말한다. AI 트렌드 — 현재와 방향.md에서는 이를 "메인프레임에서 PC로 연산이 내려왔듯, 클라우드에서 엣지로 내려오는" 흐름으로 정의한다. 스케일링 법칙의 한계와 클라우드 구조의 구조적 문제가 이 전환을 가속하고 있다. AI 트렌드 — 현재와 방향.md


클라우드 구조의 3가지 치명적 한계

현재 AI가 일상에 완전히 녹아들지 못하는 이유는 연산이 클라우드에 집중되어 있기 때문이다. AI 트렌드 — 현재와 방향.md

한계내용
비용의 한계모든 사람의 일상적 질문과 센서 데이터를 클라우드 GPU로 처리하면 어떤 거대 기업도 파산한다
레이턴시의 한계네트워크 왕복 시간 때문에 피지컬 AI에 필수적인 실시간 즉각 반응이 불가능하다
프라이버시 한계로봇 카메라 영상·개인 대화 기록 등을 24시간 클라우드로 전송할 수 없다

모바일 혁명이 가능했던 이유는 "연산이 손 안에 있었기" 때문이다. 현재 AI 구조에서는 스마트폰이 그저 입출력 단말기일 뿐이며, 실제 추론은 수천만 원짜리 데이터센터 GPU에서 이루어진다. AI 트렌드 — 현재와 방향.md


모바일 혁명과의 구조적 비교

구분모바일 혁명현재 AI
연산 위치로컬 (스마트폰 자체)클라우드 (데이터센터 GPU)
구조연산과 센서가 내 손안에 존재내 폰은 입출력 단말기일 뿐
결과언제 어디서나 즉각적인 실행 가능피지컬 AI가 일상에 스며들기엔 너무 무겁다

AI 트렌드 — 현재와 방향.md


온디바이스 AI를 가능하게 하는 3가지 기술 경로

① 모델 경량화 — [[slm|소형 언어 모델(SLM)]]

수천억 개 파라미터의 거대 모델 대신, 스마트폰 메모리(8~16GB)에서 구동 가능한 소형 모델과 최적화 기술이 급성장하고 있다. 대표 사례로는 Llama 3.2(1B/3B), Phi-3 Mini, 양자화(Quantization) 기술 등이 있으며, 맥북에서 70B 모델을 로컬 구동하는 것이 현실화되고 있다. AI 트렌드 — 현재와 방향.md

② NPU 통합 칩 아키텍처

데이터센터용 GPU가 아닌 엣지 디바이스에 특화된 칩 구조로, CPU·GPU·NPU를 하나로 묶고 메모리를 공유하여 에너지 효율을 극대화한다. Apple M 시리즈, Qualcomm Snapdragon X Elite가 대표적이다. 이 전환이 완성되면 반도체 수요의 중심이 소수의 데이터센터 GPU에서 수십억 대의 스마트폰·PC·IoT 기기에 탑재되는 엣지 AI 칩으로 이동하며, "이 시장의 지배자는 엔비디아가 아닐 수 있다"고 지적된다. AI 트렌드 — 현재와 방향.md

③ [[mamba-rwkv|비트랜스포머 아키텍처(Mamba & RWKV)]]

트랜스포머 아키텍처는 컨텍스트가 길어질수록 연산량이 제곱으로 늘어나 메모리를 엄청나게 소모하는 구조적 한계를 지닌다. Mamba, RWKV 등 선형(Linear) 모델은 연산량이 선형적으로 늘어나 메모리 효율이 극도로 높아 엣지 디바이스의 핵심 아키텍처 후보로 부상하고 있다. AI 트렌드 — 현재와 방향.md


하이브리드(클라우드 + 로컬) 에이전트 모델

모든 것을 클라우드로 보내는 대신, 역할을 분리하는 구조가 현실적인 전환 경로로 제시된다. AI 트렌드 — 현재와 방향.md

  • 기기 내부 소형 모델(SLM): 화면 인식, 단순 대화, 로봇 제어 등 가벼운 일상적 판단을 즉각 처리
  • 클라우드 대형 모델(LLM): 방대한 지식이 필요한 순간에만 선택적으로 호출
  • 대표 사례: Apple Intelligence

뉴로모픽(Neuromorphic) 칩의 실용화

기존 폰 노이만 구조(메모리와 연산장치 분리)의 병목을 극복하기 위해, 인간의 뇌신경망 구조를 하드웨어적으로 모방한 뉴로모픽 칩이 등장하고 있다. 전력 소모를 극단적으로 줄이면서 병렬 연산을 수행하는 것이 목표다. AI 트렌드 — 현재와 방향.md


관련 개념 및 맥락

  • 온디바이스 AI로의 전환은 추론 시간 스케일링(Test-Time Compute)추론 비용 증가 문제와 직결된다. 에이전트 시대에는 하나의 작업에 수십 번의 LLM 호출이 발생하므로, 추론 비용을 낮추는 것이 핵심 과제다. AI 트렌드 — 현재와 방향.md
  • 트랜스포머가 가진 구조적 한계(환각, 컨텍스트 윈도우 문제)를 근본적으로 해결하기 위한 방향 중 하나로 월드 모델지속 학습 도입이 함께 논의된다. AI 트렌드 — 현재와 방향.md
  • 소프트웨어 측면에서는 스케일링 법칙의 한계 도달 이후 AI 개발 방향이 다변화되는 흐름(AI 기업의 구조적 한계)과 맞닿아 있다. AI 트렌드 — 현재와 방향.md
  • 현재의 '클라우드 + 무거운 GPU + 트랜스포머' 조합은 AI의 가능성을 증명하기 위한 "프로토타입"으로 묘사되며, 온디바이스 전환이 완성 단계로 나아가는 진정한 전장으로 제시된다. AI 트렌드 — 현재와 방향.md
Made with CairniExplore public wikis →