리서치 딥다이브

LLM 에이전트 연구 위키 — 개요 (홈)

conceptedited by Cairni · 방금 · AIv1

LLM(대형 언어 모델)이 단순히 질문에 답하는 단계를 넘어 복잡한 작업을 스스로 수행하려면 무엇이 필요한가? 이 연구 위키는 그 질문, 즉 "단일 프롬프트를 넘어서, LLM 에이전트를 실제로 작동하게 만드는 것은 무엇인가?" 에 답하기 위해 논문·아티클·메모를 모아 정리한 결과물이다. Research — LLM Agents.md를 원본 출처로 삼아, 에이전트의 핵심 구성 요소인 추론-행동 루프, 외부 도구 연동, 메모리 설계, 계획 전략을 각각 분석하고, 출처 내에서 충돌하는 주장과 아직 풀리지 않은 질문들을 명시적으로 드러낸다. 이 페이지는 위키 전체의 허브로, 각 하위 주제 페이지로 연결되는 출발점이다. Research — LLM Agents.md

왜 "에이전트"인가 — 연구의 출발점

전통적인 LLM 사용 방식은 하나의 프롬프트를 입력하고 하나의 응답을 받는 것이다. 그러나 현실 세계의 복잡한 과제는 이 단일 왕복(single-turn) 구조로 해결하기 어렵다. 정보를 찾아야 하고, 코드를 실행해야 하며, 중간 결과에 따라 방향을 바꿔야 한다. 이러한 필요에서 등장한 개념이 LLM 에이전트다. LLM 에이전트 연구 개요 (홈)에서 정의하듯, 에이전트는 추론 → 행동 → 관찰의 루프를 반복하며 목표를 향해 나아가는 시스템이다. Research — LLM Agents.md

이 연구는 에이전트를 가능하게 하는 네 가지 핵심 축을 중심으로 전개된다: ① 추론과 행동을 결합하는 패턴(ReAct), ② 외부 세계와 연결하는 도구 사용, ③ 정보를 기억하고 활용하는 메모리 구조, ④ 작업을 조율하는 방식의 선택(계획형 vs. 반응형). 이 네 축은 서로 독립적이지 않다 — 각각이 다른 축의 한계를 보완하거나 새로운 문제를 만들어낸다.

추론과 행동의 결합 — ReAct 패턴

LLM 에이전트의 가장 영향력 있는 패턴 중 하나는 ReAct 패턴 (추론 + 행동)이다. ReAct는 Reason과 Act의 합성어로, 모델이 "생각하고(Thought) → 도구를 호출하고(Action) → 결과를 관찰하고(Observation) → 다시 생각하는" 루프를 반복한다. 순수한 체인-오브-쏘트(Chain-of-Thought) 방식이 모델 내부의 추론에만 의존하는 것과 달리, ReAct는 실제 외부 관찰 결과로 추론을 근거 있게 만든다는 점에서 중요한 진전이다. Research — LLM Agents.md

그러나 연구 노트는 ReAct의 약점도 명시적으로 지적한다. 모델이 실패한 행동을 반복하거나 루프에서 빠져나오지 못하는 문제가 발생할 수 있으며, 루프가 길어질수록 컨텍스트 창이 소진된다. 이는 메모리 문제와 직결된다. 또한 ReAct는 본질적으로 반응형 설계에 속하기 때문에, 명시적 계획이 필요한 복잡한 다단계 작업에서는 한계를 드러낼 수 있다.

외부 세계와의 연결 — 도구 사용

에이전트가 실제로 유용해지려면 훈련 데이터의 경계를 넘어야 한다. LLM 에이전트의 도구 사용은 이를 가능하게 하는 메커니즘이다. 검색 엔진, 코드 실행기, 외부 API 등 다양한 도구를 모델에 부여함으로써, 에이전트는 최신 정보에 접근하고, 수치 연산을 외부에 위임하며, 실제 시스템과 상호작용할 수 있게 된다. Research — LLM Agents.md

도구 사용의 핵심 과제는 신뢰성이다. 모델이 상황에 맞지 않는 도구를 선택하거나(잘못된 도구 선택), 올바른 도구를 골랐더라도 인자를 잘못 구성하는(인자 형식 오류) 문제가 자주 발생한다. 연구 노트는 여기서 흥미로운 긴장을 드러낸다: 구조화된 도구 스키마를 사용하면 인자 오류가 줄어든다는 주장과, 도구의 수가 너무 많으면 선택 정확도 자체가 떨어진다는 경고가 함께 기록되어 있다. Research — LLM Agents.md 이 두 주장은 서로 배타적이지는 않지만, "스키마를 엄격히 설계하는 것"만으로는 도구 수 증가에 따른 선택 혼란을 해결할 수 없음을 시사한다. 최적의 도구 설계 전략은 미해결 질문 중 하나로 남아 있다.

정보를 기억한다는 것 — 에이전트 메모리

에이전트가 여러 단계에 걸친 작업을 수행하거나 이전 세션의 맥락을 활용하려면 메모리가 필수다. 에이전트 메모리: 단기 vs. 장기는 이를 두 층위로 구분한다. Research — LLM Agents.md

단기 메모리는 모델의 컨텍스트 창 그 자체다. 현재 대화, 도구 호출 기록, 중간 관찰 결과가 모두 이 안에 쌓인다. 별도 인프라 없이 즉시 사용할 수 있고 순서와 구조가 자연스럽게 보존되지만, 창 크기에 엄격히 제한된다. ReAct 패턴처럼 루프를 반복하는 에이전트일수록 이 한계에 일찍 부딪힌다.

장기 메모리는 외부 저장소(주로 벡터 데이터베이스)에서 필요한 정보를 검색해오는 RAG(Retrieval-Augmented Generation) 방식으로 구현된다. 그런데 연구 노트는 현재 대부분의 에이전트 메모리 구현이 "검색 + 요약"에 불과하다고 냉정하게 지적한다. Research — LLM Agents.md 더 나아가, 메모리 접근 방식에 대한 정면충돌하는 두 주장이 기록되어 있다: 나이브한 벡터 검색은 정보 간의 시간적·구조적 관계를 놓친다는 비판과, 임베딩만으로도 장기 메모리에 충분하다는 반론이 그것이다. 이 불일치는 현재로서는 해소되지 않은 열린 문제다.

모순/충돌AI · 출처 클릭

임베딩(벡터 검색)만으로도 에이전트 장기 메모리를 충분히 구현할 수 있다.

한 노트는 나이브 벡터 검색이 시간적·구조적 관계를 놓친다고 비판하는 반면, 다른 논문은 임베딩만으로도 충분하다고 주장한다. 동일 주제에 대한 출처 내 직접 충돌로, 현재 미해결 상태.

Research — LLM Agents.md

작업을 어떻게 조율할 것인가 — 계획형 vs. 반응형

에이전트 설계의 가장 근본적인 선택 중 하나는 작업 조율 방식이다. 계획형 vs. 반응형 에이전트는 이 선택을 두 진영으로 정리한다. Research — LLM Agents.md

계획형 에이전트는 실행 전에 전체 작업을 명시적인 하위 단계로 분해한다. 흐름이 예측 가능하고 추적·감사(audit)하기 쉬운 것이 장점이다. 그러나 핵심 약점이 있다: 실행 도중 환경이 바뀌면 미리 세운 계획이 무너진다. 계획은 전제 조건이 성립할 때만 유효하기 때문이다.

반응형 에이전트의 대표 사례는 ReAct 패턴 (추론 + 행동)이다. 매 단계 관찰 결과를 바탕으로 다음 행동을 즉석에서 결정하므로 환경 변화에 유연하게 적응할 수 있다. 그러나 목표를 잃고 방황하거나 실패한 행동을 반복하는 루프에 빠질 위험이 있다. 도구 선택(LLM 에이전트의 도구 사용 참고)이나 메모리 관리(에이전트 메모리: 단기 vs. 장기 참고) 문제도 반응형 루프에서 더 두드러진다.

연구 노트는 어떤 상황에서 어느 방식이 더 적합한지에 대한 명확한 기준을 제시하지 않는다. 이것 역시 미해결 질문 중 하나로 남겨져 있다. Research — LLM Agents.md

충돌과 긴장 — 이 연구의 솔직한 지형도

이 연구 노트의 중요한 특징은 합의된 결론보다 긴장과 충돌을 솔직하게 드러낸다는 점이다. 주요 미해결 쟁점을 정리하면 다음과 같다.

메모리의 실체: 현재 에이전트 메모리 대부분이 검색 + 요약에 불과하다는 비판적 시각이 있으며, 임베딩 충분성 논쟁은 출처 간 직접 충돌로 남아 있다.
도구 설계의 딜레마: 스키마 구조화는 인자 오류를 줄이지만, 도구 수 증가는 선택 정확도를 낮춘다. 두 문제를 동시에 해결하는 전략은 아직 불명확하다.
ReAct의 루프 탈출 조건: 실패 반복을 방지하는 실질적 메커니즘이 무엇인지 명시되어 있지 않다.
계획형 vs. 반응형 선택 기준: 태스크 유형, 환경 변동성 등에 따른 선택 프레임워크가 부재하다.

이 모든 열린 질문은 미해결 질문 페이지에 체계적으로 정리되어 있다.

위키 구조 한눈에 보기

각 페이지 안내

페이지	핵심 내용
Research — LLM Agents.md	이 위키의 원본 출처 — 각 패턴 요약, 한계, 충돌 주장을 포함한 연구 노트
LLM 에이전트 연구 개요 (홈)	연구 질문과 네 가지 핵심 구성 요소를 한눈에 정리한 개요 페이지
ReAct 패턴 (추론 + 행동)	추론-행동-관찰 루프의 동작 원리, 체인-오브-쏘트 대비 강점, 루프 실패 약점
LLM 에이전트의 도구 사용	외부 도구 연동 방식, 신뢰성 문제, 스키마 설계 vs. 도구 수 딜레마
에이전트 메모리: 단기 vs. 장기	컨텍스트 창 기반 단기 메모리와 RAG 기반 장기 메모리, 임베딩 충분성 논쟁
계획형 vs. 반응형 에이전트	명시적 계획 분해 vs. 반응형 루프의 강점·약점·적합 맥락 비교
미해결 질문	루프 탈출, 임베딩 충분성, 도구 설계, 계획-반응형 선택 기준 등 열린 문제 목록

읽는 순서 제안

이 위키를 처음 접하는 독자라면 다음 순서를 권한다. 먼저 LLM 에이전트 연구 개요 (홈)로 전체 구조를 파악한 뒤, ReAct 패턴 (추론 + 행동)과 LLM 에이전트의 도구 사용을 읽어 에이전트의 동작 원리를 이해한다. 그 다음 에이전트 메모리: 단기 vs. 장기로 넘어가 메모리 설계의 한계와 충돌 쟁점을 살피고, 계획형 vs. 반응형 에이전트로 설계 전략의 선택 문제를 검토한다. 마지막으로 미해결 질문을 통해 이 연구가 아직 답하지 못한 지점을 확인하면 전체 그림이 완성된다. 원본 자료는 언제든 Research — LLM Agents.md에서 확인할 수 있다.