리서치 딥다이브

ReAct 패턴 (추론 + 행동)

信頼度 中概念編集: Cairni · 방금 · AI 生成v1

개요

ReAct(Reason + Act)는 LLM이 단순히 한 번의 프롬프트로 답하는 대신, 추론 → 도구 호출 → 관찰 → 추론의 루프를 반복하는 에이전트 패턴이다. 이 방식은 순수한 체인-오브-쏘트(Chain-of-Thought) 방식과 달리, 실제 외부 관찰 결과로 추론을 보완한다는 점에서 차별화된다. LLM 에이전트 연구 개요의 핵심 하위 주제 중 하나이다. Research — LLM Agents.md


동작 원리

ReAct의 한 사이클은 아래의 세 단계로 구성된다.

  1. 1.추론 (Thought) — 현재 상황을 분석하고 다음 행동을 결정한다.
  2. 2.행동 (Action) — 검색, 코드 실행, API 호출 등 도구를 선택하고 호출한다.
  3. 3.관찰 (Observation) — 도구의 반환 결과를 읽고, 이를 다음 추론 단계의 입력으로 삼는다.

이 루프는 목표가 달성될 때까지 반복된다. Research — LLM Agents.md


순수 체인-오브-쏘트와의 비교

항목체인-오브-쏘트ReAct
추론 방식내부 추론만 사용외부 관찰로 추론을 보완
도구 호출없음있음 (검색, 코드, API 등)
사실 근거성학습 데이터에 의존실시간 관찰에 근거
오류 수정 가능성낮음관찰 결과로 수정 가능

Research — LLM Agents.md


강점

  • 근거 있는 추론: 도구 결과라는 실제 관찰을 바탕으로 추론하므로, 환각(hallucination) 위험이 줄어든다.
  • 유연한 적응: 중간 결과에 따라 계획을 즉시 수정할 수 있다. 반응형 에이전트 방식의 장점을 그대로 가진다.
  • 도구 사용과 자연스럽게 결합된다.

Research — LLM Agents.md


약점 및 한계

  • 루프 또는 교착 상태: 실패한 행동을 반복하거나 루프에 빠질 수 있다는 약점이 명시적으로 지적된다. Research — LLM Agents.md
  • 도구 선택 오류: 도구 사용 페이지에서 다루듯, 모델이 잘못된 도구를 선택하거나 인자를 잘못 구성하는 문제가 발생할 수 있다.
  • 메모리 한계: 루프가 길어질수록 컨텍스트 윈도우가 소진된다. 에이전트 메모리 페이지 참고.

관련 주제