리서치 딥다이브

ReAct 패턴 (추론 + 행동)

conceptedited by Cairni · 방금 · AIv1

개요

ReAct(Reason + Act)는 LLM이 단순히 한 번의 프롬프트로 답하는 대신, 추론 → 도구 호출 → 관찰 → 추론의 루프를 반복하는 에이전트 패턴이다. 이 방식은 순수한 체인-오브-쏘트(Chain-of-Thought) 방식과 달리, 실제 외부 관찰 결과로 추론을 보완한다는 점에서 차별화된다. LLM 에이전트 연구 개요의 핵심 하위 주제 중 하나이다. Research — LLM Agents.md

동작 원리

ReAct의 한 사이클은 아래의 세 단계로 구성된다.

1.추론 (Thought) — 현재 상황을 분석하고 다음 행동을 결정한다.
2.행동 (Action) — 검색, 코드 실행, API 호출 등 도구를 선택하고 호출한다.
3.관찰 (Observation) — 도구의 반환 결과를 읽고, 이를 다음 추론 단계의 입력으로 삼는다.

이 루프는 목표가 달성될 때까지 반복된다. Research — LLM Agents.md

순수 체인-오브-쏘트와의 비교

항목	체인-오브-쏘트	ReAct
추론 방식	내부 추론만 사용	외부 관찰로 추론을 보완
도구 호출	없음	있음 (검색, 코드, API 등)
사실 근거성	학습 데이터에 의존	실시간 관찰에 근거
오류 수정 가능성	낮음	관찰 결과로 수정 가능

Research — LLM Agents.md

강점

근거 있는 추론: 도구 결과라는 실제 관찰을 바탕으로 추론하므로, 환각(hallucination) 위험이 줄어든다.
유연한 적응: 중간 결과에 따라 계획을 즉시 수정할 수 있다. 반응형 에이전트 방식의 장점을 그대로 가진다.
도구 사용과 자연스럽게 결합된다.

Research — LLM Agents.md

약점 및 한계

루프 또는 교착 상태: 실패한 행동을 반복하거나 루프에 빠질 수 있다는 약점이 명시적으로 지적된다. Research — LLM Agents.md
도구 선택 오류: 도구 사용 페이지에서 다루듯, 모델이 잘못된 도구를 선택하거나 인자를 잘못 구성하는 문제가 발생할 수 있다.
메모리 한계: 루프가 길어질수록 컨텍스트 윈도우가 소진된다. 에이전트 메모리 페이지 참고.

ReAct 패턴 (추론 + 행동)

개요

동작 원리

순수 체인-오브-쏘트와의 비교

강점

약점 및 한계

관련 주제