GEO

에이전틱 RAG

에이전틱 RAG(Agentic RAG)는 고정 파이프라인이 아닌 LLM 에이전트가 무엇을 언제 어떻게 검색할지, 답변이 충분한지까지 스스로 결정하는 RAG 아키텍처입니다. 단일 쿼리 → 검색 → 답변 흐름 대신, 에이전트가 계획을 세우고, 여러 검색을 던지고, 자기 답변을 평가하고, 확신이 설 때까지 재시도합니다.

에이전틱 RAG(Agentic RAG)는 고정 파이프라인이 아닌 LLM 에이전트가 무엇을 언제 어떻게 검색할지, 답변이 충분한지까지 스스로 결정하는 RAG 아키텍처입니다. 단일 쿼리 → 검색 → 답변 흐름 대신, 에이전트가 계획을 세우고, 여러 검색을 던지고, 자기 답변을 평가하고, 확신이 설 때까지 재시도합니다.

왜 중요한가

클래식 RAG에는 천장이 있습니다: 한 쿼리, 한 검색, 한 답변. 단순 조회에는 충분하지만 복잡한 질문·모호한 쿼리·여러 문서를 거쳐야 하는 작업에서는 실패합니다. 에이전틱 RAG는 검색 과정 자체에 모델이 자율성을 가지도록 해 이 천장을 뚫습니다. 20242025년 LangChain·LlamaIndex·Anthropic 벤치마크는 멀티 문서 QA·사실 검증·리서치 과제에서 에이전틱 RAG가 바닐라 RAG를 2040% 상회한다고 보고합니다. Perplexity의 딥 리서치, ChatGPT의 브라우징, 실제로 작동하는 대부분의 엔터프라이즈 "문서와 대화하기" 시스템 뒤에 있는 구조입니다.

표준 RAG와의 차이

표준 RAG:

  1. 사용자가 질문
  2. 시스템이 질문을 임베딩하고 top-k 검색
  3. 모델이 검색된 문맥으로 답변 생성

원샷. 정적. 재시도 없음.

에이전틱 RAG:

  1. 사용자가 질문
  2. 에이전트 계획: "답하기 위해 무엇을 알아야 하는가?"
  3. 에이전트가 구체적 하위 쿼리로 검색 툴 호출
  4. 결과를 읽고 무엇이 부족한지 결정
  5. 정제된 쿼리로 다시 검색(루프)
  6. 충분하다고 판단되면 초안 작성
  7. 선택적으로 자기 비판 후 수정
  8. 최종 답변 전달

멀티 스텝. 적응적. 되돌아갈 수 있음.

핵심 구성 요소

Planner: 질문을 검색 단계로 쪼개는 LLM(종종 답변자와 동일).

검색 툴: 벡터 검색·키워드 검색·API 호출·DB 쿼리 — 에이전트가 골라 사용.

메모리: 이미 본 것을 추적해 중복 호출을 피함.

자기 비판 루프: 초안이 잘 근거됐는지 평가하고, 아니면 더 검색.

종료 조건: 확신 임계치, 스텝 예산, 또는 명시적 "충분함" 신호.

대표 패턴

ReAct(Reasoning + Acting): 에이전트가 한 스크래치패드 안에서 생각하기와 툴 호출을 번갈아 합니다. Yao 외 2022년 원조 에이전트 패턴.

Plan-and-execute: 먼저 멀티 스텝 계획을 적고 각 단계를 실행. 딥 리서치에 유리, 단순 질문엔 느림.

Self-RAG: 모델이 검색이 필요한지 자체를 동적으로 판단. 자명한 질문이면 검색을 아예 건너뜀.

멀티 에이전트 RAG: 전문화된 여러 에이전트(검색자·독자·비평가·작가)가 협력. 강력하지만 비쌈.

쓰는 경우

복잡한 리서치 작업: "2025년 4분기 FAANG 실적 트렌드 요약."

멀티 문서 사실 검증: 여러 출처에 걸쳐 주장 교차 확인.

모호한 질문: 정확한 검색이 모호성 해소에 의존할 때 ("어느 조던?").

고위험 출력: 법률·의료·금융 — 단일 검색이 중요한 문맥을 놓칠 수 있는 경우.

행동 통합 챗: 배운 내용을 바탕으로 이메일 전송·미팅 예약까지 수행하는 어시스턴트.

쓰지 않는 경우

단순 FAQ 조회: 한 번의 검색이면 충분. 에이전트 루프는 지연과 비용만 더함.

타이트한 지연 예산: 1초 목표의 챗 UI는 멀티 스텝 루프를 감당할 수 없음.

비용 민감한 대규모 볼륨: 루프 반복마다 추론 호출이 추가됨. 규모에서는 표준 RAG 대비 5~10배 비쌀 수 있음.

잘 색인된 소형 코퍼스: 데이터가 작아 단일 밀집 검색이 항상 올바른 구절을 찾는다면 복잡도 추가 금지.

트레이드오프

지연: 멀티 스텝 루프로 응답이 1초 이내가 아니라 5~30초.

비용: 단계마다 LLM 호출 + 검색 호출. 예산 계획 필수.

결정성: 같은 질문에 매번 다른 경로를 탈 수 있어 디버깅·재현이 어려움.

평가: 검색 계획이 동적이어서 "검색이 좋은가"를 측정하기 어렵습니다. 최종 답변을 평가하지 중간 결정을 평가하지 않습니다.

흔한 실수

단순 질문에 에이전트 강제: 과잉 설계로 비용만 부풀림.

스텝 예산 부재: 제약 없는 에이전트는 몇 분씩 루프 돌 수 있습니다. 5~10으로 제한.

메모리 부재: 과거 검색을 추적하지 않으면 작업을 반복합니다.

약한 Planner: 플래닝 LLM이 너무 작거나 프롬프트가 부실하면 계획이 나빠 루프가 낭비됩니다.

평가 생략: 에이전트 추적이 시끄러워 팀이 공식 평가를 건너뛰고, 그 결과 바닐라 RAG보다 실제로 나은지 모르는 상태가 됩니다.

Sources:

관련 인블로그 게시물