GEO

에이전틱 RAG

에이전틱 RAG(Agentic RAG)는 고정 파이프라인이 아닌 LLM 에이전트가 무엇을 언제 어떻게 검색할지, 답변이 충분한지까지 스스로 결정하는 RAG 아키텍처입니다. 단일 쿼리 → 검색 → 답변 흐름 대신, 에이전트가 계획을 세우고, 여러 검색을 던지고, 자기 답변을 평가하고, 확신이 설 때까지 재시도합니다.

에이전틱 RAG(Agentic RAG)는 고정 파이프라인이 아닌 LLM 에이전트가 무엇을 언제 어떻게 검색할지, 답변이 충분한지까지 스스로 결정하는 RAG 아키텍처입니다. 단일 쿼리 → 검색 → 답변 흐름 대신, 에이전트가 계획을 세우고, 여러 검색을 던지고, 자기 답변을 평가하고, 확신이 설 때까지 재시도합니다.

왜 중요한가

클래식 RAG에는 천장이 있습니다: 한 쿼리, 한 검색, 한 답변. 단순 조회에는 충분하지만 복잡한 질문·모호한 쿼리·여러 문서를 거쳐야 하는 작업에서는 실패합니다. 에이전틱 RAG는 검색 과정 자체에 모델이 자율성을 가지도록 해 이 천장을 뚫습니다. 20242025년 LangChain·LlamaIndex·Anthropic 벤치마크는 멀티 문서 QA·사실 검증·리서치 과제에서 에이전틱 RAG가 바닐라 RAG를 2040% 상회한다고 보고합니다. Perplexity의 딥 리서치, ChatGPT의 브라우징, 실제로 작동하는 대부분의 엔터프라이즈 "문서와 대화하기" 시스템 뒤에 있는 구조입니다.

표준 RAG와의 차이

표준 RAG:

  1. 사용자가 질문
  2. 시스템이 질문을 임베딩하고 top-k 검색
  3. 모델이 검색된 문맥으로 답변 생성

원샷. 정적. 재시도 없음.

에이전틱 RAG:

  1. 사용자가 질문
  2. 에이전트 계획: "답하기 위해 무엇을 알아야 하는가?"
  3. 에이전트가 구체적 하위 쿼리로 검색 툴 호출
  4. 결과를 읽고 무엇이 부족한지 결정
  5. 정제된 쿼리로 다시 검색(루프)
  6. 충분하다고 판단되면 초안 작성
  7. 선택적으로 자기 비판 후 수정
  8. 최종 답변 전달

멀티 스텝. 적응적. 되돌아갈 수 있음.

핵심 구성 요소

Planner: 질문을 검색 단계로 쪼개는 LLM(종종 답변자와 동일).

검색 툴: 벡터 검색·키워드 검색·API 호출·DB 쿼리 — 에이전트가 골라 사용.

메모리: 이미 본 것을 추적해 중복 호출을 피함.

자기 비판 루프: 초안이 잘 근거됐는지 평가하고, 아니면 더 검색.

종료 조건: 확신 임계치, 스텝 예산, 또는 명시적 "충분함" 신호.

대표 패턴

ReAct(Reasoning + Acting): 에이전트가 한 스크래치패드 안에서 생각하기와 툴 호출을 번갈아 합니다. Yao 외 2022년 원조 에이전트 패턴.

Plan-and-execute: 먼저 멀티 스텝 계획을 적고 각 단계를 실행. 딥 리서치에 유리, 단순 질문엔 느림.

Self-RAG: 모델이 검색이 필요한지 자체를 동적으로 판단. 자명한 질문이면 검색을 아예 건너뜀.

멀티 에이전트 RAG: 전문화된 여러 에이전트(검색자·독자·비평가·작가)가 협력. 강력하지만 비쌈.

쓰는 경우

복잡한 리서치 작업: "2025년 4분기 FAANG 실적 트렌드 요약."

멀티 문서 사실 검증: 여러 출처에 걸쳐 주장 교차 확인.

모호한 질문: 정확한 검색이 모호성 해소에 의존할 때 ("어느 조던?").

고위험 출력: 법률·의료·금융 — 단일 검색이 중요한 문맥을 놓칠 수 있는 경우.

행동 통합 챗: 배운 내용을 바탕으로 이메일 전송·미팅 예약까지 수행하는 어시스턴트.

쓰지 않는 경우

단순 FAQ 조회: 한 번의 검색이면 충분. 에이전트 루프는 지연과 비용만 더함.

타이트한 지연 예산: 1초 목표의 챗 UI는 멀티 스텝 루프를 감당할 수 없음.

비용 민감한 대규모 볼륨: 루프 반복마다 추론 호출이 추가됨. 규모에서는 표준 RAG 대비 5~10배 비쌀 수 있음.

잘 색인된 소형 코퍼스: 데이터가 작아 단일 밀집 검색이 항상 올바른 구절을 찾는다면 복잡도 추가 금지.

트레이드오프

지연: 멀티 스텝 루프로 응답이 1초 이내가 아니라 5~30초.

비용: 단계마다 LLM 호출 + 검색 호출. 예산 계획 필수.

결정성: 같은 질문에 매번 다른 경로를 탈 수 있어 디버깅·재현이 어려움.

평가: 검색 계획이 동적이어서 "검색이 좋은가"를 측정하기 어렵습니다. 최종 답변을 평가하지 중간 결정을 평가하지 않습니다.

흔한 실수

단순 질문에 에이전트 강제: 과잉 설계로 비용만 부풀림.

스텝 예산 부재: 제약 없는 에이전트는 몇 분씩 루프 돌 수 있습니다. 5~10으로 제한.

메모리 부재: 과거 검색을 추적하지 않으면 작업을 반복합니다.

약한 Planner: 플래닝 LLM이 너무 작거나 프롬프트가 부실하면 계획이 나빠 루프가 낭비됩니다.

평가 생략: 에이전트 추적이 시끄러워 팀이 공식 평가를 건너뛰고, 그 결과 바닐라 RAG보다 실제로 나은지 모르는 상태가 됩니다.

Sources:

관련 인블로그 게시물

inblog에서 활용하기

inblog의 AI 어시스턴트는 블로그 포스트 생성 시 에이전틱 RAG 패턴을 사용해, 단일 쿼리 검색을 넘어 관련 기존 포스트·외부 공식 문서·사용자의 이전 글을 단계적으로 탐색합니다. 덕분에 초안이 '현재 블로그의 실제 맥락'을 반영해 브랜드 일관성이 높고, 일회성 생성 모델이 놓치는 크로스 레퍼런스와 인용을 자연스럽게 포함합니다.