GEO

RAG Agentico

O RAG agentico e uma arquitetura de geracao aumentada por recuperacao na qual um agente LLM - e nao um pipeline fixo - decide o que recuperar, quando, como e se a resposta e boa o suficiente. Em vez de um unico fluxo de consulta -> recuperacao -> resposta, um agente planeja, dispara multiplas buscas, avalia suas proprias respostas parciais e tenta novamente ate ficar confiante.

O RAG agentico e uma arquitetura de geracao aumentada por recuperacao na qual um agente LLM - e nao um pipeline fixo - decide o que recuperar, quando, como e se a resposta e boa o suficiente. Em vez de um unico fluxo de consulta -> recuperacao -> resposta, um agente planeja, dispara multiplas buscas, avalia suas proprias respostas parciais e tenta novamente ate ficar confiante.

Por Que Importa

O RAG classico tem um teto: uma consulta, uma recuperacao, uma resposta. Isso funciona para buscas diretas, mas falha em perguntas complexas, consultas ambiguas ou tarefas que exigem ler multiplos documentos ao longo de etapas. O RAG agentico rompe esse teto ao dar ao modelo autonomia sobre o proprio processo de recuperacao. Benchmarks de 2024-2025 da LangChain, LlamaIndex e Anthropic mostram o RAG agentico superando o RAG comum em 20-40% em perguntas e respostas sobre multiplos documentos, verificacao de fatos e tarefas de pesquisa. E a arquitetura por tras da pesquisa profunda do Perplexity, da navegacao do ChatGPT e da maioria dos sistemas corporativos de "converse com seus documentos" que realmente funcionam.

Como Ele Difere do RAG Padrao

RAG padrao:

  1. Usuario faz uma pergunta
  2. Sistema gera o embedding da pergunta e recupera os top-k
  3. Modelo gera a resposta a partir do contexto recuperado

Uma unica tentativa. Estatico. Sem nova tentativa.

RAG agentico:

  1. Usuario faz uma pergunta
  2. Agente planeja: "O que eu preciso saber para responder a isso?"
  3. Agente chama a ferramenta de recuperacao com uma subconsulta especifica
  4. Agente le os resultados e decide o que esta faltando
  5. Agente chama a recuperacao novamente com consultas refinadas (loop)
  6. Agente decide quando ja tem o suficiente e elabora uma resposta
  7. Agente, opcionalmente, faz uma autocritica e revisa
  8. Resposta final entregue

Multietapas. Adaptativo. Pode retroceder.

Componentes Centrais

Planejador: Um LLM (frequentemente o mesmo que responde) que divide a pergunta em etapas de recuperacao.

Ferramentas de recuperacao: Busca vetorial, busca por palavra-chave, chamadas de API, consultas a banco de dados - o agente pode escolher entre elas.

Memoria: O agente rastreia o que ja viu para evitar chamadas redundantes.

Loop de autocritica: O agente avalia se sua resposta provisoria esta bem fundamentada e, se nao estiver, recupera mais informacoes.

Condicao de saida: Pode ser um limite de confianca, um orcamento de etapas ou um sinal explicito de "ja tenho o suficiente".

Padroes Comuns

ReAct (Reasoning + Acting): O agente alterna entre pensar e chamar ferramentas em um unico bloco de rascunho. O padrao agentico original de Yao et al., 2022.

Plan-and-execute: O agente escreve primeiro um plano de varias etapas e depois executa cada etapa. Melhor para pesquisa profunda; mais lento para perguntas simples.

Self-RAG: O modelo decide dinamicamente se a recuperacao e necessaria. Se a pergunta for trivial, ele pula a recuperacao por completo.

RAG multiagente: Multiplos agentes especializados (buscador, leitor, critico, redator) colaboram. Poderoso, porem caro.

Quando Usar

Tarefas de pesquisa complexas: "Resuma as tendencias de resultados do quarto trimestre de 2025 entre as FAANG."

Verificacao de fatos em multiplos documentos: Cruzar afirmacoes com diversas fontes.

Perguntas ambiguas: Onde a recuperacao correta depende da desambiguacao ("Qual Jordan?").

Saidas de alto risco: Juridica, medica, financeira - onde uma unica recuperacao pode deixar de fora um contexto critico.

Chat integrado a agentes: Assistentes que tambem executam acoes (enviar e-mail, agendar reuniao) com base no que aprendem.

Quando Nao Usar

Consultas simples de FAQ: Uma recuperacao basta; loops agenticos adicionam latencia e custo.

Orcamentos de latencia apertados: Interfaces de chat com meta de 1 segundo nao podem arcar com loops de agente multietapas.

Volume sensivel a custo: Cada iteracao do loop e mais uma chamada de inferencia. Em escala, o RAG agentico pode ser de 5 a 10 vezes mais caro que o RAG padrao.

Corpora pequenos e bem indexados: Se seus dados forem pequenos o suficiente para que uma unica recuperacao densa sempre encontre a passagem certa, nao adicione complexidade.

Compensacoes

Latencia: Loops multietapas significam que as respostas levam de 5 a 30 segundos, e nao menos de 1 segundo.

Custo: Cada etapa e uma chamada ao LLM mais uma chamada de recuperacao. Planeje o orcamento de acordo.

Determinismo: Sistemas agenticos sao mais dificeis de depurar e reproduzir, porque o agente pode seguir caminhos diferentes em execucoes diferentes.

Avaliacao: Medir "se a recuperacao e boa" e dificil quando o plano de recuperacao e dinamico. Voce avalia as respostas finais, nao as decisoes intermediarias.

Erros Comuns

Forcar agentes em perguntas simples: O exagero infla o custo sem melhorar a qualidade.

Sem orcamento de etapas: Um agente sem restricoes pode entrar em loop por minutos. Limite as etapas a 5-10.

Sem memoria: Sem rastrear recuperacoes passadas, o agente repete o trabalho.

Planejador fraco: Se o LLM de planejamento for pequeno demais ou mal instruido, os planos serao ruins e os loops desperdicarao chamadas.

Pular a avaliacao: Como os rastros do agente sao ruidosos, as equipes pulam a avaliacao formal - e entao nao conseguem dizer se o sistema e realmente melhor que o RAG comum.

Fontes: