RAG Agentico
O RAG agentico e uma arquitetura de geracao aumentada por recuperacao na qual um agente LLM - e nao um pipeline fixo - decide o que recuperar, quando, como e se a resposta e boa o suficiente. Em vez de um unico fluxo de consulta -> recuperacao -> resposta, um agente planeja, dispara multiplas buscas, avalia suas proprias respostas parciais e tenta novamente ate ficar confiante.
O RAG agentico e uma arquitetura de geracao aumentada por recuperacao na qual um agente LLM - e nao um pipeline fixo - decide o que recuperar, quando, como e se a resposta e boa o suficiente. Em vez de um unico fluxo de consulta -> recuperacao -> resposta, um agente planeja, dispara multiplas buscas, avalia suas proprias respostas parciais e tenta novamente ate ficar confiante.
Por Que Importa
O RAG classico tem um teto: uma consulta, uma recuperacao, uma resposta. Isso funciona para buscas diretas, mas falha em perguntas complexas, consultas ambiguas ou tarefas que exigem ler multiplos documentos ao longo de etapas. O RAG agentico rompe esse teto ao dar ao modelo autonomia sobre o proprio processo de recuperacao. Benchmarks de 2024-2025 da LangChain, LlamaIndex e Anthropic mostram o RAG agentico superando o RAG comum em 20-40% em perguntas e respostas sobre multiplos documentos, verificacao de fatos e tarefas de pesquisa. E a arquitetura por tras da pesquisa profunda do Perplexity, da navegacao do ChatGPT e da maioria dos sistemas corporativos de "converse com seus documentos" que realmente funcionam.
Como Ele Difere do RAG Padrao
RAG padrao:
- Usuario faz uma pergunta
- Sistema gera o embedding da pergunta e recupera os top-k
- Modelo gera a resposta a partir do contexto recuperado
Uma unica tentativa. Estatico. Sem nova tentativa.
RAG agentico:
- Usuario faz uma pergunta
- Agente planeja: "O que eu preciso saber para responder a isso?"
- Agente chama a ferramenta de recuperacao com uma subconsulta especifica
- Agente le os resultados e decide o que esta faltando
- Agente chama a recuperacao novamente com consultas refinadas (loop)
- Agente decide quando ja tem o suficiente e elabora uma resposta
- Agente, opcionalmente, faz uma autocritica e revisa
- Resposta final entregue
Multietapas. Adaptativo. Pode retroceder.
Componentes Centrais
Planejador: Um LLM (frequentemente o mesmo que responde) que divide a pergunta em etapas de recuperacao.
Ferramentas de recuperacao: Busca vetorial, busca por palavra-chave, chamadas de API, consultas a banco de dados - o agente pode escolher entre elas.
Memoria: O agente rastreia o que ja viu para evitar chamadas redundantes.
Loop de autocritica: O agente avalia se sua resposta provisoria esta bem fundamentada e, se nao estiver, recupera mais informacoes.
Condicao de saida: Pode ser um limite de confianca, um orcamento de etapas ou um sinal explicito de "ja tenho o suficiente".
Padroes Comuns
ReAct (Reasoning + Acting): O agente alterna entre pensar e chamar ferramentas em um unico bloco de rascunho. O padrao agentico original de Yao et al., 2022.
Plan-and-execute: O agente escreve primeiro um plano de varias etapas e depois executa cada etapa. Melhor para pesquisa profunda; mais lento para perguntas simples.
Self-RAG: O modelo decide dinamicamente se a recuperacao e necessaria. Se a pergunta for trivial, ele pula a recuperacao por completo.
RAG multiagente: Multiplos agentes especializados (buscador, leitor, critico, redator) colaboram. Poderoso, porem caro.
Quando Usar
Tarefas de pesquisa complexas: "Resuma as tendencias de resultados do quarto trimestre de 2025 entre as FAANG."
Verificacao de fatos em multiplos documentos: Cruzar afirmacoes com diversas fontes.
Perguntas ambiguas: Onde a recuperacao correta depende da desambiguacao ("Qual Jordan?").
Saidas de alto risco: Juridica, medica, financeira - onde uma unica recuperacao pode deixar de fora um contexto critico.
Chat integrado a agentes: Assistentes que tambem executam acoes (enviar e-mail, agendar reuniao) com base no que aprendem.
Quando Nao Usar
Consultas simples de FAQ: Uma recuperacao basta; loops agenticos adicionam latencia e custo.
Orcamentos de latencia apertados: Interfaces de chat com meta de 1 segundo nao podem arcar com loops de agente multietapas.
Volume sensivel a custo: Cada iteracao do loop e mais uma chamada de inferencia. Em escala, o RAG agentico pode ser de 5 a 10 vezes mais caro que o RAG padrao.
Corpora pequenos e bem indexados: Se seus dados forem pequenos o suficiente para que uma unica recuperacao densa sempre encontre a passagem certa, nao adicione complexidade.
Compensacoes
Latencia: Loops multietapas significam que as respostas levam de 5 a 30 segundos, e nao menos de 1 segundo.
Custo: Cada etapa e uma chamada ao LLM mais uma chamada de recuperacao. Planeje o orcamento de acordo.
Determinismo: Sistemas agenticos sao mais dificeis de depurar e reproduzir, porque o agente pode seguir caminhos diferentes em execucoes diferentes.
Avaliacao: Medir "se a recuperacao e boa" e dificil quando o plano de recuperacao e dinamico. Voce avalia as respostas finais, nao as decisoes intermediarias.
Erros Comuns
Forcar agentes em perguntas simples: O exagero infla o custo sem melhorar a qualidade.
Sem orcamento de etapas: Um agente sem restricoes pode entrar em loop por minutos. Limite as etapas a 5-10.
Sem memoria: Sem rastrear recuperacoes passadas, o agente repete o trabalho.
Planejador fraco: Se o LLM de planejamento for pequeno demais ou mal instruido, os planos serao ruins e os loops desperdicarao chamadas.
Pular a avaliacao: Como os rastros do agente sao ruidosos, as equipes pulam a avaliacao formal - e entao nao conseguem dizer se o sistema e realmente melhor que o RAG comum.
Fontes: