Decomposicao de Consulta
A decomposicao de consulta e uma tecnica de RAG que divide uma pergunta complexa e composta do usuario em varias subperguntas mais simples, recupera contexto para cada uma e depois compoe uma resposta final. Em vez de pedir ao recuperador que encontre uma unica passagem que responda tudo de uma vez, o sistema faz muitas perguntas restritas em paralelo.
A decomposicao de consulta e uma tecnica de RAG que divide uma pergunta complexa e composta do usuario em varias subperguntas mais simples, recupera contexto para cada uma e depois compoe uma resposta final. Em vez de pedir ao recuperador que encontre uma unica passagem que responda tudo de uma vez, o sistema faz muitas perguntas restritas em paralelo.
Por que importa
Usuarios reais fazem perguntas confusas: "Qual e a diferenca entre LCP e FCP, e qual delas importa mais para SEO mobile em 2026?" Um recuperador vetorial que recebe essa consulta retorna passagens sobre LCP ou FCP ou SEO mobile ou tendencias de 2026 - raramente uma unica passagem que cobre as quatro. A decomposicao de consulta divide a pergunta em subconsultas ("O que e LCP?", "O que e FCP?", "LCP vs FCP", "Core Web Vitals de SEO mobile 2026"), recupera separadamente para cada uma e deixa o modelo costurar a resposta final a partir de um contexto rico. Sistemas de RAG em producao na Perplexity, na Glean e na Anthropic usam alguma forma de decomposicao para perguntas complexas, e os benchmarks de 2024 da LangChain mostram ganhos de 15 a 25% de precisao em QA multi-hop.
Como funciona
1. Chamada ao LLM decompositor: Um modelo pequeno pega a consulta do usuario e produz de 2 a 5 subperguntas. Prompt: "Divida esta pergunta no minimo de subperguntas necessarias para responde-la por completo."
2. Recuperacao paralela: Cada subpergunta passa pelo recuperador - vetorial, hibrido ou de palavras-chave - de forma independente.
3. Agregacao de contexto: As passagens recuperadas de todas as subperguntas sao combinadas em um unico bloco de contexto.
4. Geracao da resposta final: O modelo principal ve a pergunta original mais todo o contexto recuperado e escreve uma resposta unificada.
5. Etapa de sintese opcional: Para perguntas multi-hop, uma etapa intermediaria compoe respostas parciais antes da geracao final.
Variantes
Decomposicao paralela: Todas as subperguntas rodam simultaneamente. Rapida, boa para perguntas em que as partes sao independentes.
Decomposicao sequencial (multi-hop): As subperguntas posteriores dependem das respostas anteriores. "Quem e o CEO do maior concorrente da inblog?" precisa responder primeiro "Quem e o maior concorrente da inblog?" e, depois, buscar o CEO daquela empresa.
Step-back prompting: Antes de decompor, o LLM faz uma versao mais abstrata da pergunta para trazer um contexto mais amplo. Popularizado pela Google Research em 2024.
HyDE (Hypothetical Document Embeddings): Gere primeiro uma resposta hipotetica, faca o embedding dela e recupere - uma alternativa leve a decomposicao explicita.
Quando usar
Perguntas de comparacao: "X vs Y", "Qual e melhor para Z"
Raciocinio multi-hop: "Quem fundou a empresa que adquiriu a Figma?"
Perguntas compostas: "Como e por que" combinados em uma unica consulta.
Especificidade de cauda longa: Perguntas raras em que nao existe uma unica pagina de origem, mas varias paginas cobrem cada parte.
Perguntas que misturam conceitos: "SEO tecnico para blogs de SaaS em coreano"
Quando nao usar
Perguntas simples de fato unico: "Qual e a capital da Franca?" nao precisa de decomposicao - isso so adiciona latencia e custo.
Aplicacoes com orcamento limitado: A decomposicao multiplica as chamadas ao recuperador. Para chat de alto volume, o impacto no custo e real.
Dominios com respostas fortes em documento unico: Contratos juridicos, manuais de produto - uma boa passagem supera cinco passagens medianas.
Trade-offs
Latencia: Cada subpergunta e uma ida e volta. A execucao paralela ajuda, mas nao a elimina.
Custo do recuperador: As chamadas de busca vetorial escalam linearmente com o numero de subperguntas.
Qualidade do decompositor: Uma decomposicao ruim produz recuperacoes ruins. O prompt e o modelo do decompositor importam tanto quanto o gerador final.
Recuperacao redundante: As subperguntas costumam se sobrepor, puxando as mesmas passagens repetidamente. A deduplicacao ajuda.
Erros comuns
Decompor demais: Dividir uma pergunta simples em 10 subperguntas desperdica tokens e confunde o modelo final.
Decompor sem grounding: Passar adiante as sub-respostas em vez das passagens de origem permite que as alucinacoes se acumulem ao longo dos hops.
Ignorar dependencias: Rodar uma pergunta multi-hop em paralelo quando o segundo passo depende do primeiro gera respostas erradas.
Sem avaliacao: Sem um benchmark, voce nao consegue saber se a decomposicao realmente ajudou em comparacao com o RAG de tiro unico.
Fontes: