O que e Decomposicao de Consulta? | Glossario GEO

A decomposicao de consulta e uma tecnica de RAG que divide uma pergunta complexa e composta do usuario em varias subperguntas mais simples, recupera contexto para cada uma e depois compoe uma resposta final. Em vez de pedir ao recuperador que encontre uma unica passagem que responda tudo de uma vez, o sistema faz muitas perguntas restritas em paralelo.

Por que importa

Usuarios reais fazem perguntas confusas: "Qual e a diferenca entre LCP e FCP, e qual delas importa mais para SEO mobile em 2026?" Um recuperador vetorial que recebe essa consulta retorna passagens sobre LCP ou FCP ou SEO mobile ou tendencias de 2026 - raramente uma unica passagem que cobre as quatro. A decomposicao de consulta divide a pergunta em subconsultas ("O que e LCP?", "O que e FCP?", "LCP vs FCP", "Core Web Vitals de SEO mobile 2026"), recupera separadamente para cada uma e deixa o modelo costurar a resposta final a partir de um contexto rico. Sistemas de RAG em producao na Perplexity, na Glean e na Anthropic usam alguma forma de decomposicao para perguntas complexas, e os benchmarks de 2024 da LangChain mostram ganhos de 15 a 25% de precisao em QA multi-hop.

Como funciona

1. Chamada ao LLM decompositor: Um modelo pequeno pega a consulta do usuario e produz de 2 a 5 subperguntas. Prompt: "Divida esta pergunta no minimo de subperguntas necessarias para responde-la por completo."

2. Recuperacao paralela: Cada subpergunta passa pelo recuperador - vetorial, hibrido ou de palavras-chave - de forma independente.

3. Agregacao de contexto: As passagens recuperadas de todas as subperguntas sao combinadas em um unico bloco de contexto.

4. Geracao da resposta final: O modelo principal ve a pergunta original mais todo o contexto recuperado e escreve uma resposta unificada.

5. Etapa de sintese opcional: Para perguntas multi-hop, uma etapa intermediaria compoe respostas parciais antes da geracao final.

Variantes

Decomposicao paralela: Todas as subperguntas rodam simultaneamente. Rapida, boa para perguntas em que as partes sao independentes.

Decomposicao sequencial (multi-hop): As subperguntas posteriores dependem das respostas anteriores. "Quem e o CEO do maior concorrente da inblog?" precisa responder primeiro "Quem e o maior concorrente da inblog?" e, depois, buscar o CEO daquela empresa.

Step-back prompting: Antes de decompor, o LLM faz uma versao mais abstrata da pergunta para trazer um contexto mais amplo. Popularizado pela Google Research em 2024.

HyDE (Hypothetical Document Embeddings): Gere primeiro uma resposta hipotetica, faca o embedding dela e recupere - uma alternativa leve a decomposicao explicita.

Quando usar

Perguntas de comparacao: "X vs Y", "Qual e melhor para Z"

Raciocinio multi-hop: "Quem fundou a empresa que adquiriu a Figma?"

Perguntas compostas: "Como e por que" combinados em uma unica consulta.

Especificidade de cauda longa: Perguntas raras em que nao existe uma unica pagina de origem, mas varias paginas cobrem cada parte.

Perguntas que misturam conceitos: "SEO tecnico para blogs de SaaS em coreano"

Quando nao usar

Perguntas simples de fato unico: "Qual e a capital da Franca?" nao precisa de decomposicao - isso so adiciona latencia e custo.

Aplicacoes com orcamento limitado: A decomposicao multiplica as chamadas ao recuperador. Para chat de alto volume, o impacto no custo e real.

Dominios com respostas fortes em documento unico: Contratos juridicos, manuais de produto - uma boa passagem supera cinco passagens medianas.

Trade-offs

Latencia: Cada subpergunta e uma ida e volta. A execucao paralela ajuda, mas nao a elimina.

Custo do recuperador: As chamadas de busca vetorial escalam linearmente com o numero de subperguntas.

Qualidade do decompositor: Uma decomposicao ruim produz recuperacoes ruins. O prompt e o modelo do decompositor importam tanto quanto o gerador final.

Recuperacao redundante: As subperguntas costumam se sobrepor, puxando as mesmas passagens repetidamente. A deduplicacao ajuda.

Erros comuns

Decompor demais: Dividir uma pergunta simples em 10 subperguntas desperdica tokens e confunde o modelo final.

Decompor sem grounding: Passar adiante as sub-respostas em vez das passagens de origem permite que as alucinacoes se acumulem ao longo dos hops.

Ignorar dependencias: Rodar uma pergunta multi-hop em paralelo quando o segundo passo depende do primeiro gera respostas erradas.

Sem avaliacao: Sem um benchmark, voce nao consegue saber se a decomposicao realmente ajudou em comparacao com o RAG de tiro unico.

Fontes: