Descomposición de consultas
La descomposición de consultas es una técnica de RAG que divide una pregunta compleja del usuario con varias partes en varias subpreguntas más simples, recupera contexto para cada una y luego compone una respuesta final. En lugar de pedirle al recuperador que encuentre un único pasaje que lo responda todo a la vez, el sistema formula muchas preguntas acotadas en paralelo.
La descomposición de consultas es una técnica de RAG que divide una pregunta compleja del usuario con varias partes en varias subpreguntas más simples, recupera contexto para cada una y luego compone una respuesta final. En lugar de pedirle al recuperador que encuentre un único pasaje que lo responda todo a la vez, el sistema formula muchas preguntas acotadas en paralelo.
Por qué es importante
Los usuarios reales hacen preguntas desordenadas: "¿Cuál es la diferencia entre LCP y FCP, y cuál importa más para el SEO móvil en 2026?". Un recuperador vectorial al que se le entrega esa consulta devuelve pasajes sobre LCP o FCP o SEO móvil o las tendencias de 2026, rara vez un único pasaje que cubra los cuatro. La descomposición de consultas divide la pregunta en subconsultas ("¿Qué es LCP?", "¿Qué es FCP?", "LCP frente a FCP", "SEO móvil Core Web Vitals 2026"), recupera por separado para cada una y permite que el modelo componga la respuesta final a partir de un contexto rico. Los sistemas RAG en producción de Perplexity, Glean y Anthropic usan alguna forma de descomposición para las preguntas complejas, y las pruebas de LangChain de 2024 muestran ganancias de precisión del 15% al 25% en preguntas y respuestas de múltiples saltos.
Cómo funciona
1. Llamada al LLM descomponedor: un modelo pequeño toma la consulta del usuario y genera entre 2 y 5 subpreguntas. Prompt: "Divide esta pregunta en el mínimo de subpreguntas necesarias para responderla por completo".
2. Recuperación en paralelo: cada subpregunta pasa por el recuperador (vectorial, híbrido o por palabras clave) de forma independiente.
3. Agregación de contexto: los pasajes recuperados de todas las subpreguntas se combinan en un único bloque de contexto.
4. Generación de la respuesta final: el modelo principal ve la pregunta original más todo el contexto recuperado y escribe una respuesta unificada.
5. Paso de síntesis opcional: para las preguntas de múltiples saltos, un paso intermedio compone respuestas parciales antes de la generación final.
Variantes
Descomposición en paralelo: todas las subpreguntas se ejecutan a la vez. Rápida, buena para preguntas cuyas partes son independientes.
Descomposición secuencial (múltiples saltos): las subpreguntas posteriores dependen de las respuestas anteriores. "¿Quién es el director ejecutivo del mayor competidor de inblog?" necesita responder primero "¿Quién es el mayor competidor de inblog?" y luego buscar el director ejecutivo de esa empresa.
Prompting de retroceso (step-back): antes de descomponer, el LLM formula una versión más abstracta de la pregunta para incorporar un contexto más amplio. Popularizado por Google Research en 2024.
HyDE (embeddings de documentos hipotéticos): genera primero una respuesta hipotética, la convierte en embedding y recupera; una alternativa ligera a la descomposición explícita.
Cuándo usarla
Preguntas comparativas: "X frente a Y", "Cuál es mejor para Z"
Razonamiento de múltiples saltos: "¿Quién fundó la empresa que adquirió Figma?"
Preguntas compuestas: "cómo y por qué" combinadas en una sola consulta.
Especificidad de cola larga: preguntas poco frecuentes para las que no existe una sola página fuente, pero varias páginas cubren cada una una parte.
Preguntas que mezclan conceptos: "SEO técnico para blogs de SaaS en coreano"
Cuándo no usarla
Preguntas simples de un solo dato: "¿Cuál es la capital de Francia?" no necesita descomposición; añade latencia y coste.
Aplicaciones con presupuesto limitado: la descomposición multiplica las llamadas al recuperador. Para chats de gran volumen, el impacto en el coste es real.
Dominios con respuestas sólidas en un solo documento: contratos legales, manuales de producto; un buen pasaje supera a cinco mediocres.
Compensaciones
Latencia: cada subpregunta es un viaje de ida y vuelta. La ejecución en paralelo ayuda, pero no lo elimina.
Coste del recuperador: las llamadas de búsqueda vectorial escalan de forma lineal con las subpreguntas.
Calidad del descomponedor: una mala descomposición produce malas recuperaciones. El prompt y el modelo del descomponedor importan tanto como el generador final.
Recuperación redundante: las subpreguntas a menudo se solapan y extraen los mismos pasajes una y otra vez. La eliminación de duplicados ayuda.
Errores comunes
Descomponer en exceso: dividir una pregunta simple en 10 subpreguntas desperdicia tokens y confunde al modelo final.
Descomponer sin anclaje: pasar subrespuestas en lugar de pasajes fuente permite que las alucinaciones se acumulen a través de los saltos.
Ignorar las dependencias: ejecutar en paralelo una pregunta de múltiples saltos cuando el segundo paso depende del primero da respuestas incorrectas.
Sin evaluación: sin una prueba de referencia, no puedes saber si la descomposición realmente ayudó frente al RAG de un solo paso de base.
Sources: