GEO

Décomposition de requête

La décomposition de requête est une technique de RAG qui scinde une question utilisateur complexe et en plusieurs parties en plusieurs sous-questions plus simples, récupère le contexte pour chacune, puis compose une réponse finale. Au lieu de demander au récupérateur de trouver un seul passage répondant à tout d'un coup, le système pose en parallèle de nombreuses questions ciblées.

La décomposition de requête est une technique de RAG qui scinde une question utilisateur complexe et en plusieurs parties en plusieurs sous-questions plus simples, récupère le contexte pour chacune, puis compose une réponse finale. Au lieu de demander au récupérateur de trouver un seul passage répondant à tout d'un coup, le système pose en parallèle de nombreuses questions ciblées.

Pourquoi c'est important

Les vrais utilisateurs posent des questions confuses : « Quelle est la différence entre LCP et FCP, et lequel compte le plus pour le SEO mobile en 2026 ? » Un récupérateur vectoriel auquel on soumet cette requête renvoie des passages portant soit sur le LCP, soit sur le FCP, soit sur le SEO mobile, soit sur les tendances de 2026, rarement un seul passage couvrant les quatre. La décomposition de requête scinde la question en sous-requêtes (« Qu'est-ce que le LCP ? », « Qu'est-ce que le FCP ? », « LCP vs FCP », « Core Web Vitals du SEO mobile en 2026 »), récupère séparément pour chacune et laisse le modèle assembler la réponse finale à partir d'un contexte riche. Les systèmes RAG en production chez Perplexity, Glean et Anthropic utilisent une forme de décomposition pour les questions complexes, et les benchmarks 2024 de LangChain montrent des gains de précision de 15 à 25 % sur les questions-réponses multi-sauts.

Comment cela fonctionne

1. Appel au LLM décomposeur : un petit modèle prend la requête de l'utilisateur et produit 2 à 5 sous-questions. Prompt : « Décompose cette question en le minimum de sous-questions nécessaires pour y répondre pleinement. »

2. Récupération parallèle : chaque sous-question passe indépendamment par le récupérateur, qu'il soit vectoriel, hybride ou par mot-clé.

3. Agrégation du contexte : les passages récupérés pour toutes les sous-questions sont combinés en un seul bloc de contexte.

4. Génération de la réponse finale : le modèle principal voit la question d'origine ainsi que tout le contexte récupéré et rédige une réponse unifiée.

5. Étape de synthèse facultative : pour les questions multi-sauts, une étape intermédiaire compose des réponses partielles avant la génération finale.

Variantes

Décomposition parallèle : toutes les sous-questions s'exécutent simultanément. Rapide, adaptée aux questions dont les parties sont indépendantes.

Décomposition séquentielle (multi-sauts) : les sous-questions ultérieures dépendent des réponses précédentes. « Qui est le PDG du plus grand concurrent d'inblog ? » nécessite d'abord de répondre à « Qui est le plus grand concurrent d'inblog ? », puis de rechercher le PDG de cette entreprise.

Step-back prompting : avant de décomposer, le LLM pose une version plus abstraite de la question pour faire remonter un contexte plus large. Popularisé par Google Research en 2024.

HyDE (Hypothetical Document Embeddings) : générez d'abord une réponse hypothétique, intégrez-la, puis récupérez, une alternative légère à la décomposition explicite.

Quand l'utiliser

Questions de comparaison : « X vs Y », « Lequel est le meilleur pour Z »

Raisonnement multi-sauts : « Qui a fondé l'entreprise qui a racheté Figma ? »

Questions composées : « comment et pourquoi » combinés dans une seule requête.

Spécificité de longue traîne : questions rares pour lesquelles aucune page source unique n'existe, mais où plusieurs pages couvrent chacune une partie.

Questions mêlant des concepts : « SEO technique pour les blogs SaaS en coréen »

Quand ne pas l'utiliser

Questions simples à fait unique : « Quelle est la capitale de la France ? » n'a pas besoin de décomposition, qui ajoute latence et coût.

Applications à budget limité : la décomposition multiplie les appels au récupérateur. Pour la conversation à fort volume, l'impact sur le coût est réel.

Domaines où une seule page apporte une réponse solide : contrats juridiques, manuels de produits, où un bon passage l'emporte sur cinq passages médiocres.

Compromis

Latence : chaque sous-question est un aller-retour. L'exécution parallèle aide mais ne l'élimine pas.

Coût du récupérateur : les appels à la recherche vectorielle augmentent linéairement avec le nombre de sous-questions.

Qualité du décomposeur : une mauvaise décomposition produit de mauvaises récupérations. Le prompt et le modèle du décomposeur comptent autant que le générateur final.

Récupération redondante : les sous-questions se chevauchent souvent, faisant remonter les mêmes passages à plusieurs reprises. La déduplication aide.

Erreurs courantes

Sur-décomposer : scinder une question simple en 10 sous-questions gaspille des tokens et embrouille le modèle final.

Décomposer sans ancrage : transmettre des sous-réponses au lieu des passages sources permet aux hallucinations de s'accumuler d'un saut à l'autre.

Ignorer les dépendances : exécuter en parallèle une question multi-sauts alors que la deuxième étape dépend de la première donne de mauvaises réponses.

Absence d'évaluation : sans benchmark, vous ne pouvez pas savoir si la décomposition a réellement aidé par rapport au RAG en un seul passage de référence.

Sources :