Qu'est-ce que le RAG agentique ? | Glossaire GEO

Le RAG agentique est une architecture de génération augmentée par récupération dans laquelle un agent LLM, et non un pipeline fixe, décide quoi récupérer, quand, comment et si la réponse est suffisamment bonne. Au lieu d'un flux unique requête puis récupération puis réponse, un agent planifie, lance plusieurs recherches, évalue ses propres réponses partielles et réessaie jusqu'à ce qu'il soit confiant.

Pourquoi c'est important

Le RAG classique a un plafond : une requête, une récupération, une réponse. Cela fonctionne pour des recherches simples, mais échoue sur des questions complexes, des requêtes ambiguës ou des tâches qui nécessitent la lecture de plusieurs documents à travers plusieurs étapes. Le RAG agentique brise ce plafond en donnant au modèle de l'autonomie sur le processus de récupération lui-même. Les benchmarks 2024-2025 de LangChain, LlamaIndex et Anthropic montrent que le RAG agentique surpasse le RAG classique de 20 à 40 % sur les questions-réponses multi-documents, la vérification de faits et les tâches de recherche. C'est l'architecture derrière la recherche approfondie de Perplexity, la navigation de ChatGPT et la plupart des systèmes d'entreprise de type « discuter avec vos documents » qui fonctionnent réellement.

En quoi il diffère du RAG classique

RAG classique :

L'utilisateur pose une question
Le système vectorise la question, récupère les top-k
Le modèle génère une réponse à partir du contexte récupéré

Un seul coup. Statique. Aucune nouvelle tentative.

RAG agentique :

L'utilisateur pose une question
L'agent planifie : « Que dois-je savoir pour répondre à cela ? »
L'agent appelle l'outil de récupération avec une sous-requête spécifique
L'agent lit les résultats, décide ce qui manque
L'agent appelle à nouveau la récupération avec des requêtes affinées (boucle)
L'agent décide quand il en a assez et rédige une réponse
L'agent s'autocritique et révise éventuellement
La réponse finale est livrée

Multi-étapes. Adaptatif. Peut revenir en arrière.

Composants principaux

Planificateur : un LLM (souvent celui-là même qui répond) qui décompose la question en étapes de récupération.

Outils de récupération : recherche vectorielle, recherche par mot-clé, appels d'API, requêtes de base de données ; l'agent peut choisir parmi eux.

Mémoire : l'agent garde la trace de ce qu'il a déjà vu pour éviter les appels redondants.

Boucle d'autocritique : l'agent évalue si son brouillon de réponse est bien fondé, et si ce n'est pas le cas, récupère davantage.

Condition de sortie : soit un seuil de confiance, soit un budget d'étapes, soit un signal explicite « j'en ai assez ».

Schémas courants

ReAct (Reasoning + Acting) : l'agent alterne entre réfléchir et appeler des outils dans un même bloc-notes. Le schéma agentique original de Yao et al., 2022.

Plan-and-execute : l'agent écrit d'abord un plan en plusieurs étapes, puis exécute chaque étape. Meilleur pour la recherche approfondie ; plus lent pour les questions simples.

Self-RAG : le modèle décide dynamiquement si une récupération est nécessaire ou non. Si la question est triviale, il saute entièrement la récupération.

RAG multi-agents : plusieurs agents spécialisés (chercheur, lecteur, critique, rédacteur) collaborent. Puissant mais coûteux.

Quand l'utiliser

Tâches de recherche complexes : « Résumez les tendances des résultats du quatrième trimestre 2025 pour les FAANG. »

Vérification de faits multi-documents : recouper des affirmations avec plusieurs sources.

Questions ambiguës : lorsque la bonne récupération dépend de la désambiguïsation (« Quel Jordan ? »).

Sorties à fort enjeu : juridique, médical, financier, où une seule récupération pourrait manquer un contexte critique.

Discussion intégrée à un agent : des assistants qui prennent aussi des mesures (envoyer un e-mail, planifier une réunion) en fonction de ce qu'ils apprennent.

Quand ne pas l'utiliser

Recherches simples dans une FAQ : une seule récupération suffit ; les boucles agentiques ajoutent de la latence et du coût.

Budgets de latence serrés : les interfaces de discussion avec un objectif d'une seconde ne peuvent pas se permettre des boucles d'agent en plusieurs étapes.

Volume sensible au coût : chaque itération de boucle est un nouvel appel d'inférence. À grande échelle, le RAG agentique peut être 5 à 10 fois plus coûteux que le RAG classique.

Petits corpus bien indexés : si vos données sont suffisamment petites pour qu'une seule récupération dense trouve toujours le bon passage, n'ajoutez pas de complexité.

Compromis

Latence : les boucles en plusieurs étapes signifient que les réponses prennent 5 à 30 secondes, et non moins d'une seconde.

Coût : chaque étape est un appel LLM plus un appel de récupération. Prévoyez votre budget en conséquence.

Déterminisme : les systèmes agentiques sont plus difficiles à déboguer et à reproduire, car l'agent peut emprunter des chemins différents lors d'exécutions différentes.

Évaluation : mesurer « si la récupération est bonne » est difficile lorsque le plan de récupération est dynamique. Vous évaluez les réponses finales, et non les décisions intermédiaires.

Erreurs courantes

Imposer des agents sur des questions simples : la surenchère gonfle le coût sans améliorer la qualité.

Aucun budget d'étapes : un agent sans contrainte peut tourner en boucle pendant des minutes. Plafonnez les étapes à 5-10.

Aucune mémoire : sans suivi des récupérations passées, l'agent répète le travail.

Planificateur faible : si le LLM de planification est trop petit ou mal sollicité, les plans sont mauvais et les boucles gaspillent des appels.

Sauter l'évaluation : parce que les traces d'agent sont bruitées, les équipes sautent l'évaluation formelle, puis ne peuvent pas dire si leur système est réellement meilleur que le RAG classique.

Sources :