Qu'est-ce que la dégradation du contexte ? | Glossaire GEO

La dégradation du contexte (context rot) est le déclin progressif de la précision d'un LLM, de son respect des instructions et de la fidélité de ses citations à mesure que le contexte d'entrée s'allonge. Même avec des fenêtres de contexte atteignant un million de tokens, la précision réellement exploitable s'effondre bien avant cette limite : la différence entre 32k, 128k et 1M est bien plus faible que ne le laisse entendre le marketing.

Pourquoi c'est important

Les benchmarks vantent des fenêtres d'un million de tokens, mais les recherches empiriques à partir de 2025 dressent un tout autre tableau : les évaluations de Chroma, Anthropic et Databricks montrent systématiquement le même modèle passer de 95 % de précision à 8k à environ 60 % à 64k sur des tâches identiques. En génération augmentée par récupération (RAG), déverser 30 chunks d'un coup n'utilise généralement que les premiers et les derniers, en ignorant le milieu (lost-in-the-middle), et le modèle peut même prétendre avoir « consulté » un contenu qu'il n'a jamais réellement utilisé. La dégradation du contexte est le plus grand piège caché dans la conception des systèmes GEO et RAG, et elle contredit directement l'intuition selon laquelle « plus de contexte = de meilleures réponses ».

Les symptômes

Information du milieu ignorée : les faits cruciaux placés au milieu du contexte n'apparaissent pas dans la réponse, tandis que le contenu au début et à la fin survit.

Dérive des instructions : les directives du prompt système commencent à être ignorées après un long message utilisateur ; le ton, le format et les interdictions filtrent tous.

Hallucination de citation : le modèle dit « d'après le cinquième paragraphe ci-dessus… » mais aucun paragraphe de ce type n'existe, ou le contenu provient d'un autre document.

Effondrement de la rétention : dans les conversations à plusieurs tours, le contexte initial est de fait oublié. Après 4 à 5 tours, le modèle perd le fil des accords antérieurs.

Abandon des appels d'outils : les outils définis dans de longs contextes sont moins souvent utilisés, ou sont appelés avec les mauvais arguments.

Pourquoi cela se produit

Dilution de l'attention : chaque token doit prêter attention à tous les autres tokens, si bien que le signal par token s'affaiblit à mesure que la séquence s'allonge.

Limites de l'encodage positionnel : au-delà de la longueur sur laquelle le modèle a été entraîné, l'information de position perd son sens. RoPE et ALiBi aident, mais ne résolvent pas tout.

Distribution des données d'entraînement : la plupart des documents vus pendant l'entraînement sont courts. Une fenêtre d'un million de tokens ne signifie pas que le modèle a été entraîné sur des documents d'un million de tokens.

Limites de l'aiguille dans une botte de foin : les simples tâches de recherche réussissent même en contexte long, mais le raisonnement, la synthèse et l'intégration de plusieurs faits se dégradent bien plus vite.

Implications pour le GEO

Les moteurs de réponse récupèrent, découpent et synthétisent, en empilant les chunks récupérés dans le contexte du LLM pour générer la réponse. La dégradation du contexte signifie :

Les chunks les mieux classés dominent : si votre chunk n'atteint pas le top 1 à 3 après reclassement, il n'est en réalité pas cité, même s'il est « dans le contexte ».

Les chunks courts et autonomes l'emportent : les chunks plus longs diluent l'attention. 100 à 300 mots est le point idéal.

Les ouvertures en réponse directe comptent : un premier paragraphe qui répond à la question survit, quelle que soit sa position dans le contexte.

La fidélité des citations doit être vérifiée : les réponses peuvent halluciner des citations qui semblent ancrées ; des contrôles de post-traitement sont nécessaires.

Stratégies d'atténuation

Compression du contexte : ne déversez pas les documents bruts dans le contexte, utilisez un résumé tenant compte de la requête pour n'extraire que les parties pertinentes.

Reclassement agressif : récupérez 30 à 50 candidats, reclassez vers le top 5 à 10, puis placez ceux-ci dans le contexte.

Positionnez délibérément l'information critique : placez les chunks les plus importants au début ou à la fin (évitez le milieu).

Synthèse hiérarchique : à la manière du map-reduce, synthétisez des sous-groupes de chunks, puis synthétisez les résumés.

Fixez un budget de contexte : plafonnez délibérément le contexte à, par exemple, 8k tokens et optimisez à l'intérieur de cette limite.

Évaluation automatisée du RAG : vérifiez l'alignement factuel entre les réponses et les chunks sources via un LLM-as-judge ou la similarité des embeddings.

Idées fausses courantes

« Un contexte plus grand est toujours meilleur » : la fenêtre annoncée ≠ la fenêtre exploitable. La limite pratique fiable est d'environ 10 à 30 % de la capacité indiquée.

« Réussir l'aiguille dans une botte de foin prouve que le contexte long fonctionne » : la recherche d'un fait unique est facile. Le raisonnement sur plusieurs faits s'effondre bien plus tôt.

« Le fine-tuning règle le problème » : le fine-tuning aide quelque peu, mais les limites structurelles demeurent. La conception du système est un contournement plus efficace.

« Les nouveaux modèles l'ont résolu » : en 2026, même les modèles de pointe se dégradent encore de façon mesurable au-delà de 32k à 64k tokens.

Erreurs courantes

Déverser tous les résultats de récupération dans le contexte : coller les 30 meilleurs chunks bruts garantit le lost-in-the-middle.

Placer le prompt système à la fin : les instructions système placées après un long message utilisateur sont ignorées. Mettez-les au début.

Faire confiance au marketing des fenêtres de contexte : une publicité d'un million de tokens ne signifie pas un million de tokens exploitables.

Sauter la validation du RAG : si le critère est « ça a l'air ancré », les hallucinations s'accumulent.

Tailles de chunks uniformes : couper tous les documents à une longueur identique brise le sens. Utilisez le découpage sémantique.

Sources :

Dégradation du contexte