Ingénierie du contexte
L'ingénierie du contexte est la pratique consistant à concevoir délibérément quelle information, dans quel ordre, sous quel format un LLM voit lorsqu'il génère une réponse. Elle englobe le prompt engineering, qui peaufine un prompt unique, et s'étend à tout ce qui entre dans la fenêtre de contexte : prompts système, documents récupérés, historique de conversation, métadonnées utilisateur, schémas d'outils, et plus encore. Simon Willison, Tobi Lütke et Andrej Karpathy ont commencé à employer ce terme publiquement en 2025, et d'ici 2026 il est devenu un vocabulaire standard dans l'ingénierie produit des LLM.
L'ingénierie du contexte est la pratique consistant à concevoir délibérément quelle information, dans quel ordre, sous quel format un LLM voit lorsqu'il génère une réponse. Elle englobe le prompt engineering, qui peaufine un prompt unique, et s'étend à tout ce qui entre dans la fenêtre de contexte : prompts système, documents récupérés, historique de conversation, métadonnées utilisateur, schémas d'outils, et plus encore. Simon Willison, Tobi Lütke et Andrej Karpathy ont commencé à employer ce terme publiquement en 2025, et d'ici 2026 il est devenu un vocabulaire standard dans l'ingénierie produit des LLM.
Pourquoi c'est important
La plupart des échecs de produits LLM en production viennent du fait qu'« on a donné le mauvais contexte au modèle », et non que « le modèle est mauvais ». Même avec des fenêtres de contexte d'un million de tokens, déverser de l'information au hasard nuit aux performances : c'est l'effet bien documenté « Lost in the Middle ». L'ingénierie du contexte traite l'entrée composite (RAG, mémoire, outils, historique) comme une variable de conception, et un même modèle peut être 2 à 10 fois plus performant avec une meilleure construction du contexte.
Ce qui compose le contexte
Prompt système : instructions fixes, à savoir rôle, contraintes, ton, objectifs.
Prompt utilisateur : l'entrée de l'utilisateur pour ce tour.
Historique de conversation : les tours précédents.
Résultats RAG : documents et chunks pertinents issus d'une base de données vectorielle.
Définitions d'outils : noms, descriptions et schémas des fonctions appelables.
Résultats d'appels d'outils : données renvoyées par des invocations d'outils antérieures.
Métadonnées utilisateur : langue, fuseau horaire, formule d'abonnement, historique de comportement.
Constitution / garde-fous : règles de sécurité, sujets interdits, filtres de sortie.
Tous ces éléments fusionnent dans une seule fenêtre de contexte transmise au LLM.
Ingénierie du contexte vs prompt engineering
| Aspect | Prompt engineering | Ingénierie du contexte |
|---|---|---|
| Unité | Une seule phrase de prompt | L'ensemble de la fenêtre de contexte |
| Préoccupation | « Comment poser la question ? » | « Que dois-je montrer ? » |
| Niveau | Tactique (au niveau de la phrase) | Systémique (au niveau du pipeline) |
| Exemple | Ajouter « réfléchis étape par étape » | Décider du nombre de chunks RAG, de l'ordre, du résumé |
Le prompt engineering est l'art d'écrire de bonnes phrases ; l'ingénierie du contexte est l'art de concevoir l'ensemble de la structure d'entrée dans laquelle ces phrases s'inscrivent.
Principes fondamentaux
N'incluez que ce qui est nécessaire : un contexte plus long signifie davantage de « lost in the middle » et un coût plus élevé. Coupez sans pitié l'information non pertinente.
Ordonnez délibérément : les LLM accordent plus de poids au début et à la fin. Placez les instructions et les données les plus importantes aux extrémités.
Balisage structuré : enveloppez les documents externes dans des balises <source>…</source>, les exemples dans <example>…</example>, afin que le modèle connaisse le rôle de chaque partie.
Sélection dynamique : différents types de requêtes méritent différentes listes d'outils, résultats RAG et prompts système. Une approche uniforme gaspille des tokens.
Résumez et compressez : résumez les longs historiques pour économiser des tokens. Des fonctionnalités comme les artefacts de Claude en sont un exemple canonique.
Gérez les boucles d'agent : pour un raisonnement en plusieurs étapes, nettoyez et reconstruisez le contexte entre les étapes.
Défis pratiques
Budget de tokens : les fenêtres de contexte ne sont pas gratuites. Remplir un million de tokens fait exploser le coût et la latence.
Classement par pertinence : décidez du nombre de chunks RAG à extraire et de l'ampleur du reclassement.
Stratégie de mémoire : mémoire à long terme dans une base de données vectorielle, mémoire à court terme via le résumé.
Débogage : lorsque la qualité de la sortie baisse, trouvez quelle partie du contexte est en cause. La journalisation et la reproductibilité sont essentielles.
Implications GEO
Les moteurs de recherche IA sont eux-mêmes des pipelines d'ingénierie du contexte. Le contenu structuré pour « bien s'insérer dans le contexte » est davantage cité. Concrètement : ① chaque section doit pouvoir être résumée indépendamment, ② la première phrase doit porter la réponse centrale, ③ les métadonnées et les sources doivent être explicites. C'est cela, l'« écriture adaptée à l'ingénierie du contexte » pour les blogueurs.
Sources :