Fenêtre de contexte
Une fenêtre de contexte est le nombre maximal de tokens d'entrée et de sortie qu'un LLM peut traiter en une seule requête. Elle contient le prompt utilisateur, le prompt système, la conversation précédente, les documents récupérés par RAG et la réponse générée, le tout en même temps.
Une fenêtre de contexte est le nombre maximal de tokens d'entrée et de sortie qu'un LLM peut traiter en une seule requête. Elle contient le prompt utilisateur, le prompt système, la conversation précédente, les documents récupérés par RAG et la réponse générée, le tout en même temps.
Pourquoi c'est important
La fenêtre de contexte est la « mémoire à court terme » du LLM. Elle détermine combien de pages web un moteur de recherche IA peut prendre en compte pour répondre à une requête et la longueur d'un document qu'il peut résumer. En 2023, la norme était de 4K à 8K tokens ; en 2026, plus d'un million de tokens est la norme, ce qui change fondamentalement l'étendue et la profondeur des sources sur lesquelles les LLM s'appuient. Pour le GEO, cela signifie que la recherche IA compare désormais de nombreuses pages concurrentes à la fois et décide laquelle citer, faisant de la structure du document et de la qualité des sections le facteur décisif.
Fenêtres de contexte par modèle (2026)
| Modèle | Fenêtre de contexte |
|---|---|
| Claude Opus 4.6 | 1M tokens |
| Gemini 3 | 1M à 2M tokens |
| GPT-5 | 400K tokens |
| Llama 4 | 128K à 1M tokens |
Un million de tokens représente environ 750K mots en anglais, soit à peu près un livre de 400 à 500 pages.
Des tokens, pas des mots
Les fenêtres de contexte se mesurent en tokens, et non en mots. L'anglais compte en moyenne ~1,3 token par mot, mais des langues comme le coréen ou le japonais utilisent ~1,5 à 2 tokens par caractère, ce qui signifie que le contenu non anglophone consomme une part bien plus importante du budget pour une même longueur de page.
Implications GEO
Des documents entiers sont traités : les LLM ne voyaient autrefois que les meilleurs extraits ; ils lisent désormais des pages entières et choisissent la meilleure section à citer. La clarté structurelle de l'ensemble du document compte.
Comparaison directe des concurrents : les grandes fenêtres de contexte permettent aux modèles de comparer de nombreuses pages concurrentes pour une même requête à la fois. Gagner ne consiste pas à être « bon », mais à être structurellement plus facile à citer que les alternatives.
Le front-loading compte davantage : les LLM accordent plus de poids aux premiers tokens. Placez la définition centrale et la réponse tout en haut du document.
« Lost in the middle » : même les modèles à grand contexte se dégradent sur l'information enfouie au milieu d'un document. Le contenu critique a sa place près du début ou de la fin, et non au milieu.
Sources :