Découpage (chunking)
Le découpage (chunking) est le processus consistant à diviser de longs documents en unités plus petites et porteuses de sens (les chunks) que les LLM et les bases de données vectorielles peuvent traiter. C'est une étape de prétraitement obligatoire dans les pipelines RAG, avant que les pages web, les PDF ou les documents ne soient transformés en embeddings, et chaque chunk devient l'unité minimale qu'une IA peut citer dans sa réponse.
Le découpage (chunking) est le processus consistant à diviser de longs documents en unités plus petites et porteuses de sens (les chunks) que les LLM et les bases de données vectorielles peuvent traiter. C'est une étape de prétraitement obligatoire dans les pipelines RAG, avant que les pages web, les PDF ou les documents ne soient transformés en embeddings, et chaque chunk devient l'unité minimale qu'une IA peut citer dans sa réponse.
Pourquoi c'est important
Lorsque la recherche IA génère une réponse, elle cite le chunk le plus pertinent, et non la page entière. Deux versions du même article de blog peuvent produire des citations IA complètement différentes selon la façon dont elles sont découpées. Les blogs d'ingénierie d'Anthropic et d'OpenAI indiquent qu'un découpage bien réglé améliore la précision de récupération du RAG de 30 à 50 % par rapport à la référence. C'est de là que vient le principe GEO « écrivez en chunks ».
Principales stratégies de découpage
Découpage à taille fixe : divise selon un nombre fixe de tokens, par exemple 500 ou 1 000. Simple, mais coupe au milieu des phrases et perd le contexte.
Récursif (phrase/paragraphe) : divise les paragraphes, puis les phrases, puis les mots, en préservant les frontières naturelles. La méthode par défaut dans la plupart des pipelines RAG.
Découpage sémantique : utilise la similarité des embeddings pour détecter les changements de sujet et découper à cet endroit. La meilleure qualité, mais coûteuse en calcul.
Découpage tenant compte du document : utilise les titres ### en Markdown ou HTML comme frontières. Le plus efficace pour du contenu structuré comme les articles de blog.
Chevauchement : duplique 10 à 20 % du contenu entre chunks adjacents pour que le contexte ne se perde pas à la jonction.
Implications pour la rédaction GEO
Les sections doivent être autonomes : les chunks correspondent généralement aux sections ###. Si une section dépend de la précédente pour avoir du sens, elle se brise lorsqu'elle est citée isolément.
Incluez le sujet et le contexte dans chaque section : écrivez « inblog gère… » et non « cet outil gère… », car chaque paragraphe doit être autonome.
La bonne longueur : des sections très courtes manquent d'informations pour valoir la peine d'être citées ; des sections très longues diluent le sens de leur embedding. 200 à 500 mots est le point idéal.
Des titres aux changements de sujet : si une seule section mélange plusieurs sujets, les outils de découpage coupent à des endroits maladroits. Ajoutez un titre ### clair chaque fois que le sujet change.
Blocs FAQ : les paires question-réponse forment naturellement des chunks autonomes, si bien que diviser les questions clés en une section FAQ augmente fortement la probabilité de citation.
Sources :