Découpage sémantique
Le découpage sémantique est une technique de segmentation de documents qui coupe le texte aux frontières de sens plutôt qu'à des nombres fixes de caractères ou de tokens. Elle utilise les embeddings pour détecter quand des phrases adjacentes changent de sujet, puis place la coupure à cet endroit, de sorte que chaque fragment obtenu soit cohérent en interne et récupérable comme une idée unique.
Le découpage sémantique est une technique de segmentation de documents qui coupe le texte aux frontières de sens plutôt qu'à des nombres fixes de caractères ou de tokens. Elle utilise les embeddings pour détecter quand des phrases adjacentes changent de sujet, puis place la coupure à cet endroit, de sorte que chaque fragment obtenu soit cohérent en interne et récupérable comme une idée unique.
Pourquoi c'est important
Le découpage naïf segmente tous les N tokens ou aux sauts de paragraphe, sans tenir compte du sens. Cela coupe régulièrement un même raisonnement en deux, plaçant la prémisse dans un fragment et la conclusion dans un autre, de sorte que le moteur de recherche renvoie des fragments qui n'ont pas de sens. Le découpage sémantique corrige cela en respectant les changements de sujet. Les rapports de benchmark de LlamaIndex et LangChain de 2024 à 2025 montrent que le découpage sémantique améliore la qualité des réponses RAG de 8 à 20 % en question-réponse en domaine ouvert par rapport aux découpes à taille fixe, avec les gains les plus importants sur les longs documents techniques.
Comment ça fonctionne
1. Segmenter en phrases : utiliser un tokeniseur de phrases pour obtenir des unités atomiques.
2. Intégrer chaque phrase : un petit modèle d'embedding produit un vecteur par phrase.
3. Calculer les similarités adjacentes : pour chaque paire de phrases, mesurer la similarité cosinus entre les embeddings.
4. Trouver les points de rupture : lorsque la similarité passe sous un seuil (ou se situe dans le percentile inférieur), la marquer comme un changement de sujet.
5. Regrouper les phrases entre les ruptures en fragments : chaque fragment est thématiquement cohérent.
6. Bornes de taille facultatives : fusionner les fragments minuscules ou diviser les énormes pour que la recherche reste pratique.
Sémantique vs taille fixe vs découpage récursif
| Stratégie | Comment elle segmente | Cohérence | Coût | Quand l'utiliser |
|---|---|---|---|---|
| Taille fixe | Tous les N tokens | Faible | Gratuit | Prototypage, journaux |
| Récursif | Paragraphe → phrase → mot | Moyenne | Gratuit | Choix par défaut polyvalent |
| Sémantique | Frontières de similarité d'embedding | Élevée | Coût d'embedding | Docs techniques, longs articles |
| Agentique | Le LLM décide par document | La plus élevée | Très élevé | Enjeux forts, faible volume |
Le découpage sémantique se situe entre les extrêmes bon marché et naïf et coûteux et intelligent, un bon choix par défaut une fois que vous dépassez la segmentation récursive.
Paramètres de réglage
Seuil de similarité : seuil bas → plus de fragments, cohérence thématique plus serrée, moins bonne continuité du contexte. Seuil élevé → moins de fragments, plus longs. Commencez autour du 15e-25e percentile des similarités adjacentes.
Modèle d'embedding : un modèle de petits embeddings bon marché suffit généralement, vous mesurez des changements relatifs, pas un sens absolu.
Taille minimale de fragment : les fragments très courts (une phrase) se récupèrent mal car ils manquent de contexte. Imposez un plancher.
Taille maximale de fragment : bornez les fragments pour qu'aucun ne dépasse la fenêtre de contexte en aval.
Chevauchement : un léger chevauchement de phrases (1 à 2 phrases) entre fragments adjacents rattrape les cas limites où la frontière est ambiguë.
Quand ça n'aide pas
Documents courts : si tout le document tient dans un seul fragment, le segmenter n'est qu'un surcoût.
Texte très répétitif : les journaux, listes de produits et tableaux ont une faible dérive thématique naturelle, le découpage sémantique dégénère en taille fixe.
Contenu structuré : les tableaux, le code et le JSON devraient être segmentés par structure, pas par sens.
Quand la recherche n'est pas le goulot d'étranglement : si l'hallucination provient de la conception du prompt ou du reranking, corriger le découpage n'aidera pas.
Sources :