GEO

Tokenisation

La tokenisation est le processus qui consiste à découper un texte en langage naturel en unités minimales, les "tokens", que le LLM traite réellement. Toute entrée, sortie, facturation et limite de fenêtre de contexte d'un LLM se mesure en tokens, pas en mots.

La tokenisation est le processus qui consiste à découper un texte en langage naturel en unités minimales, les "tokens", que le LLM traite réellement. Toute entrée, sortie, facturation et limite de fenêtre de contexte d'un LLM se mesure en tokens, pas en mots.

Pourquoi c'est important

Les tokens sont la monnaie de base des LLM. OpenAI, Anthropic et Google facturent tous l'usage de l'API au token, et les fenêtres de contexte sont définies par des nombres de tokens. Un même contenu peut coûter 2 à 3 fois plus de tokens selon la langue et la structure du texte, de sorte que comprendre la tokenisation a des implications directes de coût et de performance pour le GEO, la stratégie de contenu et le développement d'applications IA.

Comment fonctionne la tokenisation

La plupart des LLM modernes utilisent le Byte Pair Encoding (BPE) ou des variantes comme SentencePiece et tiktoken.

  1. Le tokeniseur construit un vocabulaire en fusionnant les combinaisons de caractères fréquentes trouvées dans les données d'entraînement.
  2. Le texte d'entrée est découpé sur ce vocabulaire par correspondance la plus longue.
  3. Les mots anglais courants deviennent un seul token ; les mots rares et le texte non anglais sont découpés en plusieurs tokens.

Exemple anglais : "tokenization" → ["token", "ization"] (2 tokens) Exemple coréen : "토큰화" → ["토", "큰", "화"] ou des découpes plus fines en octets UTF-8, généralement 6 à 9 tokens

Particularités de la tokenisation non anglophone

L'anglais compte en moyenne environ 1,3 token par mot, mais des langues comme le coréen, le japonais ou le thaï peuvent utiliser 1,5 à 2 tokens par caractère. Deux raisons :

Composition des données d'entraînement : les grands corpus d'entraînement des LLM sont composés de 1 à 3 % de coréen, ce qui signifie que peu de tokens coréens dédiés entrent dans le vocabulaire.

Repli Unicode : les caractères hors vocabulaire retombent sur un découpage au niveau de l'octet UTF-8, de sorte qu'un seul caractère peut devenir 2 à 3 tokens.

Résultat : un article de blog en coréen consomme environ 50 % de tokens de plus que son équivalent anglais, et fait tenir moins de contenu dans la même fenêtre de contexte.

Implications pour le GEO

Densité d'information : le contenu non anglophone coûte plus cher par token, donc des phrases serrées, des titres clairs et une formulation compacte améliorent l'efficacité de citation.

Éliminer la redondance : répéter le même sens gaspille un précieux budget de tokens lors du traitement par le LLM.

Mettre en avant l'information clé : lorsque le budget de tokens est serré, les LLM priorisent le contenu situé plus tôt. L'écriture en pyramide inversée l'emporte.

Noms d'entités bilingues : ajouter des termes anglais aux côtés des noms propres en langue locale ("토큰화(Tokenization)") améliore la correspondance avec les requêtes en anglais.

Sources :