GEO

Tokenización

La tokenización es el proceso de dividir el texto en lenguaje natural en las unidades mínimas, los "tokens", que un LLM realmente procesa. Cada entrada, salida, cargo de facturación y límite de ventana de contexto de un LLM se mide en tokens, no en palabras.

La tokenización es el proceso de dividir el texto en lenguaje natural en las unidades mínimas, los "tokens", que un LLM realmente procesa. Cada entrada, salida, cargo de facturación y límite de ventana de contexto de un LLM se mide en tokens, no en palabras.

Por qué es importante

Los tokens son la moneda base de los LLM. OpenAI, Anthropic y Google facturan el uso de la API por token, y las ventanas de contexto se definen por conteos de tokens. El mismo contenido puede costar de 2 a 3 veces más tokens según el idioma y la estructura del texto, por lo que comprender la tokenización tiene implicaciones directas de costo y rendimiento para GEO, la estrategia de contenido y el desarrollo de aplicaciones de IA.

Cómo funciona la tokenización

La mayoría de los LLM modernos usan Byte Pair Encoding (BPE) o variantes como SentencePiece y tiktoken.

  1. El tokenizador construye un vocabulario fusionando combinaciones de caracteres frecuentes encontradas en los datos de entrenamiento.
  2. El texto de entrada se divide contra este vocabulario usando la coincidencia más larga.
  3. Las palabras comunes en inglés se convierten en un solo token; las palabras raras y el texto no inglés se dividen en múltiples tokens.

Ejemplo en inglés: "tokenization" → ["token", "ization"] (2 tokens) Ejemplo en coreano: "토큰화" → ["토", "큰", "화"] o divisiones más finas en bytes UTF-8, normalmente de 6 a 9 tokens

Particularidades de la tokenización no inglesa

El inglés promedia ~1,3 tokens por palabra, pero idiomas como el coreano, el japonés o el tailandés pueden usar de 1,5 a 2 tokens por carácter. Dos razones:

Mezcla de datos de entrenamiento: Los principales corpus de entrenamiento de LLM son de un 1 % a un 3 % coreano, lo que significa que pocos tokens coreanos dedicados entran en el vocabulario.

Recurso a Unicode: Los caracteres fuera del vocabulario recurren a la división a nivel de byte UTF-8, por lo que un solo carácter puede convertirse en 2 o 3 tokens.

Como resultado, una entrada de blog en coreano consume aproximadamente un 50 % más de tokens que su equivalente en inglés, y cabe menos contenido en la misma ventana de contexto.

Implicaciones para GEO

Densidad de información: El contenido no inglés paga más por token, por lo que las oraciones ajustadas, los encabezados claros y la redacción compacta mejoran la eficiencia de las citas.

Elimina la redundancia: Repetir el mismo significado desperdicia un valioso presupuesto de tokens durante el procesamiento del LLM.

Coloca la información clave al inicio: Cuando el presupuesto de tokens es ajustado, los LLM priorizan el contenido anterior. La escritura de pirámide invertida gana.

Nombres de entidades bilingües: Añadir términos en inglés junto a los nombres propios en el idioma local ("토큰화(Tokenization)") mejora la coincidencia frente a las consultas en inglés.

Sources: