GEO

Tokenizacao

A tokenizacao e o processo de dividir o texto em linguagem natural nas unidades minimas - os "tokens" - que um LLM de fato processa. Toda entrada, saida, cobranca de faturamento e limite de janela de contexto de um LLM e medido em tokens, nao em palavras.

A tokenizacao e o processo de dividir o texto em linguagem natural nas unidades minimas - os "tokens" - que um LLM de fato processa. Toda entrada, saida, cobranca de faturamento e limite de janela de contexto de um LLM e medido em tokens, nao em palavras.

Por Que Importa

Os tokens sao a moeda base dos LLMs. OpenAI, Anthropic e Google cobram o uso de API por token, e as janelas de contexto sao definidas por contagens de tokens. O mesmo trecho de conteudo pode custar de 2 a 3 vezes mais tokens dependendo do idioma e da estrutura do texto, entao entender a tokenizacao tem implicacoes diretas de custo e desempenho para o GEO, a estrategia de conteudo e o desenvolvimento de aplicacoes de IA.

Como Funciona a Tokenizacao

A maioria dos LLMs modernos usa Byte Pair Encoding (BPE) ou variantes como SentencePiece e tiktoken.

  1. O tokenizador constroi um vocabulario combinando combinacoes frequentes de caracteres encontradas nos dados de treinamento.
  2. O texto de entrada e dividido com base nesse vocabulario usando correspondencia mais longa.
  3. Palavras comuns em ingles viram um unico token; palavras raras e textos fora do ingles sao divididos em multiplos tokens.

Exemplo em ingles: "tokenization" -> ["token", "ization"] (2 tokens) Exemplo em coreano: "토큰화" -> ["토", "큰", "화"] ou divisoes mais finas em bytes UTF-8, normalmente de 6 a 9 tokens

Peculiaridades da Tokenizacao Fora do Ingles

O ingles tem em media cerca de 1,3 token por palavra, mas idiomas como coreano, japones ou tailandes podem usar de 1,5 a 2 tokens por caractere. Duas razoes:

Mistura dos dados de treinamento: os principais corpora de treinamento de LLMs sao de 1 a 3% em coreano, o que significa que poucos tokens coreanos dedicados entram no vocabulario.

Fallback Unicode: caracteres fora do vocabulario recorrem a divisao em nivel de byte UTF-8, entao um unico caractere pode virar de 2 a 3 tokens.

Como resultado, um post de blog em coreano consome cerca de 50% mais tokens do que o equivalente em ingles - e cabe menos conteudo na mesma janela de contexto.

Implicacoes para o GEO

Densidade de informacao: conteudo fora do ingles paga mais por token, entao frases enxutas, titulos claros e formulacao compacta melhoram a eficiencia de citacao.

Elimine redundancia: repetir o mesmo significado desperdica um precioso orcamento de tokens durante o processamento do LLM.

Coloque as informacoes-chave no inicio: quando o orcamento de tokens esta apertado, os LLMs priorizam o conteudo anterior. A escrita em piramide invertida vence.

Nomes de entidades bilingues: adicionar termos em ingles ao lado de nomes proprios no idioma local ("토큰화(Tokenization)") melhora a correspondencia com consultas em ingles.

Fontes: