Tokenizacao
A tokenizacao e o processo de dividir o texto em linguagem natural nas unidades minimas - os "tokens" - que um LLM de fato processa. Toda entrada, saida, cobranca de faturamento e limite de janela de contexto de um LLM e medido em tokens, nao em palavras.
A tokenizacao e o processo de dividir o texto em linguagem natural nas unidades minimas - os "tokens" - que um LLM de fato processa. Toda entrada, saida, cobranca de faturamento e limite de janela de contexto de um LLM e medido em tokens, nao em palavras.
Por Que Importa
Os tokens sao a moeda base dos LLMs. OpenAI, Anthropic e Google cobram o uso de API por token, e as janelas de contexto sao definidas por contagens de tokens. O mesmo trecho de conteudo pode custar de 2 a 3 vezes mais tokens dependendo do idioma e da estrutura do texto, entao entender a tokenizacao tem implicacoes diretas de custo e desempenho para o GEO, a estrategia de conteudo e o desenvolvimento de aplicacoes de IA.
Como Funciona a Tokenizacao
A maioria dos LLMs modernos usa Byte Pair Encoding (BPE) ou variantes como SentencePiece e tiktoken.
- O tokenizador constroi um vocabulario combinando combinacoes frequentes de caracteres encontradas nos dados de treinamento.
- O texto de entrada e dividido com base nesse vocabulario usando correspondencia mais longa.
- Palavras comuns em ingles viram um unico token; palavras raras e textos fora do ingles sao divididos em multiplos tokens.
Exemplo em ingles: "tokenization" -> ["token", "ization"] (2 tokens)
Exemplo em coreano: "토큰화" -> ["토", "큰", "화"] ou divisoes mais finas em bytes UTF-8, normalmente de 6 a 9 tokens
Peculiaridades da Tokenizacao Fora do Ingles
O ingles tem em media cerca de 1,3 token por palavra, mas idiomas como coreano, japones ou tailandes podem usar de 1,5 a 2 tokens por caractere. Duas razoes:
Mistura dos dados de treinamento: os principais corpora de treinamento de LLMs sao de 1 a 3% em coreano, o que significa que poucos tokens coreanos dedicados entram no vocabulario.
Fallback Unicode: caracteres fora do vocabulario recorrem a divisao em nivel de byte UTF-8, entao um unico caractere pode virar de 2 a 3 tokens.
Como resultado, um post de blog em coreano consome cerca de 50% mais tokens do que o equivalente em ingles - e cabe menos conteudo na mesma janela de contexto.
Implicacoes para o GEO
Densidade de informacao: conteudo fora do ingles paga mais por token, entao frases enxutas, titulos claros e formulacao compacta melhoram a eficiencia de citacao.
Elimine redundancia: repetir o mesmo significado desperdica um precioso orcamento de tokens durante o processamento do LLM.
Coloque as informacoes-chave no inicio: quando o orcamento de tokens esta apertado, os LLMs priorizam o conteudo anterior. A escrita em piramide invertida vence.
Nomes de entidades bilingues: adicionar termos em ingles ao lado de nomes proprios no idioma local ("토큰화(Tokenization)") melhora a correspondencia com consultas em ingles.
Fontes: