GEO

Chunking

Chunking é o processo de dividir documentos longos em unidades menores e portadoras de significado (chunks) que LLMs e bancos de dados vetoriais conseguem processar. É uma etapa de pré-processamento obrigatória nos pipelines de RAG, antes de páginas web, PDFs ou documentos serem transformados em embeddings - e cada chunk se torna a unidade mínima que uma IA pode citar na resposta.

Chunking é o processo de dividir documentos longos em unidades menores e portadoras de significado (chunks) que LLMs e bancos de dados vetoriais conseguem processar. É uma etapa de pré-processamento obrigatória nos pipelines de RAG, antes de páginas web, PDFs ou documentos serem transformados em embeddings - e cada chunk se torna a unidade mínima que uma IA pode citar na resposta.

Por que isso importa

Quando a busca por IA gera uma resposta, ela cita o chunk mais relevante - não a página inteira. Duas versões do mesmo post de blog podem produzir citações de IA completamente diferentes dependendo de como são divididas em chunks. Os blogs de engenharia da Anthropic e da OpenAI relatam que um chunking bem ajustado melhora a precisão de recuperação do RAG em 30% a 50% em relação à linha de base. É daí que vem o princípio de GEO "escreva em chunks".

Principais estratégias de chunking

Chunking de tamanho fixo: divide por uma contagem fixa de tokens, como 500 ou 1.000. Simples, mas quebra no meio da frase e perde contexto.

Recursivo (frase/parágrafo): divide por parágrafos, depois frases, depois palavras - preservando as fronteiras naturais. O padrão na maioria dos pipelines de RAG.

Semantic chunking: usa a similaridade de embedding para detectar mudanças de tópico e dividir nesses pontos. A maior qualidade, mas computacionalmente custoso.

Chunking ciente do documento: usa títulos ### de Markdown ou HTML como fronteiras. O mais eficaz para conteúdo estruturado, como posts de blog.

Overlap (sobreposição): duplica de 10% a 20% do conteúdo entre chunks adjacentes para que o contexto não se perca na emenda.

Implicações para a escrita voltada ao GEO

As seções precisam funcionar sozinhas: os chunks normalmente correspondem a seções ###. Se uma seção depende da anterior para fazer sentido, ela quebra quando citada de forma isolada.

Inclua o sujeito e o contexto dentro de cada seção: escreva "o inblog faz..." em vez de "essa ferramenta faz..." - cada parágrafo deve ser autossuficiente.

Comprimento adequado: seções muito curtas não têm informação suficiente para valer a citação; seções muito longas diluem o significado do seu embedding. De 200 a 500 palavras é o ponto ideal.

Títulos nas mudanças de tópico: se uma única seção mistura tópicos, os chunkers dividem em pontos estranhos. Adicione um título ### claro sempre que o tópico mudar.

Blocos de FAQ: pares de pergunta e resposta naturalmente formam chunks autossuficientes, então separar as perguntas-chave em uma seção de FAQ eleva drasticamente a probabilidade de citação.

Fontes: