GEO

Context Rot

Context rot é a queda gradual na precisão, na obediência às instruções e na fidelidade das citações de um LLM à medida que o contexto de entrada fica mais longo. Mesmo com janelas de contexto chegando a 1M de tokens, a precisão praticamente utilizável colapsa bem antes disso - a diferença entre 32k, 128k e 1M é muito menor do que o marketing dá a entender.

Context rot é a queda gradual na precisão, na obediência às instruções e na fidelidade das citações de um LLM à medida que o contexto de entrada fica mais longo. Mesmo com janelas de contexto chegando a 1M de tokens, a precisão praticamente utilizável colapsa bem antes disso - a diferença entre 32k, 128k e 1M é muito menor do que o marketing dá a entender.

Por que isso importa

Os benchmarks anunciam janelas de um milhão de tokens, mas a pesquisa empírica de 2025 em diante pinta um quadro diferente - avaliações da Chroma, da Anthropic e da Databricks mostram de forma consistente o mesmo modelo caindo de 95% de precisão em 8k para cerca de 60% em 64k em tarefas idênticas. Na geração aumentada por recuperação (RAG), despejar 30 chunks de uma vez normalmente usa apenas os primeiros e os últimos, ignorando o meio (lost-in-the-middle), e o modelo pode até afirmar ter "consultado" conteúdo que nunca usou de fato. O context rot é a maior armadilha oculta no design de sistemas de GEO e RAG, e contradiz diretamente a intuição de que "contexto maior = respostas melhores".

Os sintomas

Informação do meio ignorada: fatos cruciais colocados no meio do contexto não chegam à resposta, enquanto o conteúdo no início e no fim sobrevive.

Desvio de instrução: as diretivas do system prompt começam a ser ignoradas após uma mensagem longa do usuário - tom, formato e proibições, tudo vaza.

Alucinação de citação: o modelo diz "de acordo com o quinto parágrafo acima...", mas não existe tal parágrafo, ou o conteúdo veio de outro documento.

Colapso de retenção: em conversas de múltiplos turnos, o contexto inicial é efetivamente esquecido. Após 4 a 5 turnos, o modelo perde o fio dos acordos anteriores.

Queda de chamadas de ferramentas: ferramentas definidas em contextos longos passam a ser usadas com menos frequência, ou são chamadas com os argumentos errados.

Por que acontece

Diluição de atenção: cada token tem de atender a todos os outros tokens, então o sinal por token enfraquece à medida que a sequência se alonga.

Limites da codificação posicional: além do comprimento treinado, a informação de posição perde sentido. RoPE e ALiBi ajudam, mas não resolvem totalmente.

Distribuição dos dados de treinamento: a maioria dos documentos vistos durante o treinamento é curta. Uma janela de 1M de tokens não significa que o modelo foi treinado com documentos de 1M de tokens.

Limites do tipo agulha-no-palheiro: tarefas simples de busca passam mesmo em contexto longo, mas raciocínio, síntese e integração de múltiplos fatos degradam muito mais rápido.

Implicações para GEO

Os motores de resposta recuperam, dividem em chunks e sintetizam, empilhando os chunks recuperados no contexto do LLM para gerar a resposta. O context rot significa que:

Os chunks mais bem classificados dominam: se o seu chunk não chega ao top 1-3 após o reranking, ele efetivamente não é citado, mesmo estando "no contexto".

Chunks curtos e autossuficientes vencem: chunks mais longos diluem a atenção. De 100 a 300 palavras é o ponto ideal.

Aberturas de resposta direta importam: um primeiro parágrafo que responde à pergunta sobrevive independentemente de onde esteja no contexto.

A fidelidade das citações precisa ser verificada: as respostas podem alucinar citações que parecem fundamentadas; verificações de pós-processamento são necessárias.

Estratégias de mitigação

Compressão de contexto: não jogue documentos brutos no contexto - use sumarização ciente da consulta para extrair apenas as partes relevantes.

Reranking agressivo: recupere de 30 a 50 candidatos, reordene para os 5 a 10 melhores e então coloque esses no contexto.

Posicione a informação crítica de forma deliberada: coloque os chunks mais importantes no início ou no fim (evite o meio).

Síntese hierárquica: ao estilo map-reduce - sintetize subgrupos de chunks e depois sintetize os resumos.

Defina um orçamento de contexto: limite deliberadamente o contexto a, digamos, 8k tokens e otimize dentro disso.

Avaliação automatizada de RAG: verifique o alinhamento factual entre as respostas e os chunks de origem via LLM-as-judge ou similaridade de embedding.

Equívocos comuns

"Contexto maior é sempre melhor": janela anunciada ≠ janela utilizável. O limite prático confiável é de aproximadamente 10% a 30% da capacidade declarada.

"Passar no agulha-no-palheiro significa que o contexto longo funciona": a busca por um único fato é fácil. O raciocínio com múltiplos fatos colapsa muito antes.

"O fine-tuning resolve isso": o fine-tuning ajuda um pouco, mas os limites estruturais permanecem. O design do sistema é uma alternativa mais eficaz.

"Os novos modelos já resolveram": em 2026, mesmo os modelos de fronteira ainda degradam de forma mensurável acima de 32k-64k tokens.

Erros comuns

Despejar todos os resultados de recuperação no contexto: colar os top 30 chunks brutos garante o lost-in-the-middle.

Colocar o system prompt no fim: instruções de sistema colocadas após uma mensagem longa do usuário são ignoradas. Coloque-as no início.

Confiar no marketing da janela de contexto: um anúncio de 1M de tokens não significa 1M de tokens utilizáveis.

Pular a validação de RAG: se a régua for "parece fundamentado", as alucinações se acumulam.

Tamanhos uniformes de chunk: cortar todos os documentos no mesmo comprimento quebra o significado. Use semantic chunking.

Fontes: