Perdido no Meio (Lost in the Middle)
"Lost in the middle" (perdido no meio) e a constatacao empirica - documentada por Liu et al. em um artigo de 2023 da Stanford/Samaya AI - de que os LLMs tem o melhor desempenho quando a informacao-chave esta logo no comeco ou bem no fim de um contexto longo, e um desempenho visivelmente pior quando a mesma informacao fica no meio. Mesmo modelos com janelas de mais de 100 mil tokens ainda apresentam essa curva de atencao em formato de U.
"Lost in the middle" (perdido no meio) e a constatacao empirica - documentada por Liu et al. em um artigo de 2023 da Stanford/Samaya AI - de que os LLMs tem o melhor desempenho quando a informacao-chave esta logo no comeco ou bem no fim de um contexto longo, e um desempenho visivelmente pior quando a mesma informacao fica no meio. Mesmo modelos com janelas de mais de 100 mil tokens ainda apresentam essa curva de atencao em formato de U.
Por que importa
"Janela de contexto grande" nao e o mesmo que "le tudo igualmente". Um modelo com 200K de contexto pode tecnicamente ingerir um livro inteiro, mas a precisao pratica em uma pergunta cuja resposta esta na pagina 300 de um PDF de 500 paginas e muito pior do que a mesma pergunta respondida na pagina 5 ou na pagina 495. Para quem constroi produtos, isso tem consequencias concretas: a ordem em que voce coloca o contexto dentro de um prompt muda drasticamente a qualidade da resposta, muitas vezes mais do que a quantidade de contexto que voce fornece. A maioria das falhas de RAG em producao causadas por "o modelo ignorou a passagem recuperada" sao, na verdade, falhas de lost-in-the-middle disfarcadas.
A constatacao original
O artigo de 2023 de Liu et al., "Lost in the Middle: How Language Models Use Long Contexts", testou GPT-3.5, GPT-4, Claude e varios modelos abertos em perguntas e respostas com multiplos documentos. Para cada pergunta, eles embaralharam o documento relevante para as posicoes 1, 5, 10, 15, 20 de um total de 20 documentos. Resultados:
- A precisao foi mais alta quando o documento relevante era o primeiro (no topo do contexto).
- A precisao foi quase tao alta quando ele era o ultimo (na parte de baixo).
- A precisao caiu de 20 a 30 pontos quando o documento relevante ficava nas posicoes do meio.
O formato lembra um U: forte nas duas pontas, fraco no meio. Trabalhos posteriores mostraram que esse padrao se mantem nos modelos Claude, Gemini e Llama mesmo a medida que suas janelas de contexto cresceram.
Por que isso acontece
Varias hipoteses, provavelmente todas parcialmente verdadeiras:
Distribuicao dos dados de treinamento: Os dados de treinamento tendem a colocar informacoes importantes no comeco (manchetes, frases-topico) e no fim (conclusoes, TL;DRs). O modelo aprende esses vieses posicionais.
Decaimento da atencao: O alcance efetivo da self-attention se degrada em sequencias muito longas, mesmo com tecnicas como RoPE ou ALiBi - tokens distantes no meio recebem menos massa de atencao do que as pontas proximas.
Limites da codificacao posicional: Modelos de contexto estendido herdam codificacoes de posicao que foram ajustadas para sequencias mais curtas, entao as posicoes do meio ficam relativamente sub-treinadas.
Vies de recencia: Os modelos ponderam mais os tokens recentes, o que amplifica a ponta final forte, mas nao ajuda o meio.
Como projetar contornando o problema
1. Coloque o contexto mais importante no inicio ou no fim: Para RAG, posicione a passagem recuperada mais bem classificada logo no comeco ou bem no fim do bloco de contexto.
2. Reranking apos a recuperacao: Use um reranker para ordenar os chunks recuperados por relevancia e, depois, coloque o principal na ponta.
3. Reordene por relevancia, nao pela ordem de recuperacao: A busca vetorial costuma retornar resultados em ordem de distancia; reordene para que os mais relevantes terminem nas posicoes de alta atencao.
4. Resuma o meio: Em vez de despejar o contexto bruto do meio, resuma-o e coloque o resumo no topo. Um meio comprimido sobrevive melhor do que um bruto.
5. Encurte o contexto: A curva em U piora a medida que o tamanho cresce. Poucos chunks, mais relevantes, superam muitos chunks marginais.
6. Repita fatos criticos: Colocar o mesmo fato-chave tanto no topo quanto na parte de baixo explora a curva em U em vez de lutar contra ela.
7. Instrucao da tarefa nas duas pontas: Alguns prompts se beneficiam de repetir a pergunta no topo e na parte de baixo do contexto, ensanduichando as evidencias.
Isso ainda se aplica em 2026?
Os modelos de contexto longo mais recentes (Gemini 1.5 / 2.0, Claude 3.5+/4.x, GPT-4 Turbo e a serie o) melhoraram consideravelmente a recuperacao no meio do contexto. Testes de agulha no palheiro (needle-in-a-haystack) no Gemini 2.0 mostram recuperacao quase perfeita em toda a janela. Mas em tarefas reais com multiplos fatos e raciocinio complexo, o formato em U ainda aparece - so que de forma menos drastica. O conselho pratico nao mudou muito: um contexto mais curto e bem ordenado ainda supera um contexto longo e ordenado aleatoriamente.
Erros comuns
Supor que contexto maior = respostas melhores: So e verdade ate certo ponto; a degradacao do meio entra em cena.
Despejar passagens recuperadas na ordem da busca vetorial: A distancia vetorial nao equivale a importancia posicional.
Pular o reranking: Recuperacao + rerank e mais eficaz do que um contexto mais longo com recuperacao ingenua.
Nao testar com agulhas em posicoes realistas: Testes simplificados de "agulha no palheiro" costumam colocar a agulha em posicoes uniformemente aleatorias, o que esconde a curva em U. Teste em casos de uso realistas.
Acreditar no marketing: "Contexto de 1M de tokens" nao significa que o modelo trata todos os 1M de tokens igualmente.
Fontes: