Lost in the Middle
"Lost in the middle" (perdido en el medio) es el hallazgo empírico, documentado por Liu et al. en un artículo de Stanford/Samaya AI de 2023, de que los LLM rinden mejor cuando la información clave está justo al principio o al final de un contexto largo, y notablemente peor cuando la misma información se sitúa en el medio. Incluso los modelos con ventanas de más de 100.000 tokens siguen mostrando esta curva de atención en forma de U.
"Lost in the middle" (perdido en el medio) es el hallazgo empírico, documentado por Liu et al. en un artículo de Stanford/Samaya AI de 2023, de que los LLM rinden mejor cuando la información clave está justo al principio o al final de un contexto largo, y notablemente peor cuando la misma información se sitúa en el medio. Incluso los modelos con ventanas de más de 100.000 tokens siguen mostrando esta curva de atención en forma de U.
Por qué es importante
Una "ventana de contexto grande" no es lo mismo que "lee todo por igual". Un modelo con un contexto de 200K puede técnicamente ingerir un libro entero, pero la precisión práctica en una pregunta cuya respuesta está en la página 300 de un PDF de 500 páginas es mucho peor que la misma pregunta respondida en la página 5 o en la página 495. Para quienes construyen sistemas, esto tiene consecuencias concretas: cómo ordenas el contexto dentro de un prompt cambia drásticamente la calidad de la respuesta, a menudo más que la cantidad de contexto que proporcionas. La mayoría de los fallos de RAG en producción causados por "el modelo ignoró el pasaje recuperado" son en realidad fallos de lost-in-the-middle disfrazados.
El hallazgo original
El artículo de Liu et al. de 2023, "Lost in the Middle: How Language Models Use Long Contexts", evaluó GPT-3.5, GPT-4, Claude y varios modelos abiertos en respuesta a preguntas sobre múltiples documentos. Para cada pregunta, mezclaron el documento relevante en las posiciones 1, 5, 10, 15 y 20 de un total de 20 documentos. Resultados:
- La precisión fue más alta cuando el documento relevante estaba en primer lugar (en la parte superior del contexto).
- La precisión fue casi igual de alta cuando estaba en último lugar (en la parte inferior).
- La precisión cayó entre 20 y 30 puntos cuando el documento relevante se situaba en las posiciones del medio.
La forma se asemeja a una U: fuerte en ambos extremos, débil en el medio. Trabajos posteriores han demostrado que este patrón se mantiene en los modelos Claude, Gemini y Llama, incluso a medida que sus ventanas de contexto crecían.
Por qué ocurre
Varias hipótesis, probablemente todas parcialmente ciertas:
Distribución de los datos de entrenamiento: los datos de entrenamiento tienden a colocar la información importante al principio (titulares, oraciones temáticas) y al final (conclusiones, resúmenes). El modelo aprende esas tendencias posicionales.
Decaimiento de la atención: el alcance efectivo de la autoatención se degrada en secuencias muy largas, incluso con técnicas como RoPE o ALiBi; los tokens lejanos del medio reciben menos atención que los extremos cercanos.
Límites de la codificación posicional: los modelos de contexto extendido heredan codificaciones de posición que se ajustaron para secuencias más cortas, por lo que las posiciones del medio están relativamente menos entrenadas.
Sesgo de actualidad: los modelos dan más peso a los tokens recientes, lo que amplifica el extremo final fuerte pero no ayuda al medio.
Cómo diseñar para sortearlo
1. Coloca el contexto más importante al principio o al final: para RAG, sitúa el pasaje recuperado mejor clasificado justo al inicio o al final del bloque de contexto.
2. Reordenamiento tras la recuperación: usa un reranker para ordenar los fragmentos recuperados por relevancia y luego coloca el primero en el extremo.
3. Reordena por relevancia, no por orden de recuperación: la búsqueda vectorial a menudo devuelve resultados por orden de distancia; reordénalos para que los más relevantes terminen en posiciones de alta atención.
4. Resume el medio: en lugar de volcar el contexto del medio en bruto, resúmelo y coloca el resumen en la parte superior. Un medio comprimido sobrevive mejor que uno en bruto.
5. Acorta el contexto: la curva en U empeora a medida que aumenta la longitud. Pocos fragmentos más relevantes superan a muchos marginales.
6. Repite los datos críticos: colocar el mismo dato clave tanto al principio como al final aprovecha la curva en U en lugar de luchar contra ella.
7. Instrucción de la tarea en ambos extremos: algunos prompts se benefician de repetir la pregunta al principio y al final del contexto, intercalando la evidencia.
¿Esto sigue aplicándose en 2026?
Los modelos de contexto largo más recientes (Gemini 1.5 / 2.0, Claude 3.5+/4.x, GPT-4 Turbo y la serie o) han mejorado considerablemente la recuperación de información en el medio del contexto. Las pruebas de aguja en un pajar en Gemini 2.0 muestran una recuperación casi perfecta en toda la ventana. Pero en tareas reales con múltiples datos y un razonamiento complejo, la forma de U sigue apareciendo, aunque de forma menos drástica. El consejo práctico no ha cambiado mucho: un contexto más corto y bien ordenado sigue superando a un contexto largo y ordenado al azar.
Errores comunes
Suponer que más contexto = mejores respuestas: solo es cierto hasta cierto punto; la degradación en el medio acaba apareciendo.
Volcar los pasajes recuperados en orden de búsqueda vectorial: la distancia vectorial no equivale a la importancia posicional.
Saltarse el reordenamiento: recuperación + reordenamiento es más eficaz que un contexto más largo con una recuperación ingenua.
No probar con agujas en posiciones realistas: las pruebas de juguete de "aguja en un pajar" suelen colocar la aguja en posiciones aleatorias uniformes, lo que oculta la curva en U. Pruébalo en casos de uso realistas.
Creerse el marketing: "1M de tokens de contexto" no significa que el modelo trate todos los 1M de tokens por igual.
Sources: