¿Qué es la degradación del contexto? | Glosario GEO

La degradación del contexto es el descenso gradual de la precisión de un LLM, su seguimiento de instrucciones y su fidelidad en las citas a medida que el contexto de entrada se alarga. Incluso con ventanas de contexto que alcanzan 1 millón de tokens, la precisión utilizable en la práctica colapsa mucho antes; la diferencia entre 32k, 128k y 1M es mucho menor de lo que sugiere el marketing.

Por qué importa

Los benchmarks anuncian ventanas de un millón de tokens, pero la investigación empírica de 2025 en adelante pinta un panorama diferente: las evaluaciones de Chroma, Anthropic y Databricks muestran de forma consistente que el mismo modelo cae de un 95 % de precisión a 8k a aproximadamente un 60 % a 64k en tareas idénticas. En la generación aumentada por recuperación (RAG), volcar 30 chunks a la vez normalmente usa solo los primeros y los últimos, ignorando los del medio (perdido en el medio), y el modelo incluso puede afirmar haber "consultado" contenido que en realidad nunca usó. La degradación del contexto es la mayor trampa oculta en el diseño de sistemas GEO y RAG, y contradice directamente la intuición de que "más contexto = mejores respuestas".

Los síntomas

Información del medio ignorada: Los hechos críticos colocados en el medio del contexto no llegan a la respuesta, mientras que el contenido del inicio y del final sobrevive.

Deriva de instrucciones: Las directivas del system prompt empiezan a ignorarse tras un mensaje de usuario largo; el tono, el formato y las prohibiciones se filtran.

Alucinación de citas: El modelo dice "según el quinto párrafo anterior...", pero no existe tal párrafo, o el contenido provino de un documento diferente.

Colapso de retención: En conversaciones de varios turnos, el contexto inicial queda efectivamente olvidado. Después de 4 o 5 turnos, el modelo pierde el rastro de los acuerdos previos.

Abandono de llamadas a herramientas: Las herramientas definidas en contextos largos se usan con menos frecuencia, o se invocan con argumentos incorrectos.

Por qué ocurre

Dilución de la atención: Cada token debe atender a todos los demás tokens, por lo que la señal por token se debilita a medida que la secuencia se alarga.

Límites de la codificación posicional: Más allá de la longitud entrenada, la información de posición pierde significado. RoPE y ALiBi ayudan, pero no lo resuelven del todo.

Distribución de los datos de entrenamiento: La mayoría de los documentos vistos durante el entrenamiento son cortos. Una ventana de 1 millón de tokens no significa que el modelo se haya entrenado con documentos de 1 millón de tokens.

Límites de la aguja en el pajar: Las tareas simples de búsqueda se superan incluso con contexto largo, pero el razonamiento, la síntesis y la integración de múltiples hechos se degradan mucho más rápido.

Implicaciones para la GEO

Los motores de respuestas recuperan, dividen en chunks y sintetizan, apilando los chunks recuperados en el contexto del LLM para generar la respuesta. La degradación del contexto significa:

Los chunks mejor posicionados dominan: Si tu chunk no llega al top 1 a 3 tras el reordenamiento, en la práctica no es citado aunque esté "en el contexto".

Los chunks cortos y autocontenidos ganan: Los chunks más largos diluyen la atención. De 100 a 300 palabras es el punto ideal.

Las aperturas de respuesta directa importan: Un primer párrafo que responde la pregunta sobrevive sin importar dónde se ubique en el contexto.

La fidelidad de las citas necesita verificación: Las respuestas pueden alucinar citas que parecen fundamentadas; son necesarias comprobaciones de posprocesamiento.

Estrategias de mitigación

Compresión del contexto: No vuelques documentos en bruto en el contexto; usa un resumen consciente de la consulta para extraer solo las partes relevantes.

Reordenamiento agresivo: Recupera de 30 a 50 candidatos, reordénalos al top 5 a 10 y luego coloca esos en el contexto.

Posiciona la información crítica de forma deliberada: Coloca los chunks más importantes al principio o al final (evita el medio).

Síntesis jerárquica: Estilo map-reduce: sintetiza subgrupos de chunks y luego sintetiza los resúmenes.

Establece un presupuesto de contexto: Limita el contexto a, por ejemplo, 8k tokens de forma deliberada y optimiza dentro de ese límite.

Evaluación automatizada de RAG: Verifica la alineación factual entre las respuestas y los chunks de origen mediante LLM-as-judge o similitud de embeddings.

Conceptos erróneos comunes

"Más contexto siempre es mejor": La ventana anunciada ≠ la ventana utilizable. El límite práctico fiable es aproximadamente del 10 % al 30 % de la capacidad declarada.

"Pasar la prueba de la aguja en el pajar significa que el contexto largo funciona": La búsqueda de un solo hecho es fácil. El razonamiento con múltiples hechos colapsa mucho antes.

"El fine-tuning lo arregla": El fine-tuning ayuda algo, pero los límites estructurales permanecen. El diseño del sistema es una solución alternativa más efectiva.

"Los nuevos modelos lo han resuelto": A fecha de 2026, incluso los modelos de frontera todavía se degradan de forma medible por encima de los 32k a 64k tokens.

Errores comunes

Volcar todos los resultados de recuperación en el contexto: Pegar los 30 mejores chunks en bruto garantiza el "perdido en el medio".

Colocar el system prompt al final: Las instrucciones del sistema colocadas después de un mensaje de usuario largo se ignoran. Ponlas al inicio.

Confiar en el marketing de la ventana de contexto: Un anuncio de 1 millón de tokens no significa 1 millón de tokens utilizables.

Omitir la validación de RAG: Si el listón es "parece fundamentado", las alucinaciones se acumulan.

Tamaños de chunk uniformes: Cortar todos los documentos a una longitud idéntica rompe el significado. Usa chunking semántico.

Sources:

Degradación del Contexto