GEO

Almacenamiento en caché de prompts

El almacenamiento en caché de prompts es la función mediante la cual un proveedor de LLM guarda y reutiliza el prefijo repetido de un prompt (prompt del sistema, historial de la conversación, documento largo) en múltiples solicitudes. En lugar de reprocesar los mismos tokens cada vez, el modelo los carga desde la caché, reduciendo drásticamente el coste y la latencia. Anthropic lo introdujo en Claude en 2024, seguido por OpenAI y Google, y se convirtió en una función estándar de las API de LLM para 2026.

El almacenamiento en caché de prompts es la función mediante la cual un proveedor de LLM guarda y reutiliza el prefijo repetido de un prompt (prompt del sistema, historial de la conversación, documento largo) en múltiples solicitudes. En lugar de reprocesar los mismos tokens cada vez, el modelo los carga desde la caché, reduciendo drásticamente el coste y la latencia. Anthropic lo introdujo en Claude en 2024, seguido por OpenAI y Google, y se convirtió en una función estándar de las API de LLM para 2026.

Por qué es importante

Los flujos de RAG y los agentes inyectan prompts de sistema largos, historiales de conversación y documentos recuperados en cada solicitud. Diez repeticiones significan diez cómputos a precio completo. La documentación de Anthropic informa de una reducción de coste de hasta el 90% y una reducción de latencia del 85% en la parte almacenada en caché. Las aplicaciones de IA en producción han reestructurado por completo su economía en torno al almacenamiento en caché de prompts.

Cómo funciona

  1. Marca las secciones almacenables en caché: el desarrollador marca explícitamente qué partes del prompt es seguro almacenar en caché (Anthropic usa bloques cache_control; OpenAI almacena en caché automáticamente).
  2. Primera solicitud (escritura en caché): el modelo procesa el prompt completo y guarda la sección marcada en la caché. Esta solicitud cuesta en realidad algo más debido a la sobrecarga de escritura en caché.
  3. Solicitudes posteriores (lectura de caché): cuando llega una solicitud con el mismo prefijo, el modelo carga el estado interno desde la caché. Esos tokens se facturan a aproximadamente el 10% del precio de entrada.
  4. TTL de la caché: las cachés suelen durar unos 5 minutos (Anthropic) o más y se eliminan automáticamente si no se usan.

Cuándo usarlo

Prompts de sistema de chatbots: almacenar en caché miles de tokens de rol, restricciones y ejemplos en lugar de reprocesarlos en cada turno.

Preguntas y respuestas sobre documentos largos: introducir un libro, un PDF o un manual en el contexto y hacer muchas preguntas. El documento se almacena en caché; solo cambia la pregunta.

Definiciones de herramientas de agentes: almacenar en caché miles de tokens de esquemas de herramientas para que cada llamada a una herramienta tenga menor latencia.

Asistentes de código: cargar el código base completo de un proyecto en el contexto para muchas preguntas de seguimiento.

Flujos de RAG: almacenar en caché los documentos fijos recuperados con frecuencia para ahorrar coste en consultas repetidas.

Advertencias

Coincidencia exacta: el prefijo almacenado en caché debe coincidir token por token. Inyectar datos variables como fechas o identificadores de usuario en el prompt del sistema rompe la caché. Mueve las partes variables después de la región almacenada en caché.

Tamaño mínimo de caché: Anthropic requiere al menos 1.024 tokens (Sonnet/Opus) para almacenar en caché. Los prompts cortos no ganan nada.

Gestión del TTL: una solicitud debe llegar dentro de la ventana del TTL para que haya un acierto de caché. Los servicios de bajo tráfico necesitan "mantener la caché caliente" mediante solicitudes periódicas de latido.

Sobrecarga de escritura: la primera solicitud cuesta algo más. Sin reutilización, pierdes dinero.

Evolución en 2026

Cachés más largas: algunos proveedores ahora ofrecen TTL de horas a días, útiles para agentes empresariales y chatbots siempre activos.

Caché por usuario: prompts de sistema personalizados almacenados en caché por usuario.

RAG híbrido: almacenar en caché los fragmentos recuperados con frecuencia para omitir la búsqueda vectorial en consultas repetidas.

Implicaciones para GEO

Para que un motor de búsqueda con IA reutilice el contenido de un blog en muchas consultas, el contenido debe estar en una "forma estable y compatible con la caché". Los cambios frecuentes de URL o la personalización dinámica dentro de la página rompen la caché. Los blogs que sirven Markdown estructurado, URL estables y generación estática tienen más probabilidades de ser reutilizados como fuentes rentables por la infraestructura de búsqueda con IA.

Sources: