Что такое кэширование промптов? | Глоссарий GEO

Кэширование промптов - это функция, при которой провайдер LLM хранит и переиспользует повторяющийся префикс промпта (системный промпт, история разговора, длинный документ) между несколькими запросами. Вместо повторной обработки одних и тех же токенов каждый раз модель загружает их из кэша - кардинально снижая стоимость и задержку. Anthropic представила её в Claude в 2024 году, за ней последовали OpenAI и Google, и к 2026 году она стала стандартной функцией API LLM.

Почему это важно

Конвейеры RAG и агенты внедряют длинные системные промпты, историю разговора и извлечённые документы в каждый запрос. Десять повторов означают десять вычислений по полной цене. Документация Anthropic сообщает о снижении стоимости до 90% и задержки до 85% на кэшированной части. Продакшн AI-приложения фундаментально перестроили свою экономику вокруг кэширования промптов.

Как это работает

Пометьте кэшируемые секции: Разработчик явно помечает, какие части промпта безопасно кэшировать (Anthropic использует блоки cache_control; OpenAI кэширует автоматически).
Первый запрос (запись в кэш): Модель обрабатывает полный промпт и сохраняет помеченную секцию в кэш. Этот запрос фактически стоит чуть дороже из-за накладных расходов на запись в кэш.
Последующие запросы (чтение из кэша): Когда поступает запрос с тем же префиксом, модель загружает внутреннее состояние из кэша. Эти токены тарифицируются примерно по 10% от цены ввода.
TTL кэша: Кэши обычно живут ~5 минут (Anthropic) или дольше и вытесняются автоматически без использования.

Когда применять

Системные промпты чат-ботов: Кэширование тысяч токенов роли, ограничений и примеров вместо их повторной обработки на каждом ходу.

Ответы на вопросы по длинным документам: Загрузка книги, PDF или руководства в контекст и множество вопросов к нему. Документ кэшируется; меняется только вопрос.

Определения инструментов агента: Кэшируйте тысячи токенов схем инструментов, чтобы каждый вызов инструмента имел меньшую задержку.

Ассистенты по коду: Загрузка всей кодовой базы проекта в контекст для множества последующих вопросов.

Конвейеры RAG: Кэшируйте часто извлекаемые фиксированные документы, чтобы экономить на стоимости при повторных запросах.

Предостережения

Точное совпадение: Кэшированный префикс должен совпадать токен в токен. Внедрение переменных данных вроде дат или ID пользователей в системный промпт ломает кэш. Перенесите переменные части после кэшируемой области.

Минимальный размер кэша: Anthropic требует минимум 1024 токена (Sonnet/Opus) для кэширования. Короткие промпты ничего не выигрывают.

Управление TTL: Запрос должен поступить в пределах окна TTL для попадания в кэш. Сервисам с низким трафиком нужно "поддерживать кэш тёплым" с помощью периодических heartbeat-запросов.

Накладные расходы на запись: Первый запрос стоит чуть дороже. Без переиспользования вы теряете деньги.

Эволюция в 2026 году

Более длительные кэши: Некоторые провайдеры теперь предлагают TTL от часов до дней, что полезно для корпоративных агентов и всегда работающих чат-ботов.

Кэширование на пользователя: Персонализированные системные промпты, кэшируемые для каждого пользователя.

Гибридный RAG: Кэширование часто извлекаемых фрагментов, чтобы пропускать векторный поиск при повторных запросах.

Последствия для GEO

Чтобы поисковая система AI-поиска переиспользовала контент блога во множестве запросов, контент должен быть в "удобной для кэша, стабильной форме". Частые изменения URL или динамическая персонализация внутри страницы ломают кэш. Блоги, которые отдают структурированный Markdown, стабильные URL и статическую генерацию, с большей вероятностью будут переиспользованы как экономичные источники инфраструктурой AI-поиска.

Источники: