Кэширование промптов
Кэширование промптов - это функция, при которой провайдер LLM хранит и переиспользует повторяющийся префикс промпта (системный промпт, история разговора, длинный документ) между несколькими запросами. Вместо повторной обработки одних и тех же токенов каждый раз модель загружает их из кэша - кардинально снижая стоимость и задержку. Anthropic представила её в Claude в 2024 году, за ней последовали OpenAI и Google, и к 2026 году она стала стандартной функцией API LLM.
Кэширование промптов - это функция, при которой провайдер LLM хранит и переиспользует повторяющийся префикс промпта (системный промпт, история разговора, длинный документ) между несколькими запросами. Вместо повторной обработки одних и тех же токенов каждый раз модель загружает их из кэша - кардинально снижая стоимость и задержку. Anthropic представила её в Claude в 2024 году, за ней последовали OpenAI и Google, и к 2026 году она стала стандартной функцией API LLM.
Почему это важно
Конвейеры RAG и агенты внедряют длинные системные промпты, историю разговора и извлечённые документы в каждый запрос. Десять повторов означают десять вычислений по полной цене. Документация Anthropic сообщает о снижении стоимости до 90% и задержки до 85% на кэшированной части. Продакшн AI-приложения фундаментально перестроили свою экономику вокруг кэширования промптов.
Как это работает
- Пометьте кэшируемые секции: Разработчик явно помечает, какие части промпта безопасно кэшировать (Anthropic использует блоки
cache_control; OpenAI кэширует автоматически). - Первый запрос (запись в кэш): Модель обрабатывает полный промпт и сохраняет помеченную секцию в кэш. Этот запрос фактически стоит чуть дороже из-за накладных расходов на запись в кэш.
- Последующие запросы (чтение из кэша): Когда поступает запрос с тем же префиксом, модель загружает внутреннее состояние из кэша. Эти токены тарифицируются примерно по 10% от цены ввода.
- TTL кэша: Кэши обычно живут ~5 минут (Anthropic) или дольше и вытесняются автоматически без использования.
Когда применять
Системные промпты чат-ботов: Кэширование тысяч токенов роли, ограничений и примеров вместо их повторной обработки на каждом ходу.
Ответы на вопросы по длинным документам: Загрузка книги, PDF или руководства в контекст и множество вопросов к нему. Документ кэшируется; меняется только вопрос.
Определения инструментов агента: Кэшируйте тысячи токенов схем инструментов, чтобы каждый вызов инструмента имел меньшую задержку.
Ассистенты по коду: Загрузка всей кодовой базы проекта в контекст для множества последующих вопросов.
Конвейеры RAG: Кэшируйте часто извлекаемые фиксированные документы, чтобы экономить на стоимости при повторных запросах.
Предостережения
Точное совпадение: Кэшированный префикс должен совпадать токен в токен. Внедрение переменных данных вроде дат или ID пользователей в системный промпт ломает кэш. Перенесите переменные части после кэшируемой области.
Минимальный размер кэша: Anthropic требует минимум 1024 токена (Sonnet/Opus) для кэширования. Короткие промпты ничего не выигрывают.
Управление TTL: Запрос должен поступить в пределах окна TTL для попадания в кэш. Сервисам с низким трафиком нужно "поддерживать кэш тёплым" с помощью периодических heartbeat-запросов.
Накладные расходы на запись: Первый запрос стоит чуть дороже. Без переиспользования вы теряете деньги.
Эволюция в 2026 году
Более длительные кэши: Некоторые провайдеры теперь предлагают TTL от часов до дней, что полезно для корпоративных агентов и всегда работающих чат-ботов.
Кэширование на пользователя: Персонализированные системные промпты, кэшируемые для каждого пользователя.
Гибридный RAG: Кэширование часто извлекаемых фрагментов, чтобы пропускать векторный поиск при повторных запросах.
Последствия для GEO
Чтобы поисковая система AI-поиска переиспользовала контент блога во множестве запросов, контент должен быть в "удобной для кэша, стабильной форме". Частые изменения URL или динамическая персонализация внутри страницы ломают кэш. Блоги, которые отдают структурированный Markdown, стабильные URL и статическую генерацию, с большей вероятностью будут переиспользованы как экономичные источники инфраструктурой AI-поиска.
Источники: