什么是提示缓存？| GEO 术语表

提示缓存是这样一项功能：LLM 提供商在多次请求间存储并复用提示中重复的前缀（系统提示、对话历史、长文档）。模型不必每次都重新处理相同的 token，而是从缓存中加载它们，从而大幅削减成本和延迟。Anthropic 于 2024 年在 Claude 中率先引入了它，随后 OpenAI 和 Google 跟进，到 2026 年它已成为 LLM API 的标准功能。

为什么重要

RAG 流水线和智能体会在每次请求中注入冗长的系统提示、对话历史和检索到的文档。重复十次就意味着十次全价计算。Anthropic 的文档报告称，缓存部分最多可减少 90% 的成本和 85% 的延迟。生产环境中的 AI 应用已经围绕提示缓存从根本上重构了其经济模型。

工作原理

标记可缓存的部分：开发者显式标记提示中哪些部分可以安全缓存（Anthropic 使用 cache_control 块；OpenAI 则自动缓存）。
首次请求（缓存写入）：模型处理完整提示并将标记的部分存入缓存。由于缓存写入的开销，这次请求实际上会略贵一些。
后续请求（缓存读取）：当一个具有相同前缀的请求到来时，模型从缓存加载其内部状态。这些 token 的计费约为输入价格的 10%。
缓存 TTL：缓存通常存活约 5 分钟（Anthropic）或更久，并在闲置时被自动逐出。

何时使用

聊天机器人系统提示：缓存数千 token 的角色、约束和示例，而不必每一轮都重新处理。

长文档问答：把一本书、PDF 或手册塞进上下文并提出许多问题。文档被缓存，只有问题在变。

智能体工具定义：缓存数千 token 的工具 schema，让每次工具调用都有更低的延迟。

代码助手：把整个项目代码库载入上下文，用于许多后续问题。

RAG 流水线：缓存频繁检索到的固定文档，在重复查询时节省成本。

注意事项

精确匹配：缓存的前缀必须逐 token 匹配。把日期或用户 ID 这类可变数据注入系统提示会破坏缓存。请把可变部分移到缓存区域之后。

最小缓存大小：Anthropic 要求至少 1024 个 token（Sonnet/Opus）才能缓存。短提示无从获益。

TTL 管理：请求必须在 TTL 时间窗内到达才能命中缓存。低流量服务需要通过周期性的心跳请求来"保持缓存温热"。

写入开销：首次请求会略贵。若无复用，反而亏本。

2026 年的演进

更长的缓存：部分提供商现已提供数小时到数天的 TTL，对企业级智能体和常驻聊天机器人很有帮助。

按用户缓存：为每个用户缓存个性化的系统提示。

混合 RAG：缓存频繁检索到的片段，在重复查询时跳过向量搜索。

对 GEO 的影响

要让一个 AI 搜索引擎在众多查询间复用博客内容，该内容必须处于"缓存友好、稳定的形态"。频繁的 URL 变更或页面内的动态个性化都会破坏缓存。那些提供结构化 Markdown、稳定 URL 和静态生成的博客，更有可能被 AI 搜索基础设施当作高性价比的来源加以复用。

Sources: