GEO

提示缓存

提示缓存是这样一项功能:LLM 提供商在多次请求间存储并复用提示中重复的前缀(系统提示、对话历史、长文档)。模型不必每次都重新处理相同的 token,而是从缓存中加载它们,从而大幅削减成本和延迟。Anthropic 于 2024 年在 Claude 中率先引入了它,随后 OpenAI 和 Google 跟进,到 2026 年它已成为 LLM API 的标准功能。

提示缓存是这样一项功能:LLM 提供商在多次请求间存储并复用提示中重复的前缀(系统提示、对话历史、长文档)。模型不必每次都重新处理相同的 token,而是从缓存中加载它们,从而大幅削减成本和延迟。Anthropic 于 2024 年在 Claude 中率先引入了它,随后 OpenAI 和 Google 跟进,到 2026 年它已成为 LLM API 的标准功能。

为什么重要

RAG 流水线和智能体会在每次请求中注入冗长的系统提示、对话历史和检索到的文档。重复十次就意味着十次全价计算。Anthropic 的文档报告称,缓存部分最多可减少 90% 的成本和 85% 的延迟。生产环境中的 AI 应用已经围绕提示缓存从根本上重构了其经济模型。

工作原理

  1. 标记可缓存的部分:开发者显式标记提示中哪些部分可以安全缓存(Anthropic 使用 cache_control 块;OpenAI 则自动缓存)。
  2. 首次请求(缓存写入):模型处理完整提示并将标记的部分存入缓存。由于缓存写入的开销,这次请求实际上会略贵一些。
  3. 后续请求(缓存读取):当一个具有相同前缀的请求到来时,模型从缓存加载其内部状态。这些 token 的计费约为输入价格的 10%。
  4. 缓存 TTL:缓存通常存活约 5 分钟(Anthropic)或更久,并在闲置时被自动逐出。

何时使用

聊天机器人系统提示:缓存数千 token 的角色、约束和示例,而不必每一轮都重新处理。

长文档问答:把一本书、PDF 或手册塞进上下文并提出许多问题。文档被缓存,只有问题在变。

智能体工具定义:缓存数千 token 的工具 schema,让每次工具调用都有更低的延迟。

代码助手:把整个项目代码库载入上下文,用于许多后续问题。

RAG 流水线:缓存频繁检索到的固定文档,在重复查询时节省成本。

注意事项

精确匹配:缓存的前缀必须逐 token 匹配。把日期或用户 ID 这类可变数据注入系统提示会破坏缓存。请把可变部分移到缓存区域之后。

最小缓存大小:Anthropic 要求至少 1024 个 token(Sonnet/Opus)才能缓存。短提示无从获益。

TTL 管理:请求必须在 TTL 时间窗内到达才能命中缓存。低流量服务需要通过周期性的心跳请求来"保持缓存温热"。

写入开销:首次请求会略贵。若无复用,反而亏本。

2026 年的演进

更长的缓存:部分提供商现已提供数小时到数天的 TTL,对企业级智能体和常驻聊天机器人很有帮助。

按用户缓存:为每个用户缓存个性化的系统提示。

混合 RAG:缓存频繁检索到的片段,在重复查询时跳过向量搜索。

对 GEO 的影响

要让一个 AI 搜索引擎在众多查询间复用博客内容,该内容必须处于"缓存友好、稳定的形态"。频繁的 URL 变更或页面内的动态个性化都会破坏缓存。那些提供结构化 Markdown、稳定 URL 和静态生成的博客,更有可能被 AI 搜索基础设施当作高性价比的来源加以复用。

Sources: