上下文窗口
上下文窗口是 LLM 在单次请求中能处理的输入和输出 token 的最大数量。它一次性容纳了用户提示、系统提示、此前的对话、RAG 检索到的文档以及生成的响应。
上下文窗口是 LLM 在单次请求中能处理的输入和输出 token 的最大数量。它一次性容纳了用户提示、系统提示、此前的对话、RAG 检索到的文档以及生成的响应。
为什么重要
上下文窗口是 LLM 的"短期记忆"。它决定了 AI 搜索 引擎在回答查询时能考虑多少个网页,以及能概括多长的文档。2023 年的常规是 4K 至 8K token;到 2026 年,100 万以上的 token 已成标准,这从根本上改变了 LLM 所汲取来源的广度和深度。对 GEO 而言,这意味着 AI 搜索如今会一次性比较众多相互竞争的页面,再决定引用哪一个,从而让文档结构和小节质量成为决定性因素。
各模型的上下文窗口(2026 年)
| 模型 | 上下文窗口 |
|---|---|
| Claude Opus 4.6 | 100 万 token |
| Gemini 3 | 100 万至 200 万 token |
| GPT-5 | 40 万 token |
| Llama 4 | 12.8 万至 100 万 token |
100 万 token 大约相当于 75 万个英文单词,约等于一本 400 至 500 页的书。
是 token,不是单词
上下文窗口以 token 而非单词来计量。英语平均每个单词约 1.3 个 token,而韩语或日语这类语言每个字符约用 1.5 至 2 个 token,这意味着在相同页面长度下,非英语内容会占用明显更多的预算。
对 GEO 的影响
整篇文档都会被处理:LLM 过去只能看到顶部的摘要片段,如今它会读完整个页面,再挑选最好的小节来引用。整篇文档的结构清晰度变得重要。
直接的竞品对比:大的上下文窗口让模型能就同一个查询一次性比较众多相互竞争的页面。胜出的关键不在于"好",而在于结构上比其他选项更容易被引用。
前置内容更重要了:LLM 对靠前的 token 赋予更高权重。把核心定义和答案放在文档的最顶端。
"迷失在中间":即便是大上下文的模型,对埋在文档中部的信息也会表现退化。关键内容应放在靠近开头或结尾处,而不是中间。
Sources: