分块
分块(Chunking)是把长文档切分成 LLM 和向量数据库能够处理的、更小的承载意义的单元(片段)的过程。在 RAG 流水线中,网页、PDF 或文档在被嵌入之前,分块是一个必经的预处理步骤,而每一个片段都会成为 AI 在回答中可引用的最小单位。
分块(Chunking)是把长文档切分成 LLM 和向量数据库能够处理的、更小的承载意义的单元(片段)的过程。在 RAG 流水线中,网页、PDF 或文档在被嵌入之前,分块是一个必经的预处理步骤,而每一个片段都会成为 AI 在回答中可引用的最小单位。
为什么重要
当 AI 搜索 生成答案时,它引用的是最相关的片段,而不是整个页面。同一篇博客文章的两个版本,会因分块方式不同而产生完全不同的 AI 引语。Anthropic 和 OpenAI 的工程博客报告称,经过良好调优的分块,能让 RAG 的检索准确率比基线提升 30% 至 50%。GEO 中"按片段来写"这一原则正是源于此。
主要分块策略
固定大小分块:按固定的 token 数(如 500 或 1,000)来切分。简单,但会在句子中间断开并丢失上下文。
递归式(句子/段落)分块:先切分段落,再切句子,再切词,从而保留自然的边界。这是多数 RAG 流水线的默认做法。
语义分块:利用 嵌入 相似度来侦测主题切换并在那里切分。质量最高,但计算开销大。
文档感知分块:以 Markdown 或 HTML 的 ### 标题为边界。对博客文章这类结构化内容最为有效。
重叠(Overlap):在相邻片段之间重复 10% 至 20% 的内容,以免在接缝处丢失上下文。
对 GEO 写作的影响
每个小节必须能独立成立:片段通常对应于 ### 小节。如果某个小节要靠上一节才能讲得通,那么它被单独引用时就会断掉。
在每个小节内部包含主语和上下文:要写"inblog 负责……"而不是"这个工具负责……",每一段都应自成一体。
长度适中:太短的小节信息量不足,不值得引用;太长的小节又会稀释其嵌入所代表的意义。200 至 500 字是最佳区间。
在主题切换处加标题:如果一个小节里混杂了多个主题,分块器就会在尴尬的地方切断。每当主题发生变化时,加一个清晰的 ### 标题。
FAQ 板块:问答对天然就构成自成一体的片段,因此把关键问题拆成一个 FAQ 小节,能大幅提高被引用的概率。
Sources: