GEO

智能体 RAG

智能体 RAG 是一种检索增强生成架构,其中由 LLM 智能体(而非固定流水线)来决定检索什么、何时检索、如何检索,以及答案是否已经足够好。它不是单一的查询 → 检索 → 回答流程,而是由智能体进行规划、发起多次搜索、评估自己的阶段性答案,并不断重试,直到有把握为止。

智能体 RAG 是一种检索增强生成架构,其中由 LLM 智能体(而非固定流水线)来决定检索什么、何时检索、如何检索,以及答案是否已经足够好。它不是单一的查询 → 检索 → 回答流程,而是由智能体进行规划、发起多次搜索、评估自己的阶段性答案,并不断重试,直到有把握为止。

为什么重要

经典 RAG 有一个上限:一次查询、一次检索、一次回答。这对简单的查找有效,但在复杂问题、含糊不清的查询,或需要跨多个步骤阅读多份文档的任务上就会失效。智能体 RAG 突破了这个上限,让模型对检索过程本身拥有自主权。2024 至 2025 年来自 LangChain、LlamaIndex 和 Anthropic 的基准测试显示,在多文档问答、事实核查和研究类任务上,智能体 RAG 比普通 RAG 高出 20% 到 40%。它正是 Perplexity 深度研究、ChatGPT 浏览功能,以及大多数真正可用的企业级"与文档对话"系统背后的架构。

它与标准 RAG 有何不同

标准 RAG

  1. 用户提出问题
  2. 系统对问题做嵌入,检索 top-k
  3. 模型根据检索到的上下文生成答案

一次完成。静态。无重试。

智能体 RAG

  1. 用户提出问题
  2. 智能体规划:"要回答这个问题,我需要知道什么?"
  3. 智能体用一个具体的子查询调用检索工具
  4. 智能体阅读结果,判断还缺什么
  5. 智能体用更精细的查询再次调用检索(循环)
  6. 智能体判断信息已足够,开始起草答案
  7. 智能体可选地进行自我批判并修订
  8. 交付最终答案

多步骤。自适应。可回溯。

核心组件

规划器:一个 LLM(通常就是负责回答的那一个),把问题拆解成若干检索步骤。

检索工具:向量搜索、关键词搜索、API 调用、数据库查询,智能体可以从中挑选。

记忆:智能体记录自己已经看过的内容,避免重复调用。

自我批判循环:智能体评估自己起草的答案是否有充分依据,如果没有,就再去检索更多内容。

退出条件:可以是置信度阈值、步数预算,或一个明确的"我已经够了"信号。

常见模式

ReAct(推理 + 行动):智能体在同一个草稿本里,在思考和调用工具之间交替进行。这是 Yao 等人 2022 年提出的最初智能体模式。

先规划再执行:智能体先写出多步骤计划,然后逐步执行。更适合深度研究;对简单问题则较慢。

Self-RAG:模型动态判断是否需要检索。如果问题很简单,就完全跳过检索。

多智能体 RAG:多个专门化智能体(搜索者、阅读者、批判者、写作者)协同工作。强大但昂贵。

何时使用

复杂研究任务:"总结 FAANG 各家 2025 年第四季度的财报趋势。"

多文档事实核查:将论断与多个来源交叉比对。

含糊问题:正确的检索取决于消歧的场景("是哪个 Jordan?")。

高风险输出:法律、医疗、金融,单次检索可能会漏掉关键上下文的领域。

集成智能体的对话:助手在了解情况后还会采取行动(发邮件、安排会议)。

何时不该使用

简单的 FAQ 查找:一次检索就够了;智能体循环只会增加延迟和成本。

紧张的延迟预算:以 1 秒为目标的对话界面,承担不起多步骤的智能体循环。

对成本敏感的大流量:每一次循环迭代都是又一次推理调用。在规模化场景下,智能体 RAG 可能比标准 RAG 贵 5 到 10 倍。

索引良好的小语料库:如果你的数据小到一次稠密检索总能找到正确段落,就不要增加复杂度。

权衡取舍

延迟:多步骤循环意味着响应要花 5 到 30 秒,而不是 1 秒以内。

成本:每一步都是一次 LLM 调用加一次检索调用。要据此做预算。

确定性:智能体系统更难调试和复现,因为智能体在不同运行中可能走不同的路径。

评估:当检索计划是动态的时,衡量"检索得好不好"很困难。你评估的是最终答案,而不是中间决策。

常见错误

对简单问题硬套智能体:用力过猛只会抬高成本,却不会提升质量。

没有步数预算:不受约束的智能体可能循环好几分钟。把步数上限设在 5 到 10。

没有记忆:不记录过往检索,智能体就会重复劳动。

规划器太弱:如果规划用的 LLM 太小或提示词写得差,计划就糟糕,循环也会白白消耗调用。

跳过评估:因为智能体的执行轨迹很杂乱,团队就省略了正式评估,结果根本无法判断自己的系统是否真的比普通 RAG 更好。

Sources: