智能体 RAG
智能体 RAG 是一种检索增强生成架构,其中由 LLM 智能体(而非固定流水线)来决定检索什么、何时检索、如何检索,以及答案是否已经足够好。它不是单一的查询 → 检索 → 回答流程,而是由智能体进行规划、发起多次搜索、评估自己的阶段性答案,并不断重试,直到有把握为止。
智能体 RAG 是一种检索增强生成架构,其中由 LLM 智能体(而非固定流水线)来决定检索什么、何时检索、如何检索,以及答案是否已经足够好。它不是单一的查询 → 检索 → 回答流程,而是由智能体进行规划、发起多次搜索、评估自己的阶段性答案,并不断重试,直到有把握为止。
为什么重要
经典 RAG 有一个上限:一次查询、一次检索、一次回答。这对简单的查找有效,但在复杂问题、含糊不清的查询,或需要跨多个步骤阅读多份文档的任务上就会失效。智能体 RAG 突破了这个上限,让模型对检索过程本身拥有自主权。2024 至 2025 年来自 LangChain、LlamaIndex 和 Anthropic 的基准测试显示,在多文档问答、事实核查和研究类任务上,智能体 RAG 比普通 RAG 高出 20% 到 40%。它正是 Perplexity 深度研究、ChatGPT 浏览功能,以及大多数真正可用的企业级"与文档对话"系统背后的架构。
它与标准 RAG 有何不同
标准 RAG:
- 用户提出问题
- 系统对问题做嵌入,检索 top-k
- 模型根据检索到的上下文生成答案
一次完成。静态。无重试。
智能体 RAG:
- 用户提出问题
- 智能体规划:"要回答这个问题,我需要知道什么?"
- 智能体用一个具体的子查询调用检索工具
- 智能体阅读结果,判断还缺什么
- 智能体用更精细的查询再次调用检索(循环)
- 智能体判断信息已足够,开始起草答案
- 智能体可选地进行自我批判并修订
- 交付最终答案
多步骤。自适应。可回溯。
核心组件
规划器:一个 LLM(通常就是负责回答的那一个),把问题拆解成若干检索步骤。
检索工具:向量搜索、关键词搜索、API 调用、数据库查询,智能体可以从中挑选。
记忆:智能体记录自己已经看过的内容,避免重复调用。
自我批判循环:智能体评估自己起草的答案是否有充分依据,如果没有,就再去检索更多内容。
退出条件:可以是置信度阈值、步数预算,或一个明确的"我已经够了"信号。
常见模式
ReAct(推理 + 行动):智能体在同一个草稿本里,在思考和调用工具之间交替进行。这是 Yao 等人 2022 年提出的最初智能体模式。
先规划再执行:智能体先写出多步骤计划,然后逐步执行。更适合深度研究;对简单问题则较慢。
Self-RAG:模型动态判断是否需要检索。如果问题很简单,就完全跳过检索。
多智能体 RAG:多个专门化智能体(搜索者、阅读者、批判者、写作者)协同工作。强大但昂贵。
何时使用
复杂研究任务:"总结 FAANG 各家 2025 年第四季度的财报趋势。"
多文档事实核查:将论断与多个来源交叉比对。
含糊问题:正确的检索取决于消歧的场景("是哪个 Jordan?")。
高风险输出:法律、医疗、金融,单次检索可能会漏掉关键上下文的领域。
集成智能体的对话:助手在了解情况后还会采取行动(发邮件、安排会议)。
何时不该使用
简单的 FAQ 查找:一次检索就够了;智能体循环只会增加延迟和成本。
紧张的延迟预算:以 1 秒为目标的对话界面,承担不起多步骤的智能体循环。
对成本敏感的大流量:每一次循环迭代都是又一次推理调用。在规模化场景下,智能体 RAG 可能比标准 RAG 贵 5 到 10 倍。
索引良好的小语料库:如果你的数据小到一次稠密检索总能找到正确段落,就不要增加复杂度。
权衡取舍
延迟:多步骤循环意味着响应要花 5 到 30 秒,而不是 1 秒以内。
成本:每一步都是一次 LLM 调用加一次检索调用。要据此做预算。
确定性:智能体系统更难调试和复现,因为智能体在不同运行中可能走不同的路径。
评估:当检索计划是动态的时,衡量"检索得好不好"很困难。你评估的是最终答案,而不是中间决策。
常见错误
对简单问题硬套智能体:用力过猛只会抬高成本,却不会提升质量。
没有步数预算:不受约束的智能体可能循环好几分钟。把步数上限设在 5 到 10。
没有记忆:不记录过往检索,智能体就会重复劳动。
规划器太弱:如果规划用的 LLM 太小或提示词写得差,计划就糟糕,循环也会白白消耗调用。
跳过评估:因为智能体的执行轨迹很杂乱,团队就省略了正式评估,结果根本无法判断自己的系统是否真的比普通 RAG 更好。
Sources: