什么是智能体 RAG？| GEO 术语表

智能体 RAG 是一种检索增强生成架构，其中由 LLM 智能体（而非固定流水线）来决定检索什么、何时检索、如何检索，以及答案是否已经足够好。它不是单一的查询 → 检索 → 回答流程，而是由智能体进行规划、发起多次搜索、评估自己的阶段性答案，并不断重试，直到有把握为止。

为什么重要

经典 RAG 有一个上限：一次查询、一次检索、一次回答。这对简单的查找有效，但在复杂问题、含糊不清的查询，或需要跨多个步骤阅读多份文档的任务上就会失效。智能体 RAG 突破了这个上限，让模型对检索过程本身拥有自主权。2024 至 2025 年来自 LangChain、LlamaIndex 和 Anthropic 的基准测试显示，在多文档问答、事实核查和研究类任务上，智能体 RAG 比普通 RAG 高出 20% 到 40%。它正是 Perplexity 深度研究、ChatGPT 浏览功能，以及大多数真正可用的企业级"与文档对话"系统背后的架构。

它与标准 RAG 有何不同

标准 RAG：

用户提出问题
系统对问题做嵌入，检索 top-k
模型根据检索到的上下文生成答案

一次完成。静态。无重试。

智能体 RAG：

用户提出问题
智能体规划："要回答这个问题，我需要知道什么？"
智能体用一个具体的子查询调用检索工具
智能体阅读结果，判断还缺什么
智能体用更精细的查询再次调用检索（循环）
智能体判断信息已足够，开始起草答案
智能体可选地进行自我批判并修订
交付最终答案

多步骤。自适应。可回溯。

核心组件

规划器：一个 LLM（通常就是负责回答的那一个），把问题拆解成若干检索步骤。

检索工具：向量搜索、关键词搜索、API 调用、数据库查询，智能体可以从中挑选。

记忆：智能体记录自己已经看过的内容，避免重复调用。

自我批判循环：智能体评估自己起草的答案是否有充分依据，如果没有，就再去检索更多内容。

退出条件：可以是置信度阈值、步数预算，或一个明确的"我已经够了"信号。

常见模式

ReAct（推理 + 行动）：智能体在同一个草稿本里，在思考和调用工具之间交替进行。这是 Yao 等人 2022 年提出的最初智能体模式。

先规划再执行：智能体先写出多步骤计划，然后逐步执行。更适合深度研究；对简单问题则较慢。

Self-RAG：模型动态判断是否需要检索。如果问题很简单，就完全跳过检索。

多智能体 RAG：多个专门化智能体（搜索者、阅读者、批判者、写作者）协同工作。强大但昂贵。

何时使用

复杂研究任务："总结 FAANG 各家 2025 年第四季度的财报趋势。"

多文档事实核查：将论断与多个来源交叉比对。

含糊问题：正确的检索取决于消歧的场景（"是哪个 Jordan？"）。

高风险输出：法律、医疗、金融，单次检索可能会漏掉关键上下文的领域。

集成智能体的对话：助手在了解情况后还会采取行动（发邮件、安排会议）。

何时不该使用

简单的 FAQ 查找：一次检索就够了；智能体循环只会增加延迟和成本。

紧张的延迟预算：以 1 秒为目标的对话界面，承担不起多步骤的智能体循环。

对成本敏感的大流量：每一次循环迭代都是又一次推理调用。在规模化场景下，智能体 RAG 可能比标准 RAG 贵 5 到 10 倍。

索引良好的小语料库：如果你的数据小到一次稠密检索总能找到正确段落，就不要增加复杂度。

权衡取舍

延迟：多步骤循环意味着响应要花 5 到 30 秒，而不是 1 秒以内。

成本：每一步都是一次 LLM 调用加一次检索调用。要据此做预算。

确定性：智能体系统更难调试和复现，因为智能体在不同运行中可能走不同的路径。

评估：当检索计划是动态的时，衡量"检索得好不好"很困难。你评估的是最终答案，而不是中间决策。

常见错误

对简单问题硬套智能体：用力过猛只会抬高成本，却不会提升质量。

没有步数预算：不受约束的智能体可能循环好几分钟。把步数上限设在 5 到 10。

没有记忆：不记录过往检索，智能体就会重复劳动。

规划器太弱：如果规划用的 LLM 太小或提示词写得差，计划就糟糕，循环也会白白消耗调用。

跳过评估：因为智能体的执行轨迹很杂乱，团队就省略了正式评估，结果根本无法判断自己的系统是否真的比普通 RAG 更好。

Sources: