GEO

RAG 评估

RAG 评估是一套方法论,用于定量衡量一个 RAG 流程在检索优质上下文和生成准确答案方面的表现。由于 LLM 是自由生成的,你无法像测试普通软件那样用简单的输入输出对比来判断质量,因此到 2026 年,专门的评估框架已成为 RAG 开发的标准工具集。

RAG 评估是一套方法论,用于定量衡量一个 RAG 流程在检索优质上下文和生成准确答案方面的表现。由于 LLM 是自由生成的,你无法像测试普通软件那样用简单的输入输出对比来判断质量,因此到 2026 年,专门的评估框架已成为 RAG 开发的标准工具集。

为什么重要

RAG 系统由多个阶段组成(查询改写 → 向量搜索 → 重排序 → 上下文注入 → LLM 生成 → 引用),任何一个阶段都可能独立出错。单个环节出问题就会让回答质量崩溃,但只看"最终答案是否好"并不能告诉你是哪个阶段出了问题。斯坦福 HAI 的研究估计,约 35% 的生产级 RAG 系统存在幻觉、检索遗漏或引用错误的问题,不进行系统化评估就无法修复。

核心指标

检索质量

  • 上下文精确率(Context Precision):检索到的文本块中真正相关的比例
  • 上下文召回率(Context Recall):真实相关的文本块中被成功检索到的比例
  • MRR(平均倒数排名):第一个相关文本块倒数排名的平均值
  • NDCG(归一化 DCG):结合相关性和排名的标准信息检索指标

生成质量

  • 忠实度(Faithfulness):答案是否真正源自所提供的上下文?这是幻觉的反面。
  • 答案相关性(Answer Relevance):答案与问题的匹配程度如何?
  • 答案正确性(Answer Correctness):答案是否确实正确(相对于标准答案)?
  • 答案完整性(Answer Completeness):是否回应了问题的每一个方面?

引用质量

  • 引用精确率(Citation Precision):被引用的来源是否确实支持该论断?
  • 引用召回率(Citation Recall):答案中带有来源引用的论断所占的比例。

主要评估框架

Ragas:用于 RAG 评估的开源库。采用"LLM 作为评判者"(LLM-as-Judge)的方式,自动衡量上下文精确率、忠实度、答案相关性等指标。

TruLens:为 RAG 和 LLM 应用提供集成化的追踪与评估,覆盖从开发到生产监控的全过程。

LangSmith:LangChain 的评估与观测工具,具备实验对比、追踪调试和数据集管理功能。

ARES:学术级评估框架,使用合成数据进行自动化基准测试。

自定义评估集:在实践中最为重要。收集 50 到 500 条带标准答案的真实用户查询,将其用作回归测试集。

LLM 作为评判者的局限

大多数现代框架依赖"让另一个 LLM 来给答案质量打分"(LLM-as-Judge)。这种方式快速且廉价,但有一些需要注意的地方。

  • 评判偏好:作为评判者的 LLM 会偏好某些风格、长度或模型家族。
  • 一致性不足:相同的输入未必会得到相同的分数。可以通过将温度设为 0 并对多次运行取平均来缓解。
  • 复杂的事实性判断:需要领域专业知识的判断仍然需要人工核验。

关键决策务必搭配人工审核。

实用建议

逐阶段评估:不要一次性评估整个流程。分别衡量检索、重排序和生成,以定位瓶颈。

回归测试:每当代码、提示词或模型发生变化时,用相同的评估集重新衡量,以捕捉性能回退。

生产监控:用 LLM-as-Judge 持续评估真实回答中的随机样本,以检测漂移。

关联用户反馈:将点赞/点踩和重新生成的点击与评估指标关联起来。

Sources: