什么是 RAG 评估？| GEO 术语表

RAG 评估是一套方法论，用于定量衡量一个 RAG 流程在检索优质上下文和生成准确答案方面的表现。由于 LLM 是自由生成的，你无法像测试普通软件那样用简单的输入输出对比来判断质量，因此到 2026 年，专门的评估框架已成为 RAG 开发的标准工具集。

为什么重要

RAG 系统由多个阶段组成（查询改写 → 向量搜索 → 重排序 → 上下文注入 → LLM 生成 → 引用），任何一个阶段都可能独立出错。单个环节出问题就会让回答质量崩溃，但只看"最终答案是否好"并不能告诉你是哪个阶段出了问题。斯坦福 HAI 的研究估计，约 35% 的生产级 RAG 系统存在幻觉、检索遗漏或引用错误的问题，不进行系统化评估就无法修复。

核心指标

检索质量

上下文精确率（Context Precision）：检索到的文本块中真正相关的比例
上下文召回率（Context Recall）：真实相关的文本块中被成功检索到的比例
MRR（平均倒数排名）：第一个相关文本块倒数排名的平均值
NDCG（归一化 DCG）：结合相关性和排名的标准信息检索指标

生成质量

忠实度（Faithfulness）：答案是否真正源自所提供的上下文？这是幻觉的反面。
答案相关性（Answer Relevance）：答案与问题的匹配程度如何？
答案正确性（Answer Correctness）：答案是否确实正确（相对于标准答案）？
答案完整性（Answer Completeness）：是否回应了问题的每一个方面？

引用质量

引用精确率（Citation Precision）：被引用的来源是否确实支持该论断？
引用召回率（Citation Recall）：答案中带有来源引用的论断所占的比例。

主要评估框架

Ragas：用于 RAG 评估的开源库。采用"LLM 作为评判者"（LLM-as-Judge）的方式，自动衡量上下文精确率、忠实度、答案相关性等指标。

TruLens：为 RAG 和 LLM 应用提供集成化的追踪与评估，覆盖从开发到生产监控的全过程。

LangSmith：LangChain 的评估与观测工具，具备实验对比、追踪调试和数据集管理功能。

ARES：学术级评估框架，使用合成数据进行自动化基准测试。

自定义评估集：在实践中最为重要。收集 50 到 500 条带标准答案的真实用户查询，将其用作回归测试集。

LLM 作为评判者的局限

大多数现代框架依赖"让另一个 LLM 来给答案质量打分"（LLM-as-Judge）。这种方式快速且廉价，但有一些需要注意的地方。

评判偏好：作为评判者的 LLM 会偏好某些风格、长度或模型家族。
一致性不足：相同的输入未必会得到相同的分数。可以通过将温度设为 0 并对多次运行取平均来缓解。
复杂的事实性判断：需要领域专业知识的判断仍然需要人工核验。

关键决策务必搭配人工审核。

实用建议

逐阶段评估：不要一次性评估整个流程。分别衡量检索、重排序和生成，以定位瓶颈。

回归测试：每当代码、提示词或模型发生变化时，用相同的评估集重新衡量，以捕捉性能回退。

生产监控：用 LLM-as-Judge 持续评估真实回答中的随机样本，以检测漂移。

关联用户反馈：将点赞/点踩和重新生成的点击与评估指标关联起来。

Sources: