什么是 LLM-as-a-Judge？| GEO 术语表

LLM-as-a-Judge 是一种评估技术，由一个语言模型依据评分标准（rubric），对另一个模型（或它自己早先的输出）的输出进行打分或比较。它替代了开放式问答、摘要和聊天机器人回答等任务中昂贵的人工评分。

为什么重要

评估生成式输出是上线 LLM 功能中最困难的部分。人工评审无法规模化，每周给 1 万条回答打分的成本难以承受，而评审者之间的一致性往往很差。2023 年的论文《Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena》表明，作为评判者的 GPT-4 与人类专家的一致率约为 85%，大致相当于人类彼此之间的一致率。这足以在大多数评估循环中替代人工，从而以极低的成本实现持续测试。

工作原理

1. 定义评分标准：诸如准确性、完整性、语气、安全性等标准，每一项都配有刻度（1–5）或二元的通过/不通过。

2. 提示评判者：把输入、待评估的输出和评分标准交给评判模型，要求它打分并给出解释。

3. 成对或单点评估：

单点（Pointwise）：依据评分标准为单个输出打分。更简单，但更容易出现刻度漂移。
成对（Pairwise）：比较两个输出并选出胜者。更可靠，因为相对判断比绝对打分更稳定。

4. 汇总：在大量样本上对分数取平均，并在迭代过程中持续追踪。

哪些场景效果好

A/B 测试提示词：“v2 是否比 v1 产生更好的答案？”是一个成对问题，LLM 评判者能够很好地处理。

RAG 质量监控：检查检索到的上下文是否真正被使用且有事实依据。

回归测试：每次提示词改动后，在固定的评估集上运行评判者。

红队演练：用一个评判 LLM 大规模扫描政策违规。

已知偏差

位置偏差：在成对比较中，评判者倾向于偏爱第一个回答。可通过互换位置并取平均来缓解。

冗长偏差：更长的回答会被评得更高，即便它并不更好。请在评分标准中对长度加以控制。

自我偏好：模型会略微偏爱自己的输出。可能的话，请使用不同的模型作为评判者。

刻度校准失当：评判者会把分数向中间压缩。成对评估可以绕开这一点。

提示词敏感性：评分标准措辞的细微改动会颠覆结果。一旦评判提示词通过验证，就将其锁定。

最佳实践

尽可能使用比被评判模型更强的模型。

在小规模种子集上对照人工标注进行验证，再放心地大规模信任评判分数。

明确地把评分标准展示给评判者，不要假定它知道“好”意味着什么。

先要求给出推理，再打分（思维链），评判者在被要求先解释时打分更可靠。

高风险决策优先采用成对评估，廉价的监控则用单点评估。

Sources: