GEO

LLM-as-a-Judge

LLM-as-a-Judge 是一种评估技术,由一个语言模型依据评分标准(rubric),对另一个模型(或它自己早先的输出)的输出进行打分或比较。它替代了开放式问答、摘要和聊天机器人回答等任务中昂贵的人工评分。

LLM-as-a-Judge 是一种评估技术,由一个语言模型依据评分标准(rubric),对另一个模型(或它自己早先的输出)的输出进行打分或比较。它替代了开放式问答、摘要和聊天机器人回答等任务中昂贵的人工评分。

为什么重要

评估生成式输出是上线 LLM 功能中最困难的部分。人工评审无法规模化,每周给 1 万条回答打分的成本难以承受,而评审者之间的一致性往往很差。2023 年的论文《Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena》表明,作为评判者的 GPT-4 与人类专家的一致率约为 85%,大致相当于人类彼此之间的一致率。这足以在大多数评估循环中替代人工,从而以极低的成本实现持续测试。

工作原理

1. 定义评分标准:诸如准确性、完整性、语气、安全性等标准,每一项都配有刻度(1–5)或二元的通过/不通过。

2. 提示评判者:把输入、待评估的输出和评分标准交给评判模型,要求它打分并给出解释。

3. 成对或单点评估

  • 单点(Pointwise):依据评分标准为单个输出打分。更简单,但更容易出现刻度漂移。
  • 成对(Pairwise):比较两个输出并选出胜者。更可靠,因为相对判断比绝对打分更稳定。

4. 汇总:在大量样本上对分数取平均,并在迭代过程中持续追踪。

哪些场景效果好

A/B 测试提示词:“v2 是否比 v1 产生更好的答案?”是一个成对问题,LLM 评判者能够很好地处理。

RAG 质量监控:检查检索到的上下文是否真正被使用且有事实依据。

回归测试:每次提示词改动后,在固定的评估集上运行评判者。

红队演练:用一个评判 LLM 大规模扫描政策违规。

已知偏差

位置偏差:在成对比较中,评判者倾向于偏爱第一个回答。可通过互换位置并取平均来缓解。

冗长偏差:更长的回答会被评得更高,即便它并不更好。请在评分标准中对长度加以控制。

自我偏好:模型会略微偏爱自己的输出。可能的话,请使用不同的模型作为评判者。

刻度校准失当:评判者会把分数向中间压缩。成对评估可以绕开这一点。

提示词敏感性:评分标准措辞的细微改动会颠覆结果。一旦评判提示词通过验证,就将其锁定。

最佳实践

尽可能使用比被评判模型更强的模型

在小规模种子集上对照人工标注进行验证,再放心地大规模信任评判分数。

明确地把评分标准展示给评判者,不要假定它知道“好”意味着什么。

先要求给出推理,再打分思维链),评判者在被要求先解释时打分更可靠。

高风险决策优先采用成对评估,廉价的监控则用单点评估。

Sources: