LLM-as-a-Judge
LLM-as-a-Judge e uma tecnica de avaliação em que um modelo de linguagem pontua ou compara as saidas de outro modelo (ou as proprias saidas anteriores) em relação a uma rubrica. Ela substitui a avaliação humana cara em tarefas como perguntas e respostas abertas, resumo e respostas de chatbot.
LLM-as-a-Judge e uma tecnica de avaliação em que um modelo de linguagem pontua ou compara as saidas de outro modelo (ou as proprias saidas anteriores) em relação a uma rubrica. Ela substitui a avaliação humana cara em tarefas como perguntas e respostas abertas, resumo e respostas de chatbot.
Por Que Importa
Avaliar saida generativa e a parte mais dificil de lançar recursos de LLM. A revisão humana não escala - avaliar 10.000 respostas por semana e inviavel, e a concordancia entre avaliadores costuma ser baixa. O artigo de 2023 "Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena" mostrou que o GPT-4 como juiz concorda com especialistas humanos em cerca de 85% - aproximadamente a mesma taxa com que humanos concordam entre si. Isso e bom o suficiente para substituir humanos na maioria dos ciclos de avaliação, liberando testes continuos por uma fração do custo.
Como Funciona
1. Defina uma rubrica: Criterios como precisão, completude, tom, segurança. Cada um com uma escala (1 a 5) ou aprovado/reprovado binario.
2. Faça o prompt ao juiz: De ao modelo juiz a entrada, a saida a avaliar e a rubrica. Peça que ele pontue e explique.
3. Pareada ou pontual:
- Pontual: Pontua uma unica saida na rubrica. Mais facil, mas mais propenso a deriva de escala.
- Pareada: Compara duas saidas e escolhe um vencedor. Mais confiavel porque o julgamento relativo e mais estavel do que a pontuação absoluta.
4. Agregue: Faça a media das pontuações em muitos exemplos e acompanhe ao longo do tempo conforme voce itera.
Onde Funciona Bem
Testes A/B de prompts: "A v2 produz respostas melhores que a v1?" e uma pergunta pareada que os juizes LLM resolvem bem.
Monitoramento de qualidade de RAG: Verifique se o contexto recuperado e de fato usado e tem fundamento factual.
Testes de regressão: Rode o juiz sobre um conjunto fixo de avaliação apos cada mudança de prompt.
Red-teaming: Um LLM juiz varre violações de politica em escala.
Vieses Conhecidos
Vies de posição: Em comparações pareadas, os juizes tendem a favorecer a primeira resposta. Mitigue trocando as posições e fazendo a media.
Vies de verbosidade: Respostas mais longas recebem nota mais alta mesmo quando não são melhores. Controle o tamanho na rubrica.
Autopreferencia: Os modelos preferem ligeiramente as proprias saidas. Use um modelo diferente como juiz quando possivel.
Descalibração de escala: Os juizes comprimem as pontuações para o meio. A avaliação pareada evita isso.
Sensibilidade ao prompt: Pequenas mudanças na redação da rubrica invertem os resultados. Fixe o prompt do juiz assim que estiver validado.
Boas Praticas
Use um modelo mais forte do que o que esta sendo julgado quando possivel.
Valide contra rotulos humanos em um pequeno conjunto inicial antes de confiar nas pontuações do juiz em escala.
Mostre a rubrica ao juiz de forma explicita - não presuma que ele sabe o que significa "bom".
Peça o raciocinio primeiro e depois a pontuação (chain-of-thought) - os juizes pontuam de forma mais confiavel quando são obrigados a explicar.
Prefira a avaliação pareada para decisões de alto risco e a pontual para monitoramento barato.
Fontes: