GEO

LLM-as-a-Judge

LLM-as-a-Judge e uma tecnica de avaliação em que um modelo de linguagem pontua ou compara as saidas de outro modelo (ou as proprias saidas anteriores) em relação a uma rubrica. Ela substitui a avaliação humana cara em tarefas como perguntas e respostas abertas, resumo e respostas de chatbot.

LLM-as-a-Judge e uma tecnica de avaliação em que um modelo de linguagem pontua ou compara as saidas de outro modelo (ou as proprias saidas anteriores) em relação a uma rubrica. Ela substitui a avaliação humana cara em tarefas como perguntas e respostas abertas, resumo e respostas de chatbot.

Por Que Importa

Avaliar saida generativa e a parte mais dificil de lançar recursos de LLM. A revisão humana não escala - avaliar 10.000 respostas por semana e inviavel, e a concordancia entre avaliadores costuma ser baixa. O artigo de 2023 "Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena" mostrou que o GPT-4 como juiz concorda com especialistas humanos em cerca de 85% - aproximadamente a mesma taxa com que humanos concordam entre si. Isso e bom o suficiente para substituir humanos na maioria dos ciclos de avaliação, liberando testes continuos por uma fração do custo.

Como Funciona

1. Defina uma rubrica: Criterios como precisão, completude, tom, segurança. Cada um com uma escala (1 a 5) ou aprovado/reprovado binario.

2. Faça o prompt ao juiz: De ao modelo juiz a entrada, a saida a avaliar e a rubrica. Peça que ele pontue e explique.

3. Pareada ou pontual:

  • Pontual: Pontua uma unica saida na rubrica. Mais facil, mas mais propenso a deriva de escala.
  • Pareada: Compara duas saidas e escolhe um vencedor. Mais confiavel porque o julgamento relativo e mais estavel do que a pontuação absoluta.

4. Agregue: Faça a media das pontuações em muitos exemplos e acompanhe ao longo do tempo conforme voce itera.

Onde Funciona Bem

Testes A/B de prompts: "A v2 produz respostas melhores que a v1?" e uma pergunta pareada que os juizes LLM resolvem bem.

Monitoramento de qualidade de RAG: Verifique se o contexto recuperado e de fato usado e tem fundamento factual.

Testes de regressão: Rode o juiz sobre um conjunto fixo de avaliação apos cada mudança de prompt.

Red-teaming: Um LLM juiz varre violações de politica em escala.

Vieses Conhecidos

Vies de posição: Em comparações pareadas, os juizes tendem a favorecer a primeira resposta. Mitigue trocando as posições e fazendo a media.

Vies de verbosidade: Respostas mais longas recebem nota mais alta mesmo quando não são melhores. Controle o tamanho na rubrica.

Autopreferencia: Os modelos preferem ligeiramente as proprias saidas. Use um modelo diferente como juiz quando possivel.

Descalibração de escala: Os juizes comprimem as pontuações para o meio. A avaliação pareada evita isso.

Sensibilidade ao prompt: Pequenas mudanças na redação da rubrica invertem os resultados. Fixe o prompt do juiz assim que estiver validado.

Boas Praticas

Use um modelo mais forte do que o que esta sendo julgado quando possivel.

Valide contra rotulos humanos em um pequeno conjunto inicial antes de confiar nas pontuações do juiz em escala.

Mostre a rubrica ao juiz de forma explicita - não presuma que ele sabe o que significa "bom".

Peça o raciocinio primeiro e depois a pontuação (chain-of-thought) - os juizes pontuam de forma mais confiavel quando são obrigados a explicar.

Prefira a avaliação pareada para decisões de alto risco e a pontual para monitoramento barato.

Fontes: