Qu'est-ce que le LLM-as-a-Judge ? | Glossaire GEO

Le LLM-as-a-Judge est une technique d'évaluation dans laquelle un modèle de langage note ou compare les sorties d'un autre modèle (ou ses propres sorties antérieures) par rapport à une grille de critères. Il remplace la notation humaine coûteuse pour des tâches comme les questions-réponses ouvertes, le résumé et les réponses de chatbot.

Pourquoi c'est important

Évaluer une sortie générative est la partie la plus difficile de la livraison de fonctionnalités LLM. L'évaluation humaine ne passe pas à l'échelle, noter 10 000 réponses par semaine est inabordable, et l'accord entre évaluateurs est souvent médiocre. L'article de 2023 « Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena » a montré que GPT-4 en tant que juge s'accorde avec des experts humains à environ 85 %, soit à peu près le même taux d'accord que les humains entre eux. C'est suffisant pour remplacer les humains dans la plupart des boucles d'évaluation, ouvrant la voie à des tests continus pour une fraction du coût.

Comment ça fonctionne

1. Définir une grille de critères : des critères comme l'exactitude, l'exhaustivité, le ton, la sécurité. Chacun avec une échelle (1 à 5) ou une réussite/échec binaire.

2. Solliciter le juge : donnez au modèle juge l'entrée, la sortie à évaluer et la grille. Demandez-lui de noter et d'expliquer.

3. Par paires ou par points :

Par points : noter une seule sortie selon la grille. Plus simple mais plus sujet à la dérive d'échelle.
Par paires : comparer deux sorties et désigner un gagnant. Plus fiable car le jugement relatif est plus stable que la notation absolue.

4. Agréger : moyenner les scores sur de nombreux exemples, suivre l'évolution dans le temps à mesure des itérations.

Là où ça fonctionne bien

Prompts d'A/B testing : « la v2 produit-elle de meilleures réponses que la v1 ? » est une question par paires que les juges LLM gèrent bien.

Suivi de la qualité RAG : vérifier que le contexte récupéré est réellement utilisé et factuellement fondé.

Tests de régression : exécuter le juge sur un jeu d'évaluation fixe après chaque changement de prompt.

Red-teaming : un LLM juge analyse les violations de politique à grande échelle.

Biais connus

Biais de position : dans les comparaisons par paires, les juges tendent à favoriser la première réponse. Atténuez en inversant les positions et en moyennant.

Biais de verbosité : les réponses plus longues sont mieux notées même lorsqu'elles ne sont pas meilleures. Contrôlez la longueur dans la grille.

Auto-préférence : les modèles préfèrent légèrement leurs propres sorties. Utilisez un modèle différent comme juge lorsque c'est possible.

Mauvais calibrage d'échelle : les juges compriment les scores vers le milieu. L'évaluation par paires contourne ce problème.

Sensibilité au prompt : de petits changements de formulation de la grille inversent les résultats. Verrouillez le prompt du juge une fois validé.

Bonnes pratiques

Utilisez un modèle plus puissant que celui évalué lorsque c'est possible.

Validez par rapport à des étiquettes humaines sur un petit jeu initial avant de faire confiance aux scores du juge à grande échelle.

Montrez explicitement la grille au juge, ne supposez pas qu'il sait ce que « bon » signifie.

Demandez le raisonnement d'abord, puis la note (chaîne de pensée), les juges notent plus fidèlement lorsqu'ils sont contraints d'expliquer.

Privilégiez le par paires pour les décisions à fort enjeu, le par points pour un suivi économique.

Sources: