Was ist LLM-as-a-Judge? | GEO-Glossar

LLM-as-a-Judge ist eine Bewertungstechnik, bei der ein Sprachmodell die Ausgaben eines anderen Modells (oder seine eigenen früheren Ausgaben) anhand eines Bewertungsrasters bewertet oder vergleicht. Es ersetzt die teure menschliche Benotung bei Aufgaben wie offenem Frage-Antwort, Zusammenfassung und Chatbot-Antworten.

Warum es wichtig ist

Die Bewertung generativer Ausgaben ist der schwierigste Teil beim Ausliefern von LLM-Funktionen. Die menschliche Prüfung skaliert nicht, die Benotung von 10.000 Antworten pro Woche ist unbezahlbar, und die Übereinstimmung zwischen Bewertern ist oft gering. Die Arbeit "Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena" von 2023 zeigte, dass GPT-4 als Bewerter zu etwa 85 % mit menschlichen Experten übereinstimmt, ungefähr in derselben Rate, in der Menschen untereinander übereinstimmen. Das ist gut genug, um Menschen in den meisten Bewertungsschleifen zu ersetzen, und ermöglicht kontinuierliches Testen zu einem Bruchteil der Kosten.

So funktioniert es

1. Ein Bewertungsraster definieren: Kriterien wie Genauigkeit, Vollständigkeit, Ton, Sicherheit. Jeweils mit einer Skala (1 bis 5) oder binärem Bestanden/Nicht bestanden.

2. Den Bewerter prompten: Geben Sie dem Bewertermodell die Eingabe, die zu bewertende Ausgabe und das Bewertungsraster. Bitten Sie es, zu bewerten und zu erklären.

3. Paarweise oder punktweise:

Punktweise: Eine einzelne Ausgabe anhand des Rasters bewerten. Einfacher, aber anfälliger für Skalendrift.
Paarweise: Zwei Ausgaben vergleichen und einen Gewinner auswählen. Zuverlässiger, weil relative Beurteilung stabiler ist als absolute Bewertung.

4. Aggregieren: Werte über viele Beispiele mitteln und im Verlauf der Iteration verfolgen.

Wo es gut funktioniert

Prompts per A/B-Test prüfen: "Liefert v2 bessere Antworten als v1?" ist eine paarweise Frage, die LLM-Bewerter gut bewältigen.

Qualitätsüberwachung von RAG: Prüfen, ob der abgerufene Kontext tatsächlich genutzt wird und faktisch geerdet ist.

Regressionstests: Den Bewerter nach jeder Prompt-Änderung über ein festes Bewertungsset laufen lassen.

Red-Teaming: Ein Bewerter-LLM scannt im großen Maßstab auf Richtlinienverstöße.

Bekannte Verzerrungen

Positionsverzerrung: Bei paarweisen Vergleichen neigen Bewerter dazu, die erste Antwort zu bevorzugen. Mildern Sie dies, indem Sie die Positionen tauschen und mitteln.

Wortfülle-Verzerrung: Längere Antworten werden höher bewertet, auch wenn sie nicht besser sind. Berücksichtigen Sie die Länge im Bewertungsraster.

Selbstbevorzugung: Modelle bevorzugen ihre eigenen Ausgaben leicht. Verwenden Sie nach Möglichkeit ein anderes Modell als Bewerter.

Fehlkalibrierung der Skala: Bewerter stauchen die Werte zur Mitte hin. Die paarweise Bewertung umgeht dies.

Prompt-Empfindlichkeit: Kleine Änderungen am Wortlaut des Rasters kehren die Ergebnisse um. Fixieren Sie den Bewerter-Prompt, sobald er validiert ist.

Bewährte Praktiken

Verwenden Sie nach Möglichkeit ein stärkeres Modell als das bewertete.

Validieren Sie anhand menschlicher Labels an einem kleinen Seed-Set, bevor Sie den Bewerterwerten im großen Maßstab vertrauen.

Zeigen Sie dem Bewerter das Bewertungsraster ausdrücklich, gehen Sie nicht davon aus, dass er weiß, was "gut" bedeutet.

Verlangen Sie zuerst die Begründung, dann die Bewertung (Chain-of-Thought), Bewerter bewerten zuverlässiger, wenn sie zur Erklärung gezwungen werden.

Bevorzugen Sie paarweise Bewertung bei folgenschweren Entscheidungen, punktweise für günstige Überwachung.

Quellen: