Was ist RAG Evaluation? | GEO-Glossar

RAG Evaluation ist die Methodik, mit der quantitativ gemessen wird, wie gut eine RAG-Pipeline guten Kontext abruft und präzise Antworten erzeugt. Da LLMs frei generieren, lässt sich die Qualität nicht mit einfachen Eingabe-Ausgabe-Vergleichen beurteilen, wie man gewöhnliche Software testet. Dedizierte Evaluierungs-Frameworks sind 2026 zum Standard-Werkzeugkasten für die RAG-Entwicklung geworden.

Warum es wichtig ist

RAG-Systeme bestehen aus mehreren Stufen (Query Rewriting -> Vektorsuche -> Reranking -> Kontextinjektion -> LLM-Generierung -> Zitation), und jede Stufe kann unabhängig fehlschlagen. Ein einziger defekter Schritt lässt die Antwortqualität abstürzen, doch wenn man nur darauf schaut, "war die endgültige Antwort gut?", erfährt man nicht, welche Stufe versagt hat. Forschung des Stanford HAI schätzt, dass etwa 35 % der produktiven RAG-Systeme unter Halluzinationen, verfehltem Abruf oder defekten Zitaten leiden, was sich ohne systematische Evaluierung nicht beheben lässt.

Kernmetriken

Abrufqualität

Context Precision: Anteil der abgerufenen Chunks, die tatsächlich relevant sind
Context Recall: Anteil der tatsächlich relevanten Chunks (Ground Truth), die abgerufen wurden
MRR (Mean Reciprocal Rank): Durchschnittlicher Kehrwert des Rangs des ersten relevanten Chunks
NDCG (Normalized DCG): Standard-IR-Metrik, die Relevanz und Rang kombiniert

Generierungsqualität

Faithfulness: Leitet sich die Antwort tatsächlich aus dem bereitgestellten Kontext ab? Das Gegenteil von Halluzination.
Answer Relevance: Wie gut passt die Antwort zur Frage?
Answer Correctness: Ist die Antwort tatsächlich richtig (gegenüber der Ground Truth)?
Answer Completeness: Wurde jeder Aspekt der Frage berücksichtigt?

Zitierqualität

Citation Precision: Stützen die zitierten Quellen die Aussage tatsächlich?
Citation Recall: Anteil der Aussagen in der Antwort, die Quellenangaben tragen.

Wichtige Evaluierungs-Frameworks

Ragas: Open-Source-Bibliothek für RAG-Evaluierung. Misst automatisch Context Precision, Faithfulness, Answer Relevance und mehr mithilfe eines "LLM-as-Judge"-Ansatzes.

TruLens: Integriertes Tracing und Evaluierung für RAG- und LLM-Anwendungen, von der Entwicklung bis zum Produktivmonitoring.

LangSmith: LangChains Evaluierungs- und Beobachtungswerkzeug mit Experimentvergleich, Trace-Debugging und Datensatzverwaltung.

ARES: Evaluierungs-Framework in akademischer Qualität, das synthetische Daten für automatisches Benchmarking nutzt.

Benutzerdefinierte Eval-Sets: In der Praxis das Wichtigste. Sammeln Sie 50 bis 500 echte Nutzeranfragen mit Ground-Truth-Antworten und verwenden Sie sie als Regressionstest-Set.

Grenzen von LLM-as-Judge

Die meisten modernen Frameworks stützen sich darauf, "ein anderes LLM die Antwortqualität bewerten zu lassen" (LLM-as-Judge). Das ist schnell und günstig, hat aber Einschränkungen.

Bewerter-Bias: Bewertende LLMs bevorzugen bestimmte Stile, Längen oder Modellfamilien.
Konsistenzlücken: Dieselbe Eingabe ergibt nicht zwangsläufig dieselbe Bewertung. Mildern Sie dies mit Temperature 0 und Mittelung über mehrere Durchläufe.
Komplexe Faktentreue: Beurteilungen, die Fachwissen erfordern, brauchen weiterhin menschliche Überprüfung.

Koppeln Sie kritische Entscheidungen stets mit menschlicher Prüfung.

Praxistipps

Stufenweise evaluieren: Bewerten Sie nicht die gesamte Pipeline auf einmal. Messen Sie Abruf, Reranking und Generierung getrennt, um Engpässe zu lokalisieren.

Regressionstests: Messen Sie mit demselben Eval-Set erneut, sobald sich Code, Prompts oder Modelle ändern, um Regressionen zu erkennen.

Produktivmonitoring: Evaluieren Sie kontinuierlich eine Zufallsstichprobe echter Antworten mit LLM-as-Judge, um Drift zu erkennen.

An Nutzer-Feedback anbinden: Korrelieren Sie Daumen hoch/runter und Klicks auf Neugenerierung mit den Evaluierungsmetriken.

Sources: