GEO

Agentic RAG

Agentic RAG ist eine Retrieval-Augmented-Generation-Architektur, bei der ein LLM-Agent, nicht eine feste Pipeline, entscheidet, was abgerufen wird, wann, wie und ob die Antwort gut genug ist. Anstelle eines einzelnen Ablaufs aus Abfrage, Abruf und Antwort plant ein Agent, stellt mehrere Suchanfragen, bewertet seine eigenen Teilantworten und versucht es erneut, bis er sicher ist.

Agentic RAG ist eine Retrieval-Augmented-Generation-Architektur, bei der ein LLM-Agent, nicht eine feste Pipeline, entscheidet, was abgerufen wird, wann, wie und ob die Antwort gut genug ist. Anstelle eines einzelnen Ablaufs aus Abfrage, Abruf und Antwort plant ein Agent, stellt mehrere Suchanfragen, bewertet seine eigenen Teilantworten und versucht es erneut, bis er sicher ist.

Warum es wichtig ist

Klassisches RAG hat eine Obergrenze: eine Abfrage, ein Abruf, eine Antwort. Das funktioniert bei einfachen Nachschlagevorgängen, scheitert aber bei komplexen Fragen, mehrdeutigen Abfragen oder Aufgaben, die das Lesen mehrerer Dokumente über mehrere Schritte hinweg erfordern. Agentic RAG durchbricht diese Grenze, indem es dem Modell Autonomie über den Abrufprozess selbst gibt. Benchmarks von LangChain, LlamaIndex und Anthropic aus den Jahren 2024 und 2025 zeigen, dass Agentic RAG einfaches RAG bei der Beantwortung von Fragen über mehrere Dokumente, bei der Faktenprüfung und bei Recherchaufgaben um 20 bis 40 % übertrifft. Es ist die Architektur hinter Perplexitys Deep Research, ChatGPTs Browsing-Funktion und den meisten "Chat mit deinen Dokumenten"-Systemen für Unternehmen, die tatsächlich funktionieren.

Wie es sich von Standard-RAG unterscheidet

Standard-RAG:

  1. Nutzer stellt eine Frage
  2. System bettet die Frage ein, ruft die Top-k ab
  3. Modell generiert die Antwort aus dem abgerufenen Kontext

Ein Durchgang. Statisch. Kein erneuter Versuch.

Agentic RAG:

  1. Nutzer stellt eine Frage
  2. Agent plant: "Was muss ich wissen, um dies zu beantworten?"
  3. Agent ruft das Abruf-Tool mit einer spezifischen Teilabfrage auf
  4. Agent liest die Ergebnisse, entscheidet, was fehlt
  5. Agent ruft den Abruf erneut mit verfeinerten Abfragen auf (Schleife)
  6. Agent entscheidet, wann er genug hat, und entwirft eine Antwort
  7. Agent kritisiert sich optional selbst und überarbeitet
  8. Endgültige Antwort wird geliefert

Mehrstufig. Adaptiv. Kann zurückgehen.

Kernkomponenten

Planer: Ein LLM (oft dasselbe, das antwortet), das die Frage in Abrufschritte zerlegt.

Abruf-Tools: Vektorsuche, Keyword-Suche, API-Aufrufe, Datenbankabfragen. Der Agent kann unter ihnen wählen.

Gedächtnis: Der Agent verfolgt, was er bereits gesehen hat, um redundante Aufrufe zu vermeiden.

Selbstkritik-Schleife: Der Agent bewertet, ob seine Antwortvorlage gut fundiert ist, und ruft, falls nicht, mehr ab.

Abbruchbedingung: Entweder ein Konfidenzschwellenwert, ein Schrittbudget oder ein explizites "Ich habe genug"-Signal.

Häufige Muster

ReAct (Reasoning + Acting): Der Agent wechselt in einem einzigen Notizblock zwischen Denken und dem Aufrufen von Tools. Das ursprüngliche agentische Muster von Yao et al., 2022.

Plan-and-execute: Der Agent schreibt zuerst einen mehrstufigen Plan und führt dann jeden Schritt aus. Besser für tiefgehende Recherche; langsamer bei einfachen Fragen.

Self-RAG: Das Modell entscheidet dynamisch, ob überhaupt ein Abruf nötig ist. Wenn die Frage trivial ist, überspringt es den Abruf vollständig.

Multi-Agent-RAG: Mehrere spezialisierte Agenten (Sucher, Leser, Kritiker, Schreiber) arbeiten zusammen. Leistungsstark, aber teuer.

Wann Sie es einsetzen sollten

Komplexe Recherchaufgaben: "Fasse die Gewinntrends im vierten Quartal 2025 über die FAANG-Konzerne hinweg zusammen."

Faktenprüfung über mehrere Dokumente: Abgleich von Aussagen mit mehreren Quellen.

Mehrdeutige Fragen: Bei denen der richtige Abruf von der Disambiguierung abhängt ("Welcher Jordan?").

Ergebnisse mit hohem Einsatz: Recht, Medizin, Finanzen, bei denen ein einzelner Abruf einen kritischen Kontext verfehlen könnte.

Agentenintegrierter Chat: Assistenten, die auf Basis des Gelernten auch Aktionen ausführen (E-Mail senden, Termin vereinbaren).

Wann Sie es nicht einsetzen sollten

Einfache FAQ-Nachschlagevorgänge: Ein Abruf reicht aus; agentische Schleifen erhöhen Latenz und Kosten.

Knappe Latenzbudgets: Chat-Oberflächen mit einem Ziel von einer Sekunde können sich keine mehrstufigen Agentenschleifen leisten.

Kostensensibles Volumen: Jede Schleifeniteration ist ein weiterer Inferenzaufruf. Im großen Maßstab kann Agentic RAG 5- bis 10-mal teurer sein als Standard-RAG.

Gut indexierte kleine Korpora: Wenn Ihre Daten klein genug sind, dass ein dichter Abruf immer die richtige Passage findet, fügen Sie keine Komplexität hinzu.

Kompromisse

Latenz: Mehrstufige Schleifen bedeuten, dass Antworten 5 bis 30 Sekunden dauern, nicht unter einer Sekunde.

Kosten: Jeder Schritt ist ein LLM-Aufruf plus ein Abrufaufruf. Planen Sie entsprechend.

Determinismus: Agentische Systeme sind schwerer zu debuggen und zu reproduzieren, weil der Agent bei verschiedenen Durchläufen unterschiedliche Wege gehen kann.

Bewertung: Zu messen, "ob der Abruf gut ist", ist schwierig, wenn der Abrufplan dynamisch ist. Sie bewerten die endgültigen Antworten, nicht die Zwischenentscheidungen.

Häufige Fehler

Agenten bei einfachen Fragen erzwingen: Überdimensionierung treibt die Kosten in die Höhe, ohne die Qualität zu verbessern.

Kein Schrittbudget: Ein nicht beschränkter Agent kann minutenlang in der Schleife laufen. Begrenzen Sie die Schritte auf 5 bis 10.

Kein Gedächtnis: Ohne Verfolgung vergangener Abrufe wiederholt der Agent seine Arbeit.

Schwacher Planer: Wenn das planende LLM zu klein oder schlecht angeleitet ist, sind die Pläne schlecht und die Schleifen verschwenden Aufrufe.

Bewertung überspringen: Da Agenten-Traces verrauscht sind, überspringen Teams die formale Bewertung und können dann nicht feststellen, ob ihr System tatsächlich besser ist als einfaches RAG.

Sources: