Context Rot
Context Rot ist der schrittweise Rückgang der Genauigkeit, der Anweisungsbefolgung und der Zitattreue eines LLM, wenn der Eingabekontext länger wird. Selbst bei Kontextfenstern von bis zu 1 Mio. Token bricht die praktisch nutzbare Genauigkeit weit vorher ein, und der Unterschied zwischen 32k, 128k und 1M ist weit kleiner, als das Marketing vermuten lässt.
Context Rot ist der schrittweise Rückgang der Genauigkeit, der Anweisungsbefolgung und der Zitattreue eines LLM, wenn der Eingabekontext länger wird. Selbst bei Kontextfenstern von bis zu 1 Mio. Token bricht die praktisch nutzbare Genauigkeit weit vorher ein, und der Unterschied zwischen 32k, 128k und 1M ist weit kleiner, als das Marketing vermuten lässt.
Warum es wichtig ist
Benchmarks bewerben Fenster mit Millionen Token, doch empirische Forschung ab 2025 zeichnet ein anderes Bild: Auswertungen von Chroma, Anthropic und Databricks zeigen durchweg, dass dasselbe Modell bei identischen Aufgaben von 95 % Genauigkeit bei 8k auf rund 60 % bei 64k abfällt. Bei der retrieval-augmentierten Generierung (RAG) nutzt das Hineinkippen von 30 Chunks auf einmal typischerweise nur die ersten und letzten wenigen, während der mittlere Teil ignoriert wird (Lost in the Middle), und das Modell behauptet womöglich sogar, Inhalte "konsultiert" zu haben, die es nie tatsächlich genutzt hat. Context Rot ist die größte verborgene Falle im GEO- und RAG-Systemdesign, und sie widerspricht direkt der Intuition, dass "mehr Kontext = bessere Antworten".
Die Symptome
Mittlere Information ignoriert: Entscheidende Fakten, die in der Mitte des Kontexts platziert sind, schaffen es nicht in die Antwort, während Inhalte am Anfang und Ende überleben.
Anweisungsdrift: Vorgaben des System-Prompts werden nach einer langen Nutzernachricht zunehmend ignoriert, also Tonfall, Format und Verbote sickern alle durch.
Zitat-Halluzination: Das Modell sagt "laut dem fünften Absatz oben...", aber ein solcher Absatz existiert nicht, oder der Inhalt stammt aus einem anderen Dokument.
Zusammenbruch der Behaltensleistung: In Mehrfach-Dialogen wird früherer Kontext faktisch vergessen. Nach 4 bis 5 Zügen verliert das Modell frühere Vereinbarungen aus dem Blick.
Ausfall von Werkzeugaufrufen: In langen Kontexten definierte Werkzeuge werden seltener genutzt oder mit den falschen Argumenten aufgerufen.
Warum es geschieht
Aufmerksamkeitsverdünnung: Jedes Token muss auf jedes andere Token achten, sodass das Signal pro Token mit zunehmender Sequenzlänge schwächer wird.
Grenzen der Positionskodierung: Jenseits der trainierten Länge verliert die Positionsinformation an Bedeutung. RoPE und ALiBi helfen, lösen es aber nicht vollständig.
Verteilung der Trainingsdaten: Die meisten beim Training gesehenen Dokumente sind kurz. Ein Fenster von 1 Mio. Token bedeutet nicht, dass das Modell auf Dokumenten mit 1 Mio. Token trainiert wurde.
Grenzen der Nadel-im-Heuhaufen-Suche: Einfache Nachschlageaufgaben gelingen auch bei langem Kontext, doch Schlussfolgern, Synthese und die Integration mehrerer Fakten verschlechtern sich weit schneller.
Auswirkungen auf GEO
Answer Engines rufen ab, zerteilen in Chunks und synthetisieren, indem sie die abgerufenen Chunks in den Kontext des LLM stapeln, um die Antwort zu erzeugen. Context Rot bedeutet:
Top-platzierte Chunks dominieren: Wenn es Ihr Chunk nach dem Reranking nicht in die Top 1 bis 3 schafft, wird er faktisch nicht zitiert, obwohl er "im Kontext" ist.
Kurze, in sich geschlossene Chunks gewinnen: Längere Chunks verdünnen die Aufmerksamkeit. 100 bis 300 Wörter sind der ideale Bereich.
Direkte Antwort-Eröffnungen zählen: Ein erster Absatz, der die Frage beantwortet, überlebt unabhängig davon, wo er im Kontext steht.
Zitattreue muss überprüft werden: Antworten können Zitate halluzinieren, die fundiert aussehen; Nachbearbeitungsprüfungen sind nötig.
Strategien zur Abmilderung
Kontextkomprimierung: Werfen Sie keine Rohdokumente in den Kontext, sondern nutzen Sie eine anfragebewusste Zusammenfassung, um nur die relevanten Teile zu extrahieren.
Aggressives Reranking: Rufen Sie 30 bis 50 Kandidaten ab, sortieren Sie auf die Top 5 bis 10 um und stellen Sie diese dann in den Kontext.
Kritische Information bewusst platzieren: Platzieren Sie die wichtigsten Chunks am Anfang oder Ende (vermeiden Sie die Mitte).
Hierarchische Synthese: Im Map-Reduce-Stil, also Untergruppen von Chunks synthetisieren und anschließend die Zusammenfassungen synthetisieren.
Ein Kontextbudget festlegen: Begrenzen Sie den Kontext bewusst auf zum Beispiel 8k Token und optimieren Sie innerhalb dieser Grenze.
Automatisierte RAG-Bewertung: Überprüfen Sie die faktische Übereinstimmung zwischen Antworten und Quell-Chunks per LLM-as-Judge oder Embedding-Ähnlichkeit.
Häufige Missverständnisse
"Mehr Kontext ist immer besser": Beworbenes Fenster ≠ nutzbares Fenster. Die zuverlässige praktische Grenze liegt bei rund 10 bis 30 % der angegebenen Kapazität.
"Wenn die Nadel im Heuhaufen gefunden wird, funktioniert langer Kontext": Das Nachschlagen eines einzelnen Fakts ist einfach. Das Schlussfolgern über mehrere Fakten bricht weit früher zusammen.
"Fine-Tuning behebt es": Fine-Tuning hilft etwas, aber die strukturellen Grenzen bleiben. Das Systemdesign ist die wirksamere Behelfslösung.
"Neue Modelle haben es gelöst": Stand 2026 verschlechtern sich selbst Spitzenmodelle jenseits von 32k bis 64k Token messbar.
Häufige Fehler
Alle Abrufergebnisse in den Kontext kippen: Das rohe Einfügen der Top-30-Chunks garantiert Lost in the Middle.
Den System-Prompt ans Ende setzen: Systemanweisungen, die nach einer langen Nutzernachricht platziert werden, werden ignoriert. Setzen Sie sie an den Anfang.
Dem Kontextfenster-Marketing vertrauen: Eine Werbung mit 1 Mio. Token bedeutet nicht 1 Mio. nutzbare Token.
Die RAG-Validierung überspringen: Wenn "sieht fundiert aus" der Maßstab ist, häufen sich Halluzinationen an.
Einheitliche Chunk-Größen: Alle Dokumente auf identische Länge zu schneiden zerstört Bedeutung. Nutzen Sie semantisches Chunking.
Sources: