Was ist 'Lost in the Middle'? | GEO-Glossar

"Lost in the Middle" ist die empirische Erkenntnis, dokumentiert von Liu et al. in einem Paper von Stanford/Samaya AI aus dem Jahr 2023, dass LLMs am besten abschneiden, wenn die wichtigsten Informationen ganz am Anfang oder ganz am Ende eines langen Kontexts stehen, und deutlich schlechter, wenn dieselben Informationen in der Mitte liegen. Selbst Modelle mit Kontextfenstern von mehr als 100.000 Token weisen diese U-förmige Aufmerksamkeitskurve weiterhin auf.

Warum das wichtig ist

Ein "großes Kontextfenster" ist nicht dasselbe wie "liest alles gleichermaßen". Ein Modell mit 200.000 Kontext-Token kann technisch ein ganzes Buch aufnehmen, doch die praktische Genauigkeit bei einer Frage, deren Antwort auf Seite 300 eines 500-seitigen PDFs steht, ist weitaus schlechter als bei derselben Frage, die auf Seite 5 oder Seite 495 beantwortet wird. Für Entwickler hat das konkrete Folgen: Wie Sie den Kontext innerhalb eines Prompts anordnen, verändert die Antwortqualität dramatisch, oft stärker als die Menge des Kontexts, die Sie bereitstellen. Die meisten produktiven RAG-Ausfälle, die durch "das Modell hat die abgerufene Passage ignoriert" verursacht werden, sind in Wahrheit getarnte Lost-in-the-Middle-Ausfälle.

Die ursprüngliche Erkenntnis

Das Paper von Liu et al. aus dem Jahr 2023, "Lost in the Middle: How Language Models Use Long Contexts", testete GPT-3.5, GPT-4, Claude und mehrere offene Modelle bei der Beantwortung von Fragen über mehrere Dokumente hinweg. Für jede Frage verschoben sie das relevante Dokument auf die Positionen 1, 5, 10, 15 und 20 von insgesamt 20 Dokumenten. Ergebnisse:

Die Genauigkeit war am höchsten, wenn das relevante Dokument an erster Stelle stand (am Anfang des Kontexts).
Die Genauigkeit war nahezu ebenso hoch, wenn es an letzter Stelle stand (am Ende).
Die Genauigkeit sank um 20 bis 30 Punkte, wenn das relevante Dokument an den mittleren Positionen lag.

Die Form gleicht einem U: stark an beiden Enden, schwach in der Mitte. Spätere Arbeiten haben gezeigt, dass dieses Muster bei Claude, Gemini und Llama-Modellen bestehen bleibt, selbst als deren Kontextfenster wuchsen.

Warum es passiert

Mehrere Hypothesen, die vermutlich alle teilweise zutreffen:

Verteilung der Trainingsdaten: Trainingsdaten neigen dazu, wichtige Informationen an den Anfang (Schlagzeilen, Themensätze) und an das Ende (Schlussfolgerungen, Kurzfassungen) zu stellen. Das Modell erlernt diese positionsbezogenen Vorannahmen.

Aufmerksamkeitsverfall: Die effektive Reichweite der Selbstaufmerksamkeit nimmt über sehr lange Sequenzen hinweg ab, selbst mit Techniken wie RoPE oder ALiBi. Weit entfernte Token in der Mitte erhalten weniger Aufmerksamkeitsmasse als nahe gelegene Enden.

Grenzen der Positionscodierung: Modelle mit erweitertem Kontext erben Positionscodierungen, die für kürzere Sequenzen abgestimmt wurden, sodass mittlere Positionen vergleichsweise untertrainiert sind.

Recency Bias: Modelle gewichten jüngere Token stärker, was das starke Ende verstärkt, der Mitte aber nicht hilft.

Wie Sie das Design darauf ausrichten

1. Stellen Sie den wichtigsten Kontext an den Anfang oder an das Ende: Platzieren Sie bei RAG die am höchsten eingestufte abgerufene Passage ganz am Anfang oder ganz am Ende des Kontextblocks.

2. Reranking nach dem Abruf: Verwenden Sie einen Reranker, um abgerufene Chunks nach Relevanz zu sortieren, und stellen Sie dann den obersten an den Rand.

3. Nach Relevanz neu ordnen, nicht nach Abrufreihenfolge: Die Vektorsuche liefert Ergebnisse oft in Reihenfolge der Distanz; ordnen Sie sie neu, damit die relevantesten in den aufmerksamkeitsstarken Positionen landen.

4. Die Mitte zusammenfassen: Statt den rohen mittleren Kontext einfach abzuladen, fassen Sie ihn zusammen und platzieren Sie die Zusammenfassung am Anfang. Eine komprimierte Mitte überdauert besser als eine rohe.

5. Den Kontext kürzen: Die U-Kurve verschlechtert sich mit zunehmender Länge. Weniger, relevantere Chunks schlagen viele nebensächliche.

6. Kritische Fakten wiederholen: Denselben zentralen Fakt sowohl am Anfang als auch am Ende zu platzieren, nutzt die U-Kurve aus, statt gegen sie anzukämpfen.

7. Aufgabenanweisung an beiden Enden: Manche Prompts profitieren davon, die Frage am Anfang und am Ende des Kontexts zu wiederholen und so die Belege einzurahmen.

Gilt das im Jahr 2026 noch?

Neuere Long-Context-Modelle (Gemini 1.5 / 2.0, Claude 3.5+/4.x, GPT-4 Turbo und die o-Reihe) haben den Abruf aus der Mitte des Kontexts erheblich verbessert. Needle-in-a-Haystack-Tests bei Gemini 2.0 zeigen über das gesamte Fenster hinweg einen nahezu perfekten Abruf. Doch bei realen Aufgaben mit mehreren Fakten und komplexem Schlussfolgern zeigt sich die U-Form weiterhin, nur weniger dramatisch. Der praktische Rat hat sich kaum geändert: Kürzerer, gut geordneter Kontext schlägt nach wie vor langen, zufällig geordneten Kontext.

Häufige Fehler

Anzunehmen, dass mehr Kontext gleich bessere Antworten bedeutet: Nur bis zu einem gewissen Punkt zutreffend; danach setzt die Verschlechterung in der Mitte ein.

Abgerufene Passagen in Reihenfolge der Vektorsuche abladen: Die Vektordistanz entspricht nicht der positionsbezogenen Wichtigkeit.

Reranking überspringen: Abruf plus Reranking ist wirksamer als längerer Kontext mit naivem Abruf.

Nicht mit Nadeln an realistischen Positionen testen: Spielerische "Needle in Haystack"-Tests platzieren die Nadel oft an gleichmäßig zufälligen Positionen, was die U-Kurve verbirgt. Testen Sie an realistischen Anwendungsfällen.

Dem Marketing glauben: "1 Mio. Token Kontext" bedeutet nicht, dass das Modell alle 1 Mio. Token gleich behandelt.

Quellen: