Context Engineering
Context Engineering ist die Praxis, bewusst zu gestalten, welche Information, in welcher Reihenfolge, in welchem Format ein LLM sieht, wenn es eine Antwort erzeugt. Es umfasst das Prompt Engineering, das einen einzelnen Prompt verfeinert, und erstreckt sich auf alles, was in das Kontextfenster gelangt: System-Prompts, abgerufene Dokumente, Gesprächsverlauf, Nutzer-Metadaten, Werkzeug-Schemata und mehr. Simon Willison, Tobi Lütke und Andrej Karpathy begannen 2025, den Begriff öffentlich zu verwenden, und bis 2026 ist er zum Standardvokabular in der LLM-Produktentwicklung geworden.
Context Engineering ist die Praxis, bewusst zu gestalten, welche Information, in welcher Reihenfolge, in welchem Format ein LLM sieht, wenn es eine Antwort erzeugt. Es umfasst das Prompt Engineering, das einen einzelnen Prompt verfeinert, und erstreckt sich auf alles, was in das Kontextfenster gelangt: System-Prompts, abgerufene Dokumente, Gesprächsverlauf, Nutzer-Metadaten, Werkzeug-Schemata und mehr. Simon Willison, Tobi Lütke und Andrej Karpathy begannen 2025, den Begriff öffentlich zu verwenden, und bis 2026 ist er zum Standardvokabular in der LLM-Produktentwicklung geworden.
Warum es wichtig ist
Die meisten LLM-Produktfehler in der Produktion entstehen daraus, dass "wir dem Modell den falschen Kontext gegeben haben", nicht daraus, dass "das Modell schlecht ist". Selbst bei Kontextfenstern mit 1 Mio. Token schadet es der Leistung, Informationen wahllos hineinzukippen, also der gut dokumentierte "Lost in the Middle"-Effekt. Context Engineering behandelt die zusammengesetzte Eingabe (RAG, Speicher, Werkzeuge, Verlauf) als Gestaltungsvariable, und dasselbe Modell kann mit besserer Kontextkonstruktion 2- bis 10-mal besser abschneiden.
Woraus sich Kontext zusammensetzt
System-Prompt: Feste Anweisungen, also Rolle, Einschränkungen, Tonfall, Ziele.
Nutzer-Prompt: Die Eingabe des Nutzers für diesen Zug.
Gesprächsverlauf: Frühere Züge.
RAG-Ergebnisse: Relevante Dokumente und Chunks aus einer Vektor-DB.
Werkzeugdefinitionen: Namen, Beschreibungen und Schemata aufrufbarer Funktionen.
Ergebnisse von Werkzeugaufrufen: Daten, die von früheren Werkzeugaufrufen zurückgegeben wurden.
Nutzer-Metadaten: Sprache, Zeitzone, Abonnementtarif, Verhaltensverlauf.
Verfassung / Guardrails: Sicherheitsregeln, verbotene Themen, Ausgabefilter.
All das verschmilzt zu einem einzigen Kontextfenster, das an das LLM geht.
Context Engineering vs. Prompt Engineering
| Aspekt | Prompt Engineering | Context Engineering |
|---|---|---|
| Einheit | Ein einzelner Prompt-Satz | Das gesamte Kontextfenster |
| Anliegen | "Wie frage ich?" | "Was soll ich zeigen?" |
| Ebene | Taktisch (Satzebene) | Systemisch (Pipeline-Ebene) |
| Beispiel | "Denke Schritt für Schritt" ergänzen | Anzahl, Reihenfolge und Zusammenfassung der RAG-Chunks festlegen |
Prompt Engineering ist die Kunst, gute Sätze zu schreiben; Context Engineering ist die Kunst, die gesamte Eingabestruktur zu gestalten, in der diese Sätze leben.
Kernprinzipien
Nur einbeziehen, was nötig ist: Längerer Kontext bedeutet mehr "Lost in the Middle" und höhere Kosten. Schneiden Sie irrelevante Informationen rigoros heraus.
Bewusst anordnen: LLMs gewichten Anfang und Ende stärker. Platzieren Sie die wichtigsten Anweisungen und Daten an den Rändern.
Strukturierte Auszeichnung: Hüllen Sie externe Dokumente in <source>…</source> und Beispiele in <example>…</example>, damit das Modell die Rolle jedes Teils kennt.
Dynamische Auswahl: Unterschiedliche Anfragetypen verdienen unterschiedliche Werkzeuglisten, RAG-Ergebnisse und System-Prompts. Eine Einheitslösung verschwendet Tokens.
Zusammenfassen und komprimieren: Fassen Sie lange Verläufe zusammen, um Tokens zu sparen. Funktionen wie Claude-Artefakte sind ein typisches Beispiel.
Agentenschleifen steuern: Bereinigen und rekonstruieren Sie bei mehrstufigem Schlussfolgern den Kontext zwischen den Schritten.
Praktische Herausforderungen
Token-Budget: Kontextfenster sind nicht kostenlos. 1 Mio. Token zu füllen lässt Kosten und Latenz explodieren.
Relevanz-Ranking: Entscheiden Sie, wie viele RAG-Chunks gezogen und wie stark sie neu sortiert werden.
Speicherstrategie: Langzeitspeicher in einer Vektor-DB, Kurzzeitspeicher per Zusammenfassung.
Debugging: Wenn die Ausgabequalität sinkt, finden Sie heraus, welcher Teil des Kontexts schuld ist. Logging und Reproduzierbarkeit sind unverzichtbar.
GEO-Auswirkungen
AI-Suche-Engines sind selbst Context-Engineering-Pipelines. Inhalte, die so strukturiert sind, dass sie "gut in den Kontext passen", werden häufiger zitiert. Konkret: ① jeder Abschnitt sollte eigenständig zusammenfassbar sein, ② der erste Satz sollte die Kernantwort tragen, ③ Metadaten und Quellen sollten explizit sein. Das ist "context-engineering-freundliches Schreiben" für Blogger.
Sources: