Prompt Caching
Prompt Caching ist die Funktion, bei der ein LLM-Anbieter das sich wiederholende Präfix eines Prompts (System-Prompt, Gesprächsverlauf, langes Dokument) über mehrere Anfragen hinweg speichert und wiederverwendet. Statt dieselben Token jedes Mal erneut zu verarbeiten, lädt das Modell sie aus dem Cache und senkt damit Kosten und Latenz drastisch. Anthropic führte die Funktion 2024 in Claude ein, gefolgt von OpenAI und Google, und sie wurde bis 2026 zu einer Standardfunktion der LLM-API.
Prompt Caching ist die Funktion, bei der ein LLM-Anbieter das sich wiederholende Präfix eines Prompts (System-Prompt, Gesprächsverlauf, langes Dokument) über mehrere Anfragen hinweg speichert und wiederverwendet. Statt dieselben Token jedes Mal erneut zu verarbeiten, lädt das Modell sie aus dem Cache und senkt damit Kosten und Latenz drastisch. Anthropic führte die Funktion 2024 in Claude ein, gefolgt von OpenAI und Google, und sie wurde bis 2026 zu einer Standardfunktion der LLM-API.
Warum das wichtig ist
RAG-Pipelines und Agenten fügen lange System-Prompts, Gesprächsverläufe und abgerufene Dokumente in jede Anfrage ein. Zehn Wiederholungen bedeuten zehn voll bepreiste Berechnungen. Die Dokumentation von Anthropic berichtet von einer Kostensenkung um bis zu 90 % und einer Latenzsenkung um 85 % beim zwischengespeicherten Anteil. Produktive KI-Apps haben ihre wirtschaftliche Struktur grundlegend um das Prompt Caching herum neu gestaltet.
Wie es funktioniert
- Cachefähige Abschnitte markieren: Der Entwickler markiert ausdrücklich, welche Teile des Prompts sicher zwischengespeichert werden können (Anthropic verwendet
cache_control-Blöcke; OpenAI speichert automatisch zwischen). - Erste Anfrage (Cache-Schreibvorgang): Das Modell verarbeitet den vollständigen Prompt und speichert den markierten Abschnitt im Cache. Diese Anfrage kostet aufgrund des Schreibaufwands tatsächlich etwas mehr.
- Nachfolgende Anfragen (Cache-Lesevorgang): Trifft eine Anfrage mit demselben Präfix ein, lädt das Modell den internen Zustand aus dem Cache. Diese Token werden mit etwa 10 % des Eingabepreises berechnet.
- Cache-TTL: Caches bestehen typischerweise etwa 5 Minuten (Anthropic) oder länger und werden bei Nichtnutzung automatisch entfernt.
Wann Sie es einsetzen
System-Prompts von Chatbots: Tausende Token an Rolle, Einschränkungen und Beispielen zwischenspeichern, statt sie in jeder Runde erneut zu verarbeiten.
QA über lange Dokumente: Ein Buch, PDF oder Handbuch in den Kontext laden und viele Fragen stellen. Das Dokument wird zwischengespeichert; nur die Frage ändert sich.
Tool-Definitionen von Agenten: Tausende Token an Tool-Schemata zwischenspeichern, sodass jeder Tool-Aufruf eine geringere Latenz hat.
Code-Assistenten: Eine gesamte Projekt-Codebasis für viele Folgefragen in den Kontext laden.
RAG-Pipelines: Die häufig abgerufenen festen Dokumente zwischenspeichern, um bei wiederholten Anfragen Kosten zu sparen.
Vorbehalte
Exakte Übereinstimmung: Das zwischengespeicherte Präfix muss Token für Token übereinstimmen. Variable Daten wie Datumsangaben oder Nutzer-IDs in den System-Prompt einzufügen, zerstört den Cache. Verschieben Sie variable Teile hinter den zwischengespeicherten Bereich.
Mindestgröße des Caches: Anthropic verlangt mindestens 1.024 Token (Sonnet/Opus), um zwischenzuspeichern. Kurze Prompts bringen keinen Vorteil.
TTL-Verwaltung: Eine Anfrage muss innerhalb des TTL-Fensters eintreffen, damit es zu einem Cache-Treffer kommt. Dienste mit geringem Traffic müssen den Cache über periodische Heartbeat-Anfragen "warmhalten".
Schreibaufwand: Die erste Anfrage kostet etwas mehr. Ohne Wiederverwendung verlieren Sie Geld.
Entwicklung im Jahr 2026
Längere Caches: Einige Anbieter bieten inzwischen TTLs von Stunden bis Tagen an, hilfreich für Unternehmensagenten und durchgehend aktive Chatbots.
Caching pro Nutzer: Personalisierte System-Prompts werden pro Nutzer zwischengespeichert.
Hybrides RAG: Häufig abgerufene Chunks zwischenspeichern, um bei wiederholten Anfragen die Vektorsuche zu überspringen.
Auswirkungen auf GEO
Damit eine KI-Suchmaschine Blog-Inhalte über viele Anfragen hinweg wiederverwenden kann, müssen die Inhalte in einer "cachefreundlichen, stabilen Form" vorliegen. Häufige URL-Änderungen oder dynamische Personalisierung innerhalb der Seite zerstören den Cache. Blogs, die strukturiertes Markdown, stabile URLs und statische Generierung bereitstellen, werden mit höherer Wahrscheinlichkeit von der KI-Suchinfrastruktur als kosteneffiziente Quellen wiederverwendet.
Quellen: