Was ist ein KI-Crawler? | SEO-Glossar

Ein KI-Crawler ist ein Bot, der von einem LLM-Anbieter betrieben wird, etwa OpenAIs GPTBot, Anthropics ClaudeBot, Perplexitys PerplexityBot, Common Crawls CCBot oder Googles Google-Extended, und der Webseiten abruft, um entweder große Sprachmodelle zu trainieren oder Antworten der KI-Suche in aktuellen Inhalten zu fundieren. KI-Crawler verhalten sich wie Such-Crawler, dienen aber einem anderen Zweck: Sie speisen die KI-Antwortschicht statt der SERP.

Warum es wichtig ist

In den Jahren 2024 bis 2025 wuchs der KI-Crawler-Traffic von einem "Rundungsfehler" auf 10 bis 20 % des gesamten Bot-Traffics vieler Content-Websites. Cloudflares Daten von 2025 zeigen, dass GPTBot und Google-Extended jeweils zig Millionen Anfragen pro Tag über das offene Web stellen. Für Publisher werfen KI-Crawler zwei Entscheidungen auf: ob man sie überhaupt zulässt (Sie trainieren möglicherweise ein Modell ohne Vergütung) und, falls ja, wie man für sie optimiert, so wie SEOs einst für Googlebot optimiert haben. Sie zu blockieren entfernt Ihre Marke aus KI-Antworten; sie ohne Struktur zuzulassen liefert Sie dem aus, wie die KI rohes HTML interpretiert.

Die wichtigsten KI-Crawler

GPTBot (OpenAI): Ruft Inhalte vorrangig für das Training von ChatGPT und die Aktualisierung von Wissen ab. User-Agent: GPTBot. Kann in der robots.txt websiteweit blockiert werden. Rendert kein JavaScript.

ClaudeBot / Claude-Web (Anthropic): Ruft Inhalte für das Training und Retrieval von Claude ab. User-Agents: ClaudeBot, Claude-Web, anthropic-ai. Beachtet die robots.txt.

PerplexityBot (Perplexity): Ruft Inhalte für die Echtzeit-Antwortgenerierung in der Perplexity-Suche ab. User-Agent: PerplexityBot. Historisch umstritten nach Berichten aus dem Jahr 2024 über das Umgehen der robots.txt; mittlerweile ausdrücklich konform.

Google-Extended (Google): Ein Token, das es Websites ermöglicht, sich gegen die Nutzung für das Gemini-Training und Vertex-AI-Produkte zu entscheiden, ohne den regulären Googlebot zu blockieren. Entscheidende Unterscheidung: Das Blockieren von Googlebot killt den Such-Traffic; das Blockieren von Google-Extended deaktiviert nur das KI-Training.

CCBot (Common Crawl): Gehört keinem KI-Unternehmen, doch die Ausgabe von Common Crawl ist der mit Abstand häufigste Trainingskorpus für LLMs. Das Blockieren von CCBot entfernt Sie aus den meisten Modelltrainings-Pipelines.

Applebot-Extended, Meta-ExternalAgent, Bytespider: Neuere Crawler der KI-Ära von Apple, Meta und ByteDance.

Trainings- vs. Retrieval-Crawler

Trainings-Crawler nehmen Inhalte einmalig (oder periodisch) auf und backen sie in die Modellgewichte ein. Sie zu blockieren bedeutet, dass Ihre Inhalte keine zukünftigen Modelle trainieren, also ein langfristiger Verlust an Markenvertrautheit.

Retrieval-Crawler rufen Seiten zur Abfragezeit ab, um eine konkrete Antwort zu fundieren. Sie zu blockieren bedeutet, dass Ihre Inhalte nicht in Live-KI-Zitaten erscheinen können, also ein unmittelbarer Verlust an KI-Sichtbarkeit.

Manche Bots tun beides; manche nur eines. Wissen Sie, welcher welcher ist, bevor Sie Ihre Richtlinie festlegen.

Den Zugriff steuern

Über die robots.txt:

User-agent: GPTBot
Disallow: /

User-agent: Google-Extended
Disallow: /

Über HTTP-Header: X-Robots-Tag: noai, noimageai teilt einigen Crawlern mit, die Seite nicht für das KI-Training zu verwenden, auch wenn die Durchsetzung uneinheitlich ist.

Über Firewall / WAF: Cloudflare, Fastly und AWS WAF bieten mittlerweile Ein-Klick-Sperren für KI-Crawler an, die am Edge durchgesetzt werden, statt sich auf die Einhaltung der robots.txt zu verlassen.

Über Paywall oder Authentifizierung: Die zuverlässigste Sperre. Inhalte hinter einem Login sind für Crawler standardmäßig unzugänglich.

Sollten Sie KI-Crawler blockieren?

Argumente für das Blockieren: Sie möchten kein unvergütetes Training mit Ihren originären Recherchen, Analysen oder kostenpflichtigen Inhalten. Große Publisher (NYT, Reuters, CNN) haben viele KI-Crawler blockiert und klagen oder lizenzieren separat.

Argumente gegen das Blockieren: Ihre Marke verschwindet aus KI-Antworten. Für die meisten Content-Websites, insbesondere SaaS, KMU und Marketing-Blogs, ist die KI-Sichtbarkeit wertvoller als die theoretischen Einnahmen aus Trainingsdaten, die Sie ohnehin nie sehen würden.

Mittelweg: Blockieren Sie reine Trainings-Crawler (Google-Extended, GPTBot für das Training), während Sie Retrieval-Crawler (PerplexityBot, ChatGPT Search) zulassen. Veröffentlichen Sie hochwertige Inhalte und werden Sie zitiert, ohne langfristiges Training zu speisen.

Häufige Fehler

Googlebot blockieren in dem Glauben, Googles KI blockiert zu haben: Googlebot übernimmt die Indexierung für die Suche; Google-Extended übernimmt das KI-Training. Sie sind getrennt.

Sich allein auf selbst gemeldete User-Agents verlassen: Manche Bots geben sich als andere aus. Kombinieren Sie die robots.txt mit Firewall-Regeln für besonders wichtige Sperren.

Nie entscheiden: Standardmäßig "alles zulassen" ist ebenfalls eine Entscheidung. Prüfen Sie Ihre Server-Logs einmal und wählen Sie eine Richtlinie.

CCBot unbemerkt blockieren: Sie haben sich nun aus Common Crawl entfernt, dem Rückgrat des meisten Open-Source-Modelltrainings.

Quellen: