SEO

Crawling

Crawling ist der Prozess, bei dem Suchmaschinen-Bots (Crawler) wie der Googlebot automatisch Webseiten besuchen, um deren Inhalte zu entdecken und zu erfassen. Gecrawlte Seiten durchlaufen anschließend die Indexierungsphase, nach der sie in den Suchergebnissen erscheinen können.

Crawling ist der Prozess, bei dem Suchmaschinen-Bots (Crawler) wie der Googlebot automatisch Webseiten besuchen, um deren Inhalte zu entdecken und zu erfassen. Gecrawlte Seiten durchlaufen anschließend die Indexierungsphase, nach der sie in den Suchergebnissen erscheinen können.

Warum es wichtig ist

Seiten, die nicht von Suchmaschinen gecrawlt werden, können nicht in den Index aufgenommen werden und erscheinen folglich nicht in den Suchergebnissen. Egal wie gut Ihre Inhalte sind, wenn ein Crawler nicht auf die Seite zugreifen kann, ist die Auswirkung auf das SEO praktisch null. Bemerkenswert ist, dass Cloudflare zum Stand 2025 meldete, dass der GPTBot-Traffic im Jahresvergleich um 305 % zunahm, während der Googlebot-Traffic um 96 % stieg. In einer Umgebung, in der KI-Crawler und Suchmaschinen-Crawler gleichzeitig Serverressourcen verbrauchen, ist das Crawl-Management wichtiger denn je geworden.

Was ist das Crawl-Budget

Das Crawl-Budget ist die gesamte Zeit und die Ressourcen, die Google dem Crawling einer bestimmten Website zuweist. Es wird durch zwei Faktoren bestimmt:

  1. Crawl Rate Limit: Die maximale Anzahl gleichzeitiger Verbindungen und die Verzögerung zwischen Anfragen, die der Googlebot einhält, um den Server nicht zu überlasten. Ist die Antwortzeit des Servers (TTFB) schnell, unter 200 ms, steigt das Limit. Wird der Server langsamer oder gibt 5xx-Fehler zurück, sinkt das Limit.
  2. Crawl Demand: Das Ausmaß, in dem Google die Website crawlen möchte, basierend darauf, wie beliebt und aktuell ihre Inhalte sind. Seiten, die häufig aktualisiert werden und hohen Traffic erhalten, erzeugen eine höhere Nachfrage.

Wenn eine Website weniger als 10.000 Seiten hat und neue Inhalte innerhalb weniger Tage indexiert werden, ist das Crawl-Budget im Allgemeinen kein großes Problem. Bei großen Websites mit zehntausenden Seiten oder mehr oder wenn Inhalte schneller produziert werden, als Google sie indexieren kann, ist die Optimierung des Crawl-Budgets jedoch unerlässlich.

So optimieren Sie das Crawling

  1. Halten Sie Ihre Sitemap aktuell: Zum Stand 2026 reichen statische Sitemaps allein nicht aus. Websites mit häufig wechselnden Inhalten, etwa Blogs oder E-Commerce-Shops, sollten ihre Sitemaps täglich oder in Echtzeit aktualisieren.
  2. Optimieren Sie die robots.txt: Hindern Sie Crawler am Zugriff auf Admin-Seiten, interne Suchergebnisseiten, Filterkombinations-URLs und andere Pfade, die nicht gecrawlt werden müssen, und verhindern Sie so eine Verschwendung des Crawl-Budgets.
  3. Verbessern Sie die Serverantwortzeit: Eine TTFB von 200 ms oder weniger veranlasst den Googlebot, seine Crawling-Rate automatisch zu erhöhen. Der Einsatz eines CDN, die Optimierung der Caching-Strategie und Upgrades der Server-Spezifikationen sind allesamt wirksam.
  4. Beseitigen Sie doppelte Inhalte: Setzen Sie rel="canonical"-Tags auf doppelte Seiten, die durch URL-Parameter, Paginierung oder die gemischte Verwendung von HTTP und HTTPS entstehen, damit sich Crawler auf die kanonische URL konzentrieren.
  5. Verbessern Sie die Struktur der internen Links: Gestalten Sie interne Links so, dass wichtige Seiten innerhalb von 3 Klicks von der obersten Ebene der Website aus erreichbar sind, damit Crawler die wichtigsten Inhalte zuerst entdecken.
  6. Verwalten Sie KI-Crawler: KI-Crawler wie GPTBot und CCBot können bis zu 40 % der Bandbreite verbrauchen. Blockieren Sie unnötige KI-Crawler in der robots.txt, um mehr Serverressourcen für den Googlebot freizugeben.

Umgang mit Crawling-Fehlern

Den Crawling-Status können Sie im Crawling-Statistik-Bericht der Google Search Console überprüfen. Die wichtigsten Fehlertypen und ihre Lösungen lauten wie folgt:

  • 5xx-Serverfehler: Dies weist auf ein Stabilitätsproblem des Servers hin. Überprüfen Sie die Serverprotokolle und setzen Sie Auto-Scaling für Traffic-Spitzen ein. Bleibt dieser Fehler bestehen, verringert der Googlebot automatisch seine Crawling-Häufigkeit.
  • 404 Not Found: Gelöschte Seiten oder falsche URLs. Wurde der Inhalt verschoben, richten Sie eine 301-Weiterleitung ein. Wurde er dauerhaft gelöscht, entfernen Sie die URL aus der Sitemap.
  • Weiterleitungsketten: Wenn eine Weiterleitung über drei oder mehr Sprünge verkettet ist, gibt der Crawler möglicherweise auf. Ändern Sie die Weiterleitung so, dass sie mit einer 301 direkt auf die endgültige URL verweist.
  • Durch robots.txt blockiert: Überprüfen Sie regelmäßig, dass wichtige Seiten nicht unbeabsichtigt blockiert sind. Nutzen Sie das URL-Prüfungstool der Search Console, um zu prüfen, ob einzelne Seiten gecrawlt werden können.

Sources:

Verwandte inblog-Beiträge

Wie inblog hilft

Die SSR-Architektur von inblog ermöglicht es dem Googlebot, Inhalte ohne JavaScript-Rendering vollständig zu crawlen.