Was ist Robots.txt? | SEO-Glossar

Robots.txt ist eine öffentlich zugängliche Textdatei im Stammverzeichnis einer Website (/robots.txt), die als Standardprotokoll (Robots Exclusion Protocol) dient, um Suchmaschinen-Crawlern anzuzeigen, auf welche URLs der Website sie zugreifen dürfen.

Warum es wichtig ist

Suchmaschinen besuchen pro Tag nur eine begrenzte Anzahl von Seiten, abhängig vom Crawl-Budget, das jeder Website zugewiesen ist. Eine korrekt konfigurierte robots.txt blockiert unnötige Pfade, etwa Admin-Seiten, API-Endpunkte und doppelte Inhalte, vom Crawling und ermöglicht es, das Crawl-Budget auf die zentralen Inhalte zu konzentrieren. Bei umfangreichen Websites mit Tausenden von Seiten oder mehr wirkt sich diese Konfiguration direkt auf die Indexierungsgeschwindigkeit und die gesamte SEO-Leistung aus.

Seit 2025 hat das Aufkommen von KI-Crawlern wie GPTBot, CCBot, PerplexityBot und Google-Extended die Rolle der robots.txt weiter ausgeweitet. Die sicherste Standardeinstellung für öffentliche Marketinginhalte besteht darin, den Crawler-Zugriff zu erlauben und nur jene Pfade zu kontrollieren, die Crawl-Budget verschwenden oder nicht-öffentliche Bereiche freilegen. Blockieren Sie KI-Trainings-Crawler nur dann, wenn dies zu Ihrer Strategie für Content-Lizenzierung und KI-Sichtbarkeit passt.

Wichtige Direktiven

Direktive	Beschreibung	Beispiel
`User-agent`	Gibt an, für welchen Crawler die Regeln gelten. `*` bedeutet alle Crawler.	`User-agent: Googlebot`
`Disallow`	Gibt Pfade an, die vom Crawling ausgeschlossen werden.	`Disallow: /admin/`
`Allow`	Erlaubt bestimmte Unterpfade innerhalb eines per Disallow blockierten übergeordneten Pfads.	`Allow: /admin/public/`
`Sitemap`	Gibt die URL der XML-Sitemap an. Wird üblicherweise am Ende der Datei platziert.	`Sitemap: https://example.com/sitemap.xml`
`Crawl-delay`	Legt die Wartezeit in Sekunden zwischen Crawler-Anfragen fest. Der Googlebot ignoriert diese Direktive.	`Crawl-delay: 10`

Konfigurationsleitfaden

Für einen öffentlichen Blog sollte die Grundkonfiguration einfach sein:

User-agent: *
Allow: /

Sitemap: https://example.com/sitemap.xml

Fügen Sie Disallow-Regeln nur für Bereiche hinzu, die nicht gecrawlt werden sollen, etwa die interne Suche, Admin-Routen, doppelte Filter-URLs oder API-Endpunkte. Wenn Sie bestimmte KI-Trainings-Crawler blockieren möchten, während Such-Crawler weiterhin Zugriff haben, isolieren Sie diese User-Agents:

User-agent: *
Allow: /
Disallow: /admin/
Disallow: /api/
Disallow: /*?*utm_

# Block AI crawlers
User-agent: GPTBot
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: anthropic-ai
Disallow: /

# Sitemap
Sitemap: https://example.com/sitemap.xml

Wichtige Überlegungen:

Dateispeicherort: Die Datei muss sich im Stammverzeichnis der Domain befinden (https://example.com/robots.txt). Wird sie in einem Unterverzeichnis abgelegt, erkennen Crawler sie nicht.
Groß-/Kleinschreibung: Bei URL-Pfaden wird zwischen Groß- und Kleinschreibung unterschieden. Disallow: /Private/ blockiert nicht /private/.
Regelabgleich: Google verwendet die spezifischste passende Regel. Wenn sowohl eine Allow- als auch eine Disallow-Regel auf eine URL zutrifft, gewinnt der längere passende Pfad.
Umgang mit HTTP-Statuscodes: Eine robots.txt mit Status 404 oder 410 wird behandelt, als gäbe es keine Einschränkungen. Eine 5xx-Antwort kann das Crawling vorübergehend stoppen, weil Google nicht erkennen kann, ob die Regeln nicht verfügbar oder absichtlich restriktiv sind.
Tests sind zwingend erforderlich: Verwenden Sie den robots.txt-Bericht und das Tool zur URL-Prüfung der Search Console, um zu überprüfen, ob der Googlebot die Datei abrufen kann und wichtige URLs nicht blockiert sind.
Sitemap-Integration: Auch wenn es empfohlen wird, Ihre Sitemap direkt in der Google Search Console und in den Bing Webmaster Tools einzureichen, ist es ebenfalls eine gute Praxis, sie in der robots.txt anzugeben.

Häufige Fehler

Sie als Sicherheitswerkzeug zu betrachten: Robots.txt ist lediglich eine Aufforderung an Crawler, sie blockiert den Zugriff nicht physisch. Sensible Seiten erfordern separate Sicherheitsmaßnahmen wie Server-Authentifizierung oder IP-Sperrung.
Disallow mit noindex zu verwechseln: Disallow blockiert nur das Crawling, nicht die Indexierung. Seiten mit externen Links können auch ohne Crawling weiterhin in den Suchergebnissen erscheinen. Um eine Seite vollständig aus den Suchergebnissen zu entfernen, verwenden Sie das noindex-Meta-Tag.
Eine Seite zu blockieren, bevor Google noindex sehen kann: Wenn Sie Disallow und noindex gemeinsam hinzufügen, crawlt Google die Seite möglicherweise nie und sieht daher die noindex-Direktive nie.
Versehentlich die gesamte Website zu blockieren: Wird Disallow: / unter User-agent: * gesetzt, werden alle Crawler vom Zugriff auf die gesamte Website ausgeschlossen. Ein häufiger Fehler besteht darin, diese Einstellung während eines Website-Relaunchs oder in einer Staging-Umgebung zu verwenden und zu vergessen, sie für den Produktiv-Deployment rückgängig zu machen.
CSS- und JS-Dateien zu blockieren: Der Googlebot rendert Seiten, um Inhalte zu bewerten. Wird das Crawling von CSS- oder JavaScript-Dateien blockiert, führt dies zu unvollständigem Rendering und kann die SEO-Bewertung senken.
Sensible Pfade in der robots.txt offenzulegen: Robots.txt ist eine öffentlich zugängliche Datei, die jeder einsehen kann. Wird ein privater Pfad wie /secret-admin-panel/ unter Disallow aufgeführt, verrät dies die Existenz dieses Pfads tatsächlich nach außen.

Quellen:

Wie inblog hilft

inblog erlaubt Suchmaschinen-Crawlern standardmäßig den Zugriff und bietet über das Dashboard die Verwaltung von KI-Crawlern (GPTBot usw.).

Robots.txt

Warum es wichtig ist

Wichtige Direktiven

Konfigurationsleitfaden

Häufige Fehler

Verwandte inblog-Beiträge

Wie inblog hilft