X-Robots-Tag
Der X-Robots-Tag ist eine Möglichkeit, das Crawling und die Indexierung durch Suchmaschinen über HTTP-Antwort-Header zu steuern. Anstatt <meta name="robots"> innerhalb von HTML zu platzieren, sendet der Server dieselben Anweisungen in einem Antwort-Header wie X-Robots-Tag: noindex.
Der X-Robots-Tag ist eine Möglichkeit, das Crawling und die Indexierung durch Suchmaschinen über HTTP-Antwort-Header zu steuern. Anstatt <meta name="robots"> innerhalb von HTML zu platzieren, sendet der Server dieselben Anweisungen in einem Antwort-Header wie X-Robots-Tag: noindex.
Warum es wichtig ist
HTML-Meta-Tags funktionieren nur innerhalb von HTML-Dateien. Nicht-HTML-Ressourcen, PDFs, Bilder, Videos, JSON-API-Antworten, können keine <meta>-Tags verwenden, was eine Lücke in der Indexierungssteuerung hinterlässt. Der X-Robots-Tag schließt diese Lücke, indem er auf jede HTTP-Antwort angewendet wird. Search Engine Land hat E-Commerce-Fälle dokumentiert, in denen Zehntausende PDF-Kataloge indexiert wurden und als Duplicate Content die Rankings beeinträchtigten, in einem Zug mit dem X-Robots-Tag behoben.
X-Robots-Tag vs. Meta-Robots vs. robots.txt
| Methode | Ort | Geltungsbereich | Blockiert Crawling? |
|---|---|---|---|
| robots.txt | /robots.txt | URL-Muster | Ja, blockiert das Crawling selbst |
| Meta-Robots | HTML <head> | Diese HTML-Seite | Nein, steuert nur die Indexierung |
| X-Robots-Tag | HTTP-Antwort-Header | Jeder Ressourcentyp | Nein, steuert nur die Indexierung |
Entscheidende Unterscheidung: robots.txt sagt "nicht crawlen", während Meta-Robots und X-Robots-Tag "nicht indexieren" sagen. Um die Indexierung zu blockieren, muss der Googlebot die Seite tatsächlich erreichen, um die Anweisung zu lesen. Ein Blockieren in der robots.txt stoppt das Crawling vollständig, sodass Google die Indexierungsanweisung nie sieht.
Wichtige Anweisungen
| Anweisung | Bedeutung |
|---|---|
noindex | Nicht in den Suchergebnissen anzeigen |
nofollow | Links auf der Seite nicht folgen |
none | Entspricht noindex, nofollow |
noarchive | Keine zwischengespeicherte Kopie in den SERPs anzeigen |
nosnippet | Keine Snippets oder Thumbnails anzeigen |
unavailable_after: [date] | Nach dem Datum aus dem Index entfernen |
max-snippet: [n] | Snippet-Länge begrenzen |
max-image-preview: [setting] | Größe der Bildvorschau begrenzen |
max-video-preview: [n] | Länge der Videovorschau begrenzen |
Für die Snippet-Steuerung auf Elementebene innerhalb einer HTML-Seite verwenden Sie data-nosnippet an genau dem Element, das Sie aus den Such-Snippets ausschließen möchten. Das unterscheidet sich vom X-Robots-Tag, da es nur ausgewählten Text verbirgt, anstatt den Indexierungsstatus der gesamten Ressource zu ändern.
Beispielkonfigurationen
PDF-Indexierung blockieren (Apache .htaccess):
<FilesMatch "\.pdf$">
Header set X-Robots-Tag "noindex, nofollow"
</FilesMatch>
Ein Bildverzeichnis blockieren (Nginx):
location /private-images/ {
add_header X-Robots-Tag "noindex";
}
Einen bestimmten Crawler ansprechen (nur Googlebot):
X-Robots-Tag: googlebot: noindex
Zeitlich begrenzte Indexierung:
X-Robots-Tag: unavailable_after: 31 Dec 2026 23:59:59 GMT
Snippet-Ausschluss auf Elementebene (HTML):
<p data-nosnippet>Diesen Satz nicht in Google-Snippets anzeigen.</p>
Praktische Fallstricke
Nicht mit einem robots.txt-Disallow kombinieren: Wenn die robots.txt die URL blockiert, kann Google den Header überhaupt nicht lesen. Um die Indexierung zu blockieren, erlauben Sie das Crawling in der robots.txt und verwenden Sie den X-Robots-Tag noindex.
Erfordert eine Serverkonfiguration: Anders als Meta-Tags wird der X-Robots-Tag auf Webserver-Ebene konfiguriert (Apache, Nginx, Cloudflare Workers). CMS-Plattformen handhaben das nicht immer automatisch.
Mit Search Console oder curl überprüfen: Prüfen Sie mit dem URL-Prüftool der Google Search Console oder mit curl -I https://example.com/file.pdf, ob der Header tatsächlich erscheint.
Snippet-Steuerungen sind keine Datenschutzsteuerungen: nosnippet und data-nosnippet ändern, wie Google ein Ergebnis anzeigt, aber der zugrunde liegende Inhalt bleibt öffentlich zugänglich. Verwenden Sie für private Inhalte eine Authentifizierung oder serverseitige Zugriffssteuerung.
Sources: