Was ist Indexierbarkeit? | SEO-Glossar

Indexierbarkeit (Indexability) bezeichnet den Zustand, in dem eine Suchmaschine eine gecrawlte Seite analysieren, im Index (der Indexdatenbank) speichern und in den Suchergebnissen anzeigen kann. Während die Crawlbarkeit fragt: "Kann die Suchmaschine auf diese Seite zugreifen?", fragt die Indexierbarkeit: "Ist die zugegriffene Seite berechtigt, indexiert zu werden?"

Warum es wichtig ist

Gecrawlt zu werden bedeutet nicht, dass die Indexierung garantiert ist. Auch Googles offizielle Dokumentation hält fest: "Die Indexierung ist nicht garantiert, und nicht jede von Google verarbeitete Seite wird indexiert." Eine nicht indexierte Seite kann, so gut ihr Inhalt auch sein mag, nicht in den Suchergebnissen erscheinen — Indexierbarkeit ist somit eine notwendige Bedingung für Suchsichtbarkeit und Ranking.

Insbesondere mit wachsender Website-Größe bleiben leicht mehr Seiten im Zustand "Gecrawlt – zurzeit nicht indexiert" liegen. Crawlbarkeitsprobleme sind vergleichsweise leicht zu erkennen, da der Bot-Zugriff selbst blockiert ist, während Indexierbarkeitsprobleme oft unbemerkt bleiben: Die Seite öffnet sich normal und ist nur in der Suche unsichtbar.

Unterschied zur Crawlbarkeit

Aspekt	Crawlbarkeit	Indexierbarkeit
Frage	Kann die Suchmaschine auf die Seite zugreifen und sie lesen?	Kann die gelesene Seite im Index gespeichert und angezeigt werden?
Blockierende Faktoren	robots.txt-Sperre, Serverfehler, defekte Links	noindex, Canonical, 4xx-/5xx-Statuscodes, geringwertige Inhalte
Beziehung	Vorbedingung	Wird nach erfolgreichem Crawling bewertet

Die beiden Konzepte stehen in einer Abfolge zueinander. Eine nicht gecrawlte Seite wird gar nicht erst für die Indexierung bewertet; nur erfolgreich gecrawlte Seiten gelangen in die Phase der Indexierbarkeit.

Faktoren, die die Indexierbarkeit bestimmen

noindex-Direktive: Trägt eine Seite ein noindex-Meta-Tag oder einen X-Robots-Tag-Header, schließt die Suchmaschine diese Seite aus dem Index aus.
Canonical-Signal: Verweist die Canonical-URL auf eine andere Seite, wird die betreffende Seite als "Alternativseite" eingestuft und fällt aus der Indexierung heraus. Google fasst ähnliche Seiten zusammen und indexiert pro Cluster nur eine repräsentative Seite.
HTTP-Statuscodes: Nur Seiten, die eine 200-Antwort zurückgeben, können indexiert werden. 404-/410-/5xx-Fehler, Soft-404 und weiterleitende URLs werden ausgeschlossen.
Verhältnis zur robots.txt: Eine robots.txt-Sperre verhindert das Crawling, nicht aber die Indexierung direkt. Schlimmer noch: Eine blockierte Seite kann ihr noindex-Tag nicht lesbar machen, sodass die URL allein über externe Links dennoch indexiert werden kann.
Inhaltsqualität: Selbst eine technisch indexierbare Seite wird von Google möglicherweise nicht indexiert, wenn der Inhalt dünn oder duplikativ ist. Das ist eine häufige Ursache für "Gecrawlt – zurzeit nicht indexiert".

So überprüfen Sie es

Der Bericht zur Seitenindexierung (Page Indexing) in der Google Search Console gliedert jede nicht indexierte Seite nach Gründen. Anhand von Gründen wie "Durch 'noindex'-Tag ausgeschlossen", "Alternative Seite mit richtigem kanonischen Tag" oder "Gecrawlt – zurzeit nicht indexiert" lässt sich beurteilen, ob es sich um einen beabsichtigten Ausschluss oder ein Problem handelt. Für einzelne URLs zeigt das URL-Prüftool den Indexierungsstatus und die von Google ausgewählte Canonical an.

Sources:

Wie inblog hilft

inblog verarbeitet die Grundlagen automatisch, damit veröffentlichte Beiträge die Voraussetzungen für die Indexierung erfüllen. Saubere 200-Antworten, ein Canonical-Tag je Beitrag und eine automatisch generierte Sitemap sind standardmäßig enthalten; Beiträge, die Sie aus dem Index halten möchten, lassen sich per noindex-Einstellung ausschließen. Nach der Veröffentlichung empfiehlt es sich, im Bericht zur Seitenindexierung der Search Console regelmäßig zu prüfen, ob die Beiträge tatsächlich indexiert wurden.