SEO

インデクサビリティ

インデクサビリティ(Indexability)とは、検索エンジンがクロールしたページを分析してインデックス(索引データベース)に保存し、検索結果に表示できる状態を指します。クローラビリティが「検索エンジンがこのページにアクセスできるか」を問うのに対し、インデクサビリティは「アクセスしたページが索引される資格を持つか」を問う概念です。

インデクサビリティ(Indexability)とは、検索エンジンがクロールしたページを分析してインデックス(索引データベース)に保存し、検索結果に表示できる状態を指します。クローラビリティが「検索エンジンがこのページにアクセスできるか」を問うのに対し、インデクサビリティは「アクセスしたページが索引される資格を持つか」を問う概念です。

なぜ重要なのか

クロールされたからといって、索引が保証されるわけではありません。Googleの公式ドキュメントも「インデックス登録は保証されず、Googleが処理するすべてのページが索引されるわけではない」と明記しています。索引されないページは、どれほどコンテンツが優れていても検索結果に表示され得ないため、インデクサビリティは検索露出とランキングの必要条件です。

特にサイトの規模が大きくなるほど、「クロール済み - インデックス未登録」の状態のまま放置されるページが増えやすくなります。クローラビリティの問題はボットのアクセスそのものが遮断されるため比較的見つけやすい一方、インデクサビリティの問題はページが正常に開くのに検索でだけ表示されないため、気づかずに見過ごされることが多くあります。

クローラビリティとの違い

区分クローラビリティインデクサビリティ
問い検索エンジンがページにアクセスして読めるか?読んだページをインデックスに保存し表示できるか?
阻害要因robots.txtによる遮断、サーバーエラー、リンク切れnoindex、canonical、4xx・5xxステータスコード、低品質コンテンツ
関係先行条件クロール成功後に評価される

2つの概念は順序的な関係にあります。クロールされていないページは索引評価の対象にすらならず、クロールに成功したページだけがインデクサビリティの段階へ進みます。

インデクサビリティを決める要素

  1. noindexディレクティブ: ページにnoindexメタタグやX-Robots-Tagヘッダーがあると、検索エンジンはそのページをインデックスから除外します。
  2. canonicalシグナル: canonical URLが別のページを指していると、そのページは「代替ページ」に分類され、索引の対象から外れます。Googleは類似したページをまとめ、クラスターごとに代表となる1ページだけを索引します。
  3. HTTPステータスコード: 200応答を返すページだけが索引され得ます。404・410・5xxエラー、ソフト404、リダイレクトされるURLは索引から除外されます。
  4. robots.txtとの関係: robots.txtによる遮断はクロールを妨げるだけで、索引を直接妨げるわけではありません。むしろ遮断されたページはnoindexタグを読み取れなくなり、外部リンクだけでURLが索引されてしまう副作用が生じることがあります。
  5. コンテンツの品質: 技術的には索引可能なページであっても、コンテンツが薄かったり重複していたりすると、Googleが索引しないことがあります。「クロール済み - インデックス未登録」のよくある原因です。

点検の方法

Google Search Consoleのページのインデックス登録(Page Indexing)レポートを見ると、索引されていないページが理由別に分類されます。「noindexタグによって除外されました」「適切なcanonicalタグを含む代替ページ」「クロール済み - インデックス未登録」など、理由に応じて意図した除外なのか問題なのかを判断できます。個別のURLは、URL検査ツールで索引状態とGoogleが選択したcanonicalを確認します。

Sources:

How inblog Helps

inblogは、発行されたポストが索引の資格を備えるよう、基礎的な部分を自動で処理します。正常な200応答、ポストごとのcanonicalタグ、サイトマップの自動生成が標準で提供され、索引から外したいポストはnoindex設定で除外できます。発行後は、Search Consoleのページのインデックス登録レポートで実際の索引状況を定期的に確認する習慣をおすすめします。