クロールバジェット
クロールバジェットとは、Googleのような検索エンジンが一定期間内にWebサイト上でクロール(発見)するURLの数のことです。検索エンジンのリソースは無数のWebサイトに分散されており有限であるため、各サイトに割り当てられるクロールの処理能力には限りがあります。
クロールバジェットとは、Googleのような検索エンジンが一定期間内にWebサイト上でクロール(発見)するURLの数のことです。検索エンジンのリソースは無数のWebサイトに分散されており有限であるため、各サイトに割り当てられるクロールの処理能力には限りがあります。
なぜ重要か
ページが検索結果に表示されるには、検索エンジンがそのページをクロールしてインデックスに登録する必要があります。クロールバジェットが不足すると、重要なページが発見されないままになったり、更新したコンテンツが検索結果に速やかに反映されなかったりする可能性があります。
ほとんどの小規模なWebサイトでは、クロールバジェットを気にする必要はありません。Googleは小規模なサイトのクロールを効率的に処理してくれます。しかし、次のような場合にはクロールバジェットの管理が重要になります。
- 大規模なサイト: ページ数が1万を超え、クローラーがすべてのページを訪れない可能性のあるサイト。Botifyが4億1,300万ページにわたる62億件のGooglebotリクエストを分析したところ、大規模なWebサイトでは77%のページが検索トラフィックをまったく得ていませんでした。
- 頻繁に変化するコンテンツ: ニュースサイト、eコマースのプラットフォーム、その他コンテンツが定期的に更新されるあらゆるサイト。
- 技術的なクロールの問題があるサイト: リダイレクトチェーン、リンク切れ、過剰な重複コンテンツがあるサイト。
構成要素
クロールバジェットは、クロールの需要(Crawl Demand) と クロール能力の上限(Crawl Capacity Limit) という2つの要因によって決まります。
クロールの需要は、Googleがどれだけそのサイトをクロールしたいかを反映するもので、次の要素に影響されます。
- 認識された在庫: Googleは、robots.txtやHTTPステータスコードでブロックされていない限り、既知のすべてのページをクロールしようとします。
- 人気度: 質の高いバックリンクを持ち、トラフィックの多いサイトほど頻繁にクロールされます。
- コンテンツの鮮度: 定期的に更新されるサイト(ニュース発信元など)は、静的なページよりも頻繁にクロールされます。
クロール能力の上限は、サーバーに過負荷をかけないようにGoogleが設定する上限です。サイトの応答速度が速いほど多くクロールでき、サーバーエラーが頻発するとクロール頻度が低下します。
最適化の方法
- サイト速度の改善: サーバーの応答時間が速いほど、クローラーは同じ時間内により多くのページを処理できます。
- 内部リンクの強化: 戦略的に内部リンクを配置し、クローラーを重要なページへ誘導します。
- XMLサイトマップの維持: 重複したURLや重要でないURLを除外し、サイトマップを常に最新の状態に保ちます。
- robots.txtの効果的な活用: 不要なページ(管理ページ、フィルターページ)をブロックし、クロールバジェットの浪費を防ぎます。
- リダイレクトチェーンの排除: 多段階のリダイレクトはクロールバジェットを不必要に消費します。リダイレクトは直接、最終的な遷移先を指すようにします。
- 内部リンク切れの修正: 404エラーを返すリンクはクローラーのリソースを浪費します。
- 重複コンテンツの解消: 同一またはほぼ同一のページが多数あると、クロールバジェット全体を使い果たしてしまうことがあります。canonicalタグを使って統合しましょう。
モニタリング
Google Search Consoleのクロールの統計情報レポートでは、90日間にわたる総クロールリクエスト数、ダウンロードサイズ、応答時間が表示されます。クロール頻度の急な低下やサーバーエラー率の急上昇は、クロールバジェットの問題を示すサインです。
Sources: