クローリング
クローリングとは、Googlebotのような検索エンジンのボット(クローラー)が、Webページを自動的に訪れてそのコンテンツを発見・収集するプロセスのことです。クロールされたページはその後インデックス登録の段階を経て、検索結果に表示できるようになります。
クローリングとは、Googlebotのような検索エンジンのボット(クローラー)が、Webページを自動的に訪れてそのコンテンツを発見・収集するプロセスのことです。クロールされたページはその後インデックス登録の段階を経て、検索結果に表示できるようになります。
なぜ重要か
検索エンジンにクロールされないページは、インデックスに含めることができず、結果として検索結果にも表示されません。どれほど優れたコンテンツであっても、クローラーがページにアクセスできなければ、SEO上の効果は実質的にゼロです。特筆すべきは、2025年時点でCloudflareが、GPTBotのトラフィックが前年比305%増加した一方、Googlebotのトラフィックは96%増加したと報告していることです。AIクローラーと検索エンジンのクローラーが同時にサーバーリソースを消費する環境において、クロールの管理はかつてないほど重要になっています。
クロールバジェットとは
クロールバジェットとは、Googleが特定のサイトのクロールに割り当てる時間とリソースの総量のことです。これは次の2つの要因によって決まります。
- クロールレート制限(Crawl Rate Limit): サーバーに過負荷をかけないためにGooglebotが維持する、同時接続の最大数とリクエスト間の遅延のことです。サーバーの応答時間(TTFB)が200ミリ秒未満と速い場合、この制限は引き上げられます。サーバーが遅くなったり5xxエラーを返したりすると、制限は引き下げられます。
- クロールの需要(Crawl Demand): コンテンツの人気度や鮮度に基づいて、Googleがそのサイトをどれだけクロールしたいかの度合いです。頻繁に更新され、トラフィックの多いページは需要が高くなります。
一般的に、サイトのページ数が1万未満で、新しいコンテンツが数日以内にインデックス登録されるのであれば、クロールバジェットは大きな懸念事項ではありません。しかし、数万ページ以上の大規模なサイトや、Googleがインデックス登録できる速度よりも速くコンテンツが生み出されるサイトでは、クロールバジェットの最適化が不可欠です。
クローリングを最適化する方法
- サイトマップを最新に保つ: 2026年時点では、静的なサイトマップだけでは不十分です。ブログやeコマースストアのように頻繁に変化するコンテンツを持つサイトは、サイトマップを毎日、あるいはリアルタイムで更新すべきです。
- robots.txtの最適化: 管理ページ、サイト内検索の結果ページ、フィルターの組み合わせURLなど、クロールする必要のない経路へのクローラーのアクセスをブロックし、クロールバジェットの浪費を防ぎます。
- サーバーの応答時間の改善: TTFBを200ミリ秒以下に維持すると、Googlebotは自動的にクロールレートを引き上げます。CDNの導入、キャッシュ戦略の最適化、サーバースペックの増強はいずれも効果的です。
- 重複コンテンツの整理: URLパラメータ、ページネーション、HTTP/HTTPSの混在によって生じる重複ページに
rel="canonical"タグを設定し、クローラーが正規のURLに集中できるようにします。 - 内部リンク構造の改善: 重要なページにサイトの最上位から3クリック以内で到達できるように内部リンクを設計し、クローラーが主要なコンテンツを優先的に発見できるようにします。
- AIクローラーの管理: GPTBotやCCBotなどのAIクローラーは、帯域幅の最大40%を消費することがあります。不要なAIクローラーをrobots.txtでブロックし、Googlebotのためにより多くのサーバーリソースを確保しましょう。
クロールエラーへの対処
クロールの状態は、Google Search Consoleのクロールの統計情報レポートで確認できます。主なエラーの種類とその解決策は次のとおりです。
- 5xxサーバーエラー: サーバーの安定性に問題があることを示します。サーバーログを確認し、トラフィックの急増にはオートスケーリングを適用しましょう。このエラーが続くと、Googlebotは自動的にクロール頻度を下げます。
- 404 Not Found: 削除されたページや誤ったURLです。コンテンツが移動した場合は301リダイレクトを設定します。完全に削除した場合は、サイトマップからそのURLを削除します。
- リダイレクトチェーン: リダイレクトが3ホップ以上連鎖すると、クローラーが処理をあきらめる可能性があります。リダイレクトを修正し、301で最終的なURLを直接指すようにします。
- robots.txtによるブロック: 重要なページが意図せずブロックされていないか定期的に確認します。Search ConsoleのURL検査ツールを使って、個々のページがクロール可能かどうかを確認しましょう。
Sources:
- Google検索の仕組みに関する詳細ガイド - Google検索セントラル
- Webサイトのクローリング: 何を、なぜ、どう最適化するか - Search Engine Journal
- Webサイトクローラーとは何か? 仕組みと試すべきツール - Semrush
関連するinblogの記事
inblogがどう役立つか
inblogのSSRアーキテクチャにより、GooglebotはJavaScriptのレンダリングなしにコンテンツを完全にクロールできます。