AIクローラー
AIクローラーとは、LLMプロバイダーが運用するボット(OpenAIのGPTBot、AnthropicのClaudeBot、PerplexityのPerplexityBot、Common CrawlのCCBot、GoogleのGoogle-Extended)であり、大規模言語モデルを学習させるか、AI searchの回答をリアルタイムのコンテンツで根拠付けるためにWebページを取得します。AIクローラーは検索クローラーと同じように振る舞いますが、目的が異なります。SERPではなく、AIの回答レイヤーに情報を供給するのです。
AIクローラーとは、LLMプロバイダーが運用するボット(OpenAIのGPTBot、AnthropicのClaudeBot、PerplexityのPerplexityBot、Common CrawlのCCBot、GoogleのGoogle-Extended)であり、大規模言語モデルを学習させるか、AI searchの回答をリアルタイムのコンテンツで根拠付けるためにWebページを取得します。AIクローラーは検索クローラーと同じように振る舞いますが、目的が異なります。SERPではなく、AIの回答レイヤーに情報を供給するのです。
なぜ重要なのか
2024〜2025年にかけて、AIクローラーのトラフィックは「誤差の範囲」から、多くのコンテンツサイトでボットトラフィック全体の10〜20%へと成長しました。Cloudflareの2025年のデータによると、GPTBotとGoogle-Extendedはそれぞれ、オープンウェブ全体で1日あたり数千万件のリクエストを発行しています。パブリッシャーにとって、AIクローラーは2つの決断を迫ります。そもそも許可するのか(報酬なしでモデルを学習させているかもしれません)、許可するなら、かつてSEO担当者がGooglebot向けに最適化したように、どう最適化するのかです。ブロックすればAIの回答からあなたのブランドが消え、構造化せずに許可すれば、AIが生のHTMLをどう解釈するかに任せることになります。
主要なAIクローラー
GPTBot(OpenAI): 主にChatGPTの学習と知識更新のためにコンテンツを取得します。ユーザーエージェント: GPTBot。robots.txtでサイト全体をブロックできます。JavaScriptはレンダリングしません。
ClaudeBot / Claude-Web(Anthropic): Claudeの学習と検索取得のために取得します。ユーザーエージェント: ClaudeBot、Claude-Web、anthropic-ai。robots.txtを尊重します。
PerplexityBot(Perplexity): Perplexity検索でのリアルタイム回答生成のために取得します。ユーザーエージェント: PerplexityBot。2024年にrobots.txtを回避したとの報告が出て物議を醸しましたが、現在は明確に準拠しています。
Google-Extended(Google): 通常のGooglebotをブロックすることなく、Geminiの学習やVertex AI製品に利用されることをサイトがオプトアウトできるトークンです。重要な違いとして、Googlebotをブロックすると検索トラフィックが途絶えますが、Google-ExtendedをブロックしてもAI学習からオプトアウトするだけです。
CCBot(Common Crawl): AI企業が所有しているわけではありませんが、Common Crawlの出力はLLMにとって最も一般的な単一の学習コーパスです。CCBotをブロックすると、ほとんどのモデル学習パイプラインからあなたが除外されます。
Applebot-Extended、Meta-ExternalAgent、Bytespider: Apple、Meta、ByteDanceによる、より新しいAI時代のクローラーです。
学習クローラーと検索取得クローラー
学習クローラーは、コンテンツを一度(または定期的に)取り込み、それをモデルの重みに焼き込みます。ブロックすると、あなたのコンテンツは将来のモデルを学習させなくなり、ブランドの馴染み深さが長期的に失われます。
検索取得クローラーは、特定の回答を根拠付けるためにクエリ時にページを取得します。ブロックすると、あなたのコンテンツはライブのAI引用に表示されなくなり、AI visibilityが即座に失われます。
両方を行うボットもあれば、片方だけのボットもあります。方針を決める前に、どちらがどちらかを把握しておきましょう。
アクセスの制御
robots.txtによる方法:
User-agent: GPTBot
Disallow: /
User-agent: Google-Extended
Disallow: /
HTTPヘッダーによる方法: X-Robots-Tag: noai, noimageaiは、一部のクローラーにそのページをAI学習に使わないよう伝えますが、その実効性は一貫していません。
ファイアウォール / WAFによる方法: Cloudflare、Fastly、AWS WAFは現在、robots.txtの遵守に頼るのではなくエッジで実施する、ワンクリックのAIクローラーブロックを提供しています。
ペイウォールまたは認証による方法: 最も確実なブロックです。ログインの背後にあるコンテンツは、デフォルトでクローラーがアクセスできません。
AIクローラーをブロックすべきか?
ブロックを支持する論拠: あなたのオリジナルの報道、分析、有料コンテンツが、報酬なしに学習されることを望まない場合。大手パブリッシャー(NYT、Reuters、CNN)は、多くのAIクローラーをブロックしつつ、別途訴訟やライセンス供与を行っています。
ブロックに反対する論拠: あなたのブランドがAIの回答から消えます。ほとんどのコンテンツサイト、特にSaaS、中小企業、マーケティングブログにとっては、結局得られることのない理論上の学習データ収益よりも、AIでの可視性のほうが価値があります。
中間の道: 検索取得クローラー(PerplexityBot、ChatGPT Search)を許可しつつ、学習専用のクローラー(Google-Extended、学習目的のGPTBot)をブロックします。質の高いコンテンツを公開し、長期的な学習に供することなく引用を獲得しましょう。
よくある間違い
GoogleのAIをブロックしたつもりでGooglebotをブロックする: Googlebotは検索のindexingを担い、Google-ExtendedはAI学習を担います。両者は別物です。
自己申告のユーザーエージェントだけを信頼する: 一部のボットは他を偽装します。重要なブロックでは、robots.txtとファイアウォールのルールを組み合わせてください。
何も決めない: 「すべて許可」をデフォルトにすることも、やはり1つの決断です。一度サーバーログを監査して、方針を選びましょう。
気づかないうちにCCBotをブロックする: そうなると、ほとんどのオープンソースモデル学習の基盤であるCommon Crawlから、あなた自身が除外されてしまいます。
Sources: