AIクローラーとは？ | SEO用語集

AIクローラーとは、LLMプロバイダーが運用するボット（OpenAIのGPTBot、AnthropicのClaudeBot、PerplexityのPerplexityBot、Common CrawlのCCBot、GoogleのGoogle-Extended）であり、大規模言語モデルを学習させるか、AI searchの回答をリアルタイムのコンテンツで根拠付けるためにWebページを取得します。AIクローラーは検索クローラーと同じように振る舞いますが、目的が異なります。SERPではなく、AIの回答レイヤーに情報を供給するのです。

なぜ重要なのか

2024〜2025年にかけて、AIクローラーのトラフィックは「誤差の範囲」から、多くのコンテンツサイトでボットトラフィック全体の10〜20%へと成長しました。Cloudflareの2025年のデータによると、GPTBotとGoogle-Extendedはそれぞれ、オープンウェブ全体で1日あたり数千万件のリクエストを発行しています。パブリッシャーにとって、AIクローラーは2つの決断を迫ります。そもそも許可するのか（報酬なしでモデルを学習させているかもしれません）、許可するなら、かつてSEO担当者がGooglebot向けに最適化したように、どう最適化するのかです。ブロックすればAIの回答からあなたのブランドが消え、構造化せずに許可すれば、AIが生のHTMLをどう解釈するかに任せることになります。

主要なAIクローラー

GPTBot（OpenAI）: 主にChatGPTの学習と知識更新のためにコンテンツを取得します。ユーザーエージェント: GPTBot。robots.txtでサイト全体をブロックできます。JavaScriptはレンダリングしません。

ClaudeBot / Claude-Web（Anthropic）: Claudeの学習と検索取得のために取得します。ユーザーエージェント: ClaudeBot、Claude-Web、anthropic-ai。robots.txtを尊重します。

PerplexityBot（Perplexity）: Perplexity検索でのリアルタイム回答生成のために取得します。ユーザーエージェント: PerplexityBot。2024年にrobots.txtを回避したとの報告が出て物議を醸しましたが、現在は明確に準拠しています。

Google-Extended（Google）: 通常のGooglebotをブロックすることなく、Geminiの学習やVertex AI製品に利用されることをサイトがオプトアウトできるトークンです。重要な違いとして、Googlebotをブロックすると検索トラフィックが途絶えますが、Google-ExtendedをブロックしてもAI学習からオプトアウトするだけです。

CCBot（Common Crawl）: AI企業が所有しているわけではありませんが、Common Crawlの出力はLLMにとって最も一般的な単一の学習コーパスです。CCBotをブロックすると、ほとんどのモデル学習パイプラインからあなたが除外されます。

Applebot-Extended、Meta-ExternalAgent、Bytespider: Apple、Meta、ByteDanceによる、より新しいAI時代のクローラーです。

学習クローラーと検索取得クローラー

学習クローラーは、コンテンツを一度（または定期的に）取り込み、それをモデルの重みに焼き込みます。ブロックすると、あなたのコンテンツは将来のモデルを学習させなくなり、ブランドの馴染み深さが長期的に失われます。

検索取得クローラーは、特定の回答を根拠付けるためにクエリ時にページを取得します。ブロックすると、あなたのコンテンツはライブのAI引用に表示されなくなり、AI visibilityが即座に失われます。

両方を行うボットもあれば、片方だけのボットもあります。方針を決める前に、どちらがどちらかを把握しておきましょう。

アクセスの制御

robots.txtによる方法:

User-agent: GPTBot
Disallow: /

User-agent: Google-Extended
Disallow: /

HTTPヘッダーによる方法: X-Robots-Tag: noai, noimageaiは、一部のクローラーにそのページをAI学習に使わないよう伝えますが、その実効性は一貫していません。

ファイアウォール / WAFによる方法: Cloudflare、Fastly、AWS WAFは現在、robots.txtの遵守に頼るのではなくエッジで実施する、ワンクリックのAIクローラーブロックを提供しています。

ペイウォールまたは認証による方法: 最も確実なブロックです。ログインの背後にあるコンテンツは、デフォルトでクローラーがアクセスできません。

AIクローラーをブロックすべきか？

ブロックを支持する論拠: あなたのオリジナルの報道、分析、有料コンテンツが、報酬なしに学習されることを望まない場合。大手パブリッシャー（NYT、Reuters、CNN）は、多くのAIクローラーをブロックしつつ、別途訴訟やライセンス供与を行っています。

ブロックに反対する論拠: あなたのブランドがAIの回答から消えます。ほとんどのコンテンツサイト、特にSaaS、中小企業、マーケティングブログにとっては、結局得られることのない理論上の学習データ収益よりも、AIでの可視性のほうが価値があります。

中間の道: 検索取得クローラー（PerplexityBot、ChatGPT Search）を許可しつつ、学習専用のクローラー（Google-Extended、学習目的のGPTBot）をブロックします。質の高いコンテンツを公開し、長期的な学習に供することなく引用を獲得しましょう。

よくある間違い

GoogleのAIをブロックしたつもりでGooglebotをブロックする: Googlebotは検索のindexingを担い、Google-ExtendedはAI学習を担います。両者は別物です。

自己申告のユーザーエージェントだけを信頼する: 一部のボットは他を偽装します。重要なブロックでは、robots.txtとファイアウォールのルールを組み合わせてください。

何も決めない: 「すべて許可」をデフォルトにすることも、やはり1つの決断です。一度サーバーログを監査して、方針を選びましょう。

気づかないうちにCCBotをブロックする: そうなると、ほとんどのオープンソースモデル学習の基盤であるCommon Crawlから、あなた自身が除外されてしまいます。

Sources: