GEO

AIクローリング

AIクローリングとは、GPTBot、ClaudeBot、PerplexityBotといった、AI企業が運用する自動ボットがウェブサイトを訪問し、コンテンツを収集するプロセスを指します。収集されたデータは、大規模言語モデル(LLM)の学習、AI検索結果の生成、リアルタイムの質問応答など、さまざまな目的に使用されます。

AIクローリングとは、GPTBot、ClaudeBot、PerplexityBotといった、AI企業が運用する自動ボットがウェブサイトを訪問し、コンテンツを収集するプロセスを指します。収集されたデータは、大規模言語モデル(LLM)の学習、AI検索結果の生成、リアルタイムの質問応答など、さまざまな目的に使用されます。

なぜ重要なのか

2025年から2026年にかけて、AIクローラーのトラフィックはボット全体のトラフィックに占める割合として急速に増加しており、学習目的のクローリングがAIボット全活動の約80%を占めています。コンテンツ制作者にとって、AIクローリングは2つの点で重要です。第一に、あなたのコンテンツが許可なくAIモデルの学習データとして使われるかどうかを制御できる必要があります。第二に、AI検索エンジン(Perplexity、ChatGPT Search、Geminiなど)であなたのコンテンツが引用され表示されることを望むなら、関連する検索クローラーがあなたのサイトにアクセスできるようにしなければなりません。言い換えれば、AIクローリングの管理とは、コンテンツの保護とAI可視性(LLM Visibility)の確保とのバランスを取るという戦略的な課題なのです。

主要なAIクローラー

2026年時点で、主要なAIクローラー、その運営者、主な目的は以下のとおりです。

User-Agent運営者主な目的
GPTBotOpenAIモデル学習データの収集
OAI-SearchBotOpenAIChatGPTの検索結果生成
ChatGPT-UserOpenAIユーザーとの会話中のリアルタイムなページ取得
ClaudeBotAnthropicモデル学習データの収集
Claude-SearchBotAnthropicClaudeの検索結果インデックス作成
Claude-UserAnthropicユーザーのクエリに対するリアルタイムなページ取得
Google-ExtendedGoogleGeminiモデルの学習を制御するトークン
PerplexityBotPerplexityAI検索のためのウェブクローリング
CCBotCommon Crawlオープンなウェブアーカイブ(多くのAIモデルの学習に使用)
BytespiderByteDanceTikTokの検索とAI機能
meta-externalagentMetaMeta AI機能のサポート
Applebot-ExtendedAppleApple Intelligenceの学習
AmazonbotAmazonAlexaおよびAmazonのAIサービス

GooglebotはAI関連ボットリクエスト全体の38.7%を占め、次いでGPTBotが12.8%、meta-externalagentが11.6%、ClaudeBotが11.4%と続きます。これら4つのクローラーで、AIボットトラフィック全体の約74%を占めています。

AIクローラーを許可またはブロックする方法

AIクローラーのアクセスはrobots.txtファイルを通じて制御します。主要なAIクローラーのほとんど(GPTBot、ClaudeBot、PerplexityBotなど)は、robots.txtの指示に従うことを公式に表明しています。

例: すべてのAI学習クローラーをブロックする場合:

User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: Bytespider
Disallow: /

例: 学習をブロックしつつAI検索の可視性を許可する場合:

# Block training crawlers
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: CCBot
Disallow: /

# Allow search/real-time retrieval crawlers
User-agent: ChatGPT-User
Allow: /

User-agent: Claude-SearchBot
Allow: /

User-agent: PerplexityBot
Allow: /

Google-Extendedは従来のクローラーではなく制御トークンであるため、サーバーログに直接は現れない点に注意してください。これはGooglebot自体をブロックすることなく、Geminiの学習を制限するために使用されます。

戦略的な考慮事項

学習のブロックとAI検索の可視性とのトレードオフ: すべてのAIクローラーを一律にブロックすると、コンテンツは保護されますが、AI検索結果で引用されることもなくなります。学習ボットと検索ボットを区別して選択的にアクセスを許可することが、2026年時点で最も推奨される戦略です。

定期的な監査が不可欠: AI企業は新しいクローラーのUser-Agentを頻繁に導入します。Anthropicが以前のanthropic-aiClaude-WebエージェントをClaudeBotに統合した際、ルールを更新しなかったサイトは意図せずアクセス可能なままになってしまいました。robots.txtは少なくとも四半期に一度は見直すべきです。

Cloudflare Pay-per-Crawl: 2025年7月、Cloudflareは、サイト所有者がAIボットのクロールリクエスト1件あたり0.01〜0.05ドルのマイクロペイメントを受け取れるPay-per-Crawl機能を開始しました。これはコンテンツの収益化の新たな選択肢として注目を集めています。

サーバーログのモニタリング: robots.txtを設定した後でも、クローラーが実際に指示に従っているかをサーバーログで確認することが重要です。一部の小規模なAIクローラーはrobots.txtを無視すると報告されており、その場合はファイアウォールレベルでのブロックが必要になることがあります。

Sources:

関連するinblogの記事

inblogがどのように役立つか

inblogのrobots.txtは、デフォルトで検索エンジンのクローラーを許可します。ボットごとのAIクローラー設定(許可/ブロック)は、ダッシュボードのrobots.txtエディターから管理できます。