什么是 AI 爬虫？| SEO 术语表

AI 爬虫是由 LLM 提供商运营的机器人，例如 OpenAI 的 GPTBot、Anthropic 的 ClaudeBot、Perplexity 的 PerplexityBot、Common Crawl 的 CCBot、Google 的 Google-Extended，它们抓取网页，用以训练大语言模型，或让 AI 搜索的答案基于实时内容获得事实依据。AI 爬虫的行为类似搜索爬虫，但用途不同：它们供给的是 AI 答案层，而非 SERP。

为什么它很重要

在 2024 至 2025 年间，AI 爬虫流量从“可忽略不计”增长到许多内容网站总机器人流量的 10 至 20%。Cloudflare 的 2025 年数据显示，GPTBot 和 Google-Extended 各自每天在开放网络上发出数千万次请求。对于发布者而言，AI 爬虫带来两个抉择：是否要允许它们（你可能在没有任何报酬的情况下训练了一个模型），以及如果允许，该如何像当年 SEO 人员为 Googlebot 优化那样为它们优化。屏蔽它们会让你的品牌从 AI 答案中消失；允许它们却不做结构化处理，则会让你任由 AI 如何解读原始 HTML 而无能为力。

主要的 AI 爬虫

GPTBot（OpenAI）：主要为 ChatGPT 训练和知识更新而抓取内容。User-agent：GPTBot。可在 robots.txt 中对全站屏蔽。不渲染 JavaScript。

ClaudeBot / Claude-Web（Anthropic）：为 Claude 的训练和检索而抓取。User-agent：ClaudeBot、Claude-Web、anthropic-ai。遵守 robots.txt。

PerplexityBot（Perplexity）：为 Perplexity 搜索中的实时答案生成而抓取。User-agent：PerplexityBot。在 2024 年有报道称其绕过 robots.txt 后曾引发争议；现已明确合规。

Google-Extended（Google）：一个令网站可选择退出被用于 Gemini 训练和 Vertex AI 产品的令牌，而不会屏蔽常规的 Googlebot。这是一个关键区别：屏蔽 Googlebot 会扼杀搜索流量；屏蔽 Google-Extended 只会退出 AI 训练。

CCBot（Common Crawl）：并非由某家 AI 公司拥有，但 Common Crawl 的产出是 LLM 最常用的单一训练语料库。屏蔽 CCBot 会让你从大多数模型训练管线中消失。

Applebot-Extended、Meta-ExternalAgent、Bytespider：分别来自 Apple、Meta 和字节跳动的较新的 AI 时代爬虫。

训练型爬虫与检索型爬虫

训练型爬虫会将内容采集一次（或定期采集）并将其固化进模型权重。屏蔽它们意味着你的内容不会用于训练未来的模型，长期来看会损失品牌熟悉度。

检索型爬虫在查询时抓取页面，为某个特定答案提供事实依据。屏蔽它们意味着你的内容无法出现在实时 AI 引用中，会立即损失 AI 可见性。

有些机器人两者都做；有些只做其一。在决定你的策略之前，先弄清楚谁是谁。

控制访问

通过 robots.txt：

User-agent: GPTBot
Disallow: /

User-agent: Google-Extended
Disallow: /

通过 HTTP 标头：X-Robots-Tag: noai, noimageai 会告知部分爬虫不要将该页面用于 AI 训练，不过执行情况并不一致。

通过防火墙 / WAF：Cloudflare、Fastly 和 AWS WAF 现已提供一键式 AI 爬虫屏蔽功能，在边缘层强制执行，而非依赖对 robots.txt 的遵守。

通过付费墙或鉴权：最可靠的屏蔽方式。登录后才能访问的内容默认对爬虫不可见。

你应该屏蔽 AI 爬虫吗？

支持屏蔽的理由：你不希望自己的原创报道、分析或付费内容在无偿的情况下被用于训练。大型发布者（NYT、Reuters、CNN）已屏蔽许多 AI 爬虫，同时另行提起诉讼或进行授权。

反对屏蔽的理由：你的品牌会从 AI 答案中消失。对大多数内容网站而言，尤其是 SaaS、中小企业和营销博客，AI 可见性比那笔你本就永远拿不到的理论上的训练数据收入更有价值。

折中路径：屏蔽仅用于训练的爬虫（Google-Extended、用于训练的 GPTBot），同时允许检索型爬虫（PerplexityBot、ChatGPT Search）。发布高质量内容并获得引用，而不为长期训练提供数据。

常见错误

以为屏蔽了 Googlebot 就屏蔽了 Google 的 AI：Googlebot 负责搜索索引；Google-Extended 负责 AI 训练。两者是分开的。

仅信任自报的 user-agent：有些机器人会冒充其他机器人。对于高风险的屏蔽，请将 robots.txt 与防火墙规则结合使用。

始终不做决定：默认“允许一切”仍然是一种决定。把你的服务器日志审查一次并选定一个策略。

在未意识到的情况下屏蔽了 CCBot：你这样就把自己从 Common Crawl 中移除了，而它是大多数开源模型训练的基石。

Sources: