AI 爬虫
AI 爬虫是由 LLM 提供商运营的机器人,例如 OpenAI 的 GPTBot、Anthropic 的 ClaudeBot、Perplexity 的 PerplexityBot、Common Crawl 的 CCBot、Google 的 Google-Extended,它们抓取网页,用以训练大语言模型,或让 AI 搜索的答案基于实时内容获得事实依据。AI 爬虫的行为类似搜索爬虫,但用途不同:它们供给的是 AI 答案层,而非 SERP。
AI 爬虫是由 LLM 提供商运营的机器人,例如 OpenAI 的 GPTBot、Anthropic 的 ClaudeBot、Perplexity 的 PerplexityBot、Common Crawl 的 CCBot、Google 的 Google-Extended,它们抓取网页,用以训练大语言模型,或让 AI 搜索的答案基于实时内容获得事实依据。AI 爬虫的行为类似搜索爬虫,但用途不同:它们供给的是 AI 答案层,而非 SERP。
为什么它很重要
在 2024 至 2025 年间,AI 爬虫流量从“可忽略不计”增长到许多内容网站总机器人流量的 10 至 20%。Cloudflare 的 2025 年数据显示,GPTBot 和 Google-Extended 各自每天在开放网络上发出数千万次请求。对于发布者而言,AI 爬虫带来两个抉择:是否要允许它们(你可能在没有任何报酬的情况下训练了一个模型),以及如果允许,该如何像当年 SEO 人员为 Googlebot 优化那样为它们优化。屏蔽它们会让你的品牌从 AI 答案中消失;允许它们却不做结构化处理,则会让你任由 AI 如何解读原始 HTML 而无能为力。
主要的 AI 爬虫
GPTBot(OpenAI):主要为 ChatGPT 训练和知识更新而抓取内容。User-agent:GPTBot。可在 robots.txt 中对全站屏蔽。不渲染 JavaScript。
ClaudeBot / Claude-Web(Anthropic):为 Claude 的训练和检索而抓取。User-agent:ClaudeBot、Claude-Web、anthropic-ai。遵守 robots.txt。
PerplexityBot(Perplexity):为 Perplexity 搜索中的实时答案生成而抓取。User-agent:PerplexityBot。在 2024 年有报道称其绕过 robots.txt 后曾引发争议;现已明确合规。
Google-Extended(Google):一个令网站可选择退出被用于 Gemini 训练和 Vertex AI 产品的令牌,而不会屏蔽常规的 Googlebot。这是一个关键区别:屏蔽 Googlebot 会扼杀搜索流量;屏蔽 Google-Extended 只会退出 AI 训练。
CCBot(Common Crawl):并非由某家 AI 公司拥有,但 Common Crawl 的产出是 LLM 最常用的单一训练语料库。屏蔽 CCBot 会让你从大多数模型训练管线中消失。
Applebot-Extended、Meta-ExternalAgent、Bytespider:分别来自 Apple、Meta 和字节跳动的较新的 AI 时代爬虫。
训练型爬虫与检索型爬虫
训练型爬虫会将内容采集一次(或定期采集)并将其固化进模型权重。屏蔽它们意味着你的内容不会用于训练未来的模型,长期来看会损失品牌熟悉度。
检索型爬虫在查询时抓取页面,为某个特定答案提供事实依据。屏蔽它们意味着你的内容无法出现在实时 AI 引用中,会立即损失 AI 可见性。
有些机器人两者都做;有些只做其一。在决定你的策略之前,先弄清楚谁是谁。
控制访问
通过 robots.txt:
User-agent: GPTBot
Disallow: /
User-agent: Google-Extended
Disallow: /
通过 HTTP 标头:X-Robots-Tag: noai, noimageai 会告知部分爬虫不要将该页面用于 AI 训练,不过执行情况并不一致。
通过防火墙 / WAF:Cloudflare、Fastly 和 AWS WAF 现已提供一键式 AI 爬虫屏蔽功能,在边缘层强制执行,而非依赖对 robots.txt 的遵守。
通过付费墙或鉴权:最可靠的屏蔽方式。登录后才能访问的内容默认对爬虫不可见。
你应该屏蔽 AI 爬虫吗?
支持屏蔽的理由:你不希望自己的原创报道、分析或付费内容在无偿的情况下被用于训练。大型发布者(NYT、Reuters、CNN)已屏蔽许多 AI 爬虫,同时另行提起诉讼或进行授权。
反对屏蔽的理由:你的品牌会从 AI 答案中消失。对大多数内容网站而言,尤其是 SaaS、中小企业和营销博客,AI 可见性比那笔你本就永远拿不到的理论上的训练数据收入更有价值。
折中路径:屏蔽仅用于训练的爬虫(Google-Extended、用于训练的 GPTBot),同时允许检索型爬虫(PerplexityBot、ChatGPT Search)。发布高质量内容并获得引用,而不为长期训练提供数据。
常见错误
以为屏蔽了 Googlebot 就屏蔽了 Google 的 AI:Googlebot 负责搜索索引;Google-Extended 负责 AI 训练。两者是分开的。
仅信任自报的 user-agent:有些机器人会冒充其他机器人。对于高风险的屏蔽,请将 robots.txt 与防火墙规则结合使用。
始终不做决定:默认“允许一切”仍然是一种决定。把你的服务器日志审查一次并选定一个策略。
在未意识到的情况下屏蔽了 CCBot:你这样就把自己从 Common Crawl 中移除了,而它是大多数开源模型训练的基石。
Sources: