AI 爬取
AI 爬取是指由 AI 公司运营的自动化机器人(例如 GPTBot、ClaudeBot 和 PerplexityBot)访问并收集网站内容的过程。所收集的数据被用于多种用途,包括大语言模型(LLM)训练、AI 搜索结果生成以及实时问答。
AI 爬取是指由 AI 公司运营的自动化机器人(例如 GPTBot、ClaudeBot 和 PerplexityBot)访问并收集网站内容的过程。所收集的数据被用于多种用途,包括大语言模型(LLM)训练、AI 搜索结果生成以及实时问答。
为什么重要
截至 2025 至 2026 年,AI 爬虫流量在总机器人流量中所占的比例正在迅速增长,其中以训练为目的的爬取约占所有 AI 机器人活动的 80%。对内容创作者而言,AI 爬取在两个方面具有重要意义。第一,你需要能够控制自己的内容是否在未经授权的情况下被用作 AI 模型的训练数据。第二,如果你希望自己的内容被 AI 搜索引擎(Perplexity、ChatGPT Search、Gemini 等)引用和呈现,就必须允许相关的搜索爬虫访问你的网站。换句话说,管理 AI 爬取是一项战略性挑战,需要在保护内容与确保 AI 可见度(LLM Visibility)之间取得平衡。
主要的 AI 爬虫
截至 2026 年,主要的 AI 爬虫、其运营方及主要用途如下:
| User-Agent | 运营方 | 主要用途 |
|---|---|---|
| GPTBot | OpenAI | 模型训练数据收集 |
| OAI-SearchBot | OpenAI | ChatGPT 搜索结果生成 |
| ChatGPT-User | OpenAI | 用户对话期间的实时页面检索 |
| ClaudeBot | Anthropic | 模型训练数据收集 |
| Claude-SearchBot | Anthropic | Claude 搜索结果索引 |
| Claude-User | Anthropic | 针对用户查询的实时页面检索 |
| Google-Extended | Gemini 模型训练控制令牌 | |
| PerplexityBot | Perplexity | 面向 AI 搜索的网页爬取 |
| CCBot | Common Crawl | 开放网络存档(用于训练许多 AI 模型) |
| Bytespider | ByteDance | TikTok 搜索及 AI 功能 |
| meta-externalagent | Meta | 支持 Meta AI 功能 |
| Applebot-Extended | Apple | Apple Intelligence 训练 |
| Amazonbot | Amazon | Alexa 及 Amazon AI 服务 |
Googlebot 占所有 AI 相关机器人请求的 38.7%,其次是 GPTBot(12.8%)、meta-externalagent(11.6%)和 ClaudeBot(11.4%),这四个爬虫合计约占所有 AI 机器人流量的 74%。
如何允许或屏蔽 AI 爬虫
AI 爬虫的访问通过 robots.txt 文件来控制。大多数主流 AI 爬虫(GPTBot、ClaudeBot、PerplexityBot 等)都官方声明遵守 robots.txt 指令。
示例:屏蔽所有 AI 训练爬虫:
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: Bytespider
Disallow: /
示例:屏蔽训练,同时允许 AI 搜索可见度:
# Block training crawlers
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: CCBot
Disallow: /
# Allow search/real-time retrieval crawlers
User-agent: ChatGPT-User
Allow: /
User-agent: Claude-SearchBot
Allow: /
User-agent: PerplexityBot
Allow: /
请注意,Google-Extended 是一个控制令牌,而非传统意义上的爬虫,因此它不会直接出现在服务器日志中。它用于在不屏蔽 Googlebot 本身的前提下,限制 Gemini 的训练。
战略性考量
训练屏蔽与 AI 搜索可见度之间的权衡:一刀切地屏蔽所有 AI 爬虫虽然保护了内容,却会让它无法在 AI 搜索结果中被引用。区分训练机器人和搜索机器人、有选择地放行,是截至 2026 年最被推荐的策略。
定期审查必不可少:AI 公司经常推出新的爬虫 User-Agent。当 Anthropic 把先前的 anthropic-ai 和 Claude-Web 整合为 ClaudeBot 时,那些没有更新规则的网站在不知情的情况下仍处于可访问状态。你应当至少每季度审查一次 robots.txt。
Cloudflare 按次爬取付费(Pay-per-Crawl):2025 年 7 月,Cloudflare 推出了 Pay-per-Crawl 功能,允许网站所有者为每次 AI 机器人的爬取请求收取 0.01 到 0.05 美元的微支付。它作为内容变现的一种新选择而备受关注。
服务器日志监控:即便配置了 robots.txt,通过服务器日志核实爬虫是否真正遵守你的指令也很重要。据报道,一些规模较小的 AI 爬虫会无视 robots.txt,这种情况下可能需要在防火墙层面进行屏蔽。
Sources:
- 2026 年 Robots.txt 策略:管理 AI 与传统爬虫
- ClaudeBot、Claude-User 与 Claude-SearchBot:Anthropic 的三机器人框架
- AI 机器人与 Robots.txt | Paul Calvano
- 如何屏蔽 AI 爬虫(2026 完整指南)
- 2026 年 AI 爬虫管理完整指南
- AI 爬虫月度报告:2026 年 1 月流量趋势
- AI / LLM User-Agent:屏蔽指南
- Anthropic 的 Claude 机器人让 Robots.txt 决策更加精细
- 用 Cloudflare 控制内容用于 AI 训练
- 2025 年 AI 爬虫完整清单
相关 inblog 文章
inblog 如何提供帮助
inblog 的 robots.txt 默认允许搜索引擎爬虫。分机器人的 AI 爬虫设置(允许/屏蔽)可通过仪表盘的 robots.txt 编辑器进行管理。