什么是 AI 爬取？| GEO 术语表

AI 爬取是指由 AI 公司运营的自动化机器人（例如 GPTBot、ClaudeBot 和 PerplexityBot）访问并收集网站内容的过程。所收集的数据被用于多种用途，包括大语言模型（LLM）训练、AI 搜索结果生成以及实时问答。

为什么重要

截至 2025 至 2026 年，AI 爬虫流量在总机器人流量中所占的比例正在迅速增长，其中以训练为目的的爬取约占所有 AI 机器人活动的 80%。对内容创作者而言，AI 爬取在两个方面具有重要意义。第一，你需要能够控制自己的内容是否在未经授权的情况下被用作 AI 模型的训练数据。第二，如果你希望自己的内容被 AI 搜索引擎（Perplexity、ChatGPT Search、Gemini 等）引用和呈现，就必须允许相关的搜索爬虫访问你的网站。换句话说，管理 AI 爬取是一项战略性挑战，需要在保护内容与确保 AI 可见度（LLM Visibility）之间取得平衡。

主要的 AI 爬虫

截至 2026 年，主要的 AI 爬虫、其运营方及主要用途如下：

User-Agent	运营方	主要用途
GPTBot	OpenAI	模型训练数据收集
OAI-SearchBot	OpenAI	ChatGPT 搜索结果生成
ChatGPT-User	OpenAI	用户对话期间的实时页面检索
ClaudeBot	Anthropic	模型训练数据收集
Claude-SearchBot	Anthropic	Claude 搜索结果索引
Claude-User	Anthropic	针对用户查询的实时页面检索
Google-Extended	Google	Gemini 模型训练控制令牌
PerplexityBot	Perplexity	面向 AI 搜索的网页爬取
CCBot	Common Crawl	开放网络存档（用于训练许多 AI 模型）
Bytespider	ByteDance	TikTok 搜索及 AI 功能
meta-externalagent	Meta	支持 Meta AI 功能
Applebot-Extended	Apple	Apple Intelligence 训练
Amazonbot	Amazon	Alexa 及 Amazon AI 服务

Googlebot 占所有 AI 相关机器人请求的 38.7%，其次是 GPTBot（12.8%）、meta-externalagent（11.6%）和 ClaudeBot（11.4%），这四个爬虫合计约占所有 AI 机器人流量的 74%。

如何允许或屏蔽 AI 爬虫

AI 爬虫的访问通过 robots.txt 文件来控制。大多数主流 AI 爬虫（GPTBot、ClaudeBot、PerplexityBot 等）都官方声明遵守 robots.txt 指令。

示例：屏蔽所有 AI 训练爬虫：

User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: Bytespider
Disallow: /

示例：屏蔽训练，同时允许 AI 搜索可见度：

# Block training crawlers
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: CCBot
Disallow: /

# Allow search/real-time retrieval crawlers
User-agent: ChatGPT-User
Allow: /

User-agent: Claude-SearchBot
Allow: /

User-agent: PerplexityBot
Allow: /

请注意，Google-Extended 是一个控制令牌，而非传统意义上的爬虫，因此它不会直接出现在服务器日志中。它用于在不屏蔽 Googlebot 本身的前提下，限制 Gemini 的训练。

战略性考量

训练屏蔽与 AI 搜索可见度之间的权衡：一刀切地屏蔽所有 AI 爬虫虽然保护了内容，却会让它无法在 AI 搜索结果中被引用。区分训练机器人和搜索机器人、有选择地放行，是截至 2026 年最被推荐的策略。

定期审查必不可少：AI 公司经常推出新的爬虫 User-Agent。当 Anthropic 把先前的 anthropic-ai 和 Claude-Web 整合为 ClaudeBot 时，那些没有更新规则的网站在不知情的情况下仍处于可访问状态。你应当至少每季度审查一次 robots.txt。

Cloudflare 按次爬取付费（Pay-per-Crawl）：2025 年 7 月，Cloudflare 推出了 Pay-per-Crawl 功能，允许网站所有者为每次 AI 机器人的爬取请求收取 0.01 到 0.05 美元的微支付。它作为内容变现的一种新选择而备受关注。

服务器日志监控：即便配置了 robots.txt，通过服务器日志核实爬虫是否真正遵守你的指令也很重要。据报道，一些规模较小的 AI 爬虫会无视 robots.txt，这种情况下可能需要在防火墙层面进行屏蔽。

Sources:

inblog 如何提供帮助

inblog 的 robots.txt 默认允许搜索引擎爬虫。分机器人的 AI 爬虫设置（允许/屏蔽）可通过仪表盘的 robots.txt 编辑器进行管理。

AI 爬取

为什么重要

主要的 AI 爬虫

如何允许或屏蔽 AI 爬虫

战略性考量

相关 inblog 文章

inblog 如何提供帮助