Content Signals
Content Signals(内容信号)是一项策略标准,它扩展 robots.txt,以机器可读的形式声明:对于爬虫抓取走的内容,自己更倾向于将其用于搜索(search)、AI 答案(ai-input)、AI 训练(ai-train)中的哪种用途。该标准由 Cloudflare 于 2025 年 9 月 24 日发布。
Content Signals(内容信号)是一项策略标准,它扩展 robots.txt,以机器可读的形式声明:对于爬虫抓取走的内容,自己更倾向于将其用于搜索(search)、AI 答案(ai-input)、AI 训练(ai-train)中的哪种用途。该标准由 Cloudflare 于 2025 年 9 月 24 日发布。
为什么重要
既有的 robots.txt 只能表达"哪个爬虫可以访问哪些路径",却无法处理抓取走的内容会被如何使用。问题在于,同一个爬虫往往身兼多种用途。例如谷歌对搜索索引与 AI 功能使用同一个爬虫,因此采用整体拦截 AI 爬虫的方式,就无法实现"保留搜索曝光,仅拒绝 AI 训练"的选择。Content Signals 让偏好不再以访问主体、而是以使用用途为单位来声明,从而填补了这一空白。在"AI 时代内容所有者如何夺回控制权"这一讨论中,它占据着重要的一环。
三种信号与写法
- search:构建搜索索引并提供搜索结果。不包括 AI 生成的摘要。
- ai-input:将内容输入 AI 模型,用于实时生成答案(接地、RAG 等)。
- ai-train:用于 AI 模型的训练或微调。
在 robots.txt 中以逗号分隔的 yes/no 形式书写。
Content-Signal: search=yes, ai-input=yes, ai-train=no
User-Agent: *
Allow: /
省略某项信号,即视为未就该用途表明偏好。Cloudflare 已对使用其托管式 robots.txt 的 380 万个以上域名默认应用 search=yes、ai-train=no,而 ai-input 则留空,交由运营者自行决定。
局限与 GEO 视角
Content Signals 是偏好的声明,而非技术性的拦截手段,因此无法阻止无视它的爬虫。不过,作为机器可读形式的明确意思表示,它在未来围绕内容使用的争议中可以成为依据,Cloudflare 也将其设计为与机器人拦截、Pay Per Crawl 等强制手段配合使用。从 GEO 视角看,关键在于 ai-input 是一把双刃剑。如果目标是被 AI 答案引用,那么一旦拒绝 ai-input,经由 AI 爬取而被答案引用的机会本身也就随之消失。因此,以品牌可见性为目的的网站,通常采用保留 search=yes、ai-input=yes,仅有选择地拒绝 ai-train 的配置。
Sources:
inblog 如何提供帮助
用 inblog 发布的博客,大多以在搜索与 AI 答案两侧都获得曝光为目的,因此若要应用 Content Signals,开放 search 与 ai-input 的配置较为自然。借助 inblog 的自有分析功能查看来自 AI 渠道的流量,便能用数据验证允许 ai-input 的选择是否真的带来流量,并可通过 GSC 集成在同一界面管理搜索曝光。