SEO

Robots 元标签

Robots 元标签(robots meta tag)是插入在 HTML <head> 区域的 <meta name="robots"> 标签,是一种按页面逐一指示搜索引擎如何收录该页面、如何在搜索结果中展示的元标签。它是承载 noindex、nofollow、max-snippet 等各个指令的容器,同时也是把这些指令统称在一起的总括概念。

Robots 元标签(robots meta tag)是插入在 HTML <head> 区域的 <meta name="robots"> 标签,是一种按页面逐一指示搜索引擎如何收录该页面、如何在搜索结果中展示的元标签。它是承载 noindex、nofollow、max-snippet 等各个指令的容器,同时也是把这些指令统称在一起的总括概念。

为什么重要

如果说 robots.txt 是在站点层面控制爬虫的访问,那么 Robots 元标签则是对每一个页面的收录与否、搜索结果展示形态进行精细控制。它既负责把登录页或感谢页排除出搜索结果(noindex),也负责限制摘要中展示的文本长度(max-snippet),即同时承担"收录控制"和"展示形态控制",因此是技术 SEO 中最常打交道的工具之一。

主要指令

Google 支持的代表性指令如下。

指令含义
all无限制(默认值)
noindex将页面排除出搜索结果
nofollow不跟踪页面内的链接
none等同于 noindex, nofollow
nosnippet不展示文本摘要和视频预览
max-snippet:[数字]限制文本摘要的最大字符数
max-image-preview:[设置]指定图片预览大小(none·standard·large)
max-video-preview:[数字]限制视频预览的最大时长(秒)
noimageindex不收录页面内的图片
notranslate不在搜索结果中展示翻译建议
indexifembedded即便是 noindex 页面,若通过 iframe 嵌入则允许收录
unavailable_after:[日期]指定日期之后将其排除出搜索结果

多个指令可以用逗号组合。

<meta name="robots" content="noindex, nofollow">
<meta name="robots" content="max-snippet:120, max-image-preview:large">

设置方法与注意事项

name="robots" 会应用于所有搜索引擎爬虫,也可以像 name="googlebot" 那样只指定特定爬虫。当规则发生冲突时,更具限制性的规则会生效。例如,当 max-snippet:50nosnippet 同时存在时,nosnippet 优先。

对于 PDF、图片这类非 HTML 文件,无法插入元标签,因此要通过 HTTP 响应标头 X-Robots-Tag 来传递相同的指令。

最常见的错误是与 robots.txt 阻断混用。一旦用 robots.txt 拦住抓取,搜索引擎就无法打开页面,也就读不到 Robots 元标签本身。想要应用 noindex 的页面,必须处于允许抓取的状态。

AI 时代的摘要控制

nosnippet 和 max-snippet 原本用于调整搜索结果摘要的长度,但随着 AI 搜索的普及,其含义发生了变化。Google 在官方文档中明确指出,这些指令的适用范围不仅包括网页搜索、图片、Discover,还涵盖 AI Overviews(AI 概览)和 AI 模式。声明 nosnippet 后,相应内容连被用作 AI 答案直接输入这一点也会被阻止;而 max-snippet 则会限制 AI 可引用的篇幅。

也就是说,Robots 元标签如今已不只是控制"在搜索结果中展示几行",而是进一步成为控制"让我的内容在 AI 答案中被使用到何种程度"的手段。不过,限制设得越强,在 AI 搜索中的展示机会也可能随之减少,因此需要在内容保护与可见性之间权衡取舍后再做决定。

Sources:

inblog 如何提供帮助

inblog 会自动处理 robots 元标签,因此一般的文章发布无需额外设置。如果有想从搜索结果中排除的文章,使用按文章的 noindex 设置即可。其余更精细的指令,在大多数博客运营中保持默认值就已足够;如果目标是增加在 AI 搜索中的展示,那么不施加摘要限制会更占优势。