SEO

可索引性

可索引性(Indexability)是指搜索引擎能够分析已抓取的页面、将其存入索引(收录数据库)并展示在搜索结果中的状态。如果说可抓取性问的是"搜索引擎能否访问这个页面",那么可索引性问的就是"被访问到的页面是否有资格被收录"。

可索引性(Indexability)是指搜索引擎能够分析已抓取的页面、将其存入索引(收录数据库)并展示在搜索结果中的状态。如果说可抓取性问的是"搜索引擎能否访问这个页面",那么可索引性问的就是"被访问到的页面是否有资格被收录"。

为什么重要

被抓取并不意味着一定会被收录。Google 官方文档也明确指出:"不保证一定会建立索引,Google 处理的并非所有页面都会被收录。"未被收录的页面,无论内容多好都无法出现在搜索结果中,因此可索引性是搜索展示与排名的必要条件。

尤其随着站点规模变大,停留在"已抓取——尚未收录"状态而被搁置的页面更容易增多。可抓取性问题由于机器人的访问本身被阻断,相对容易发现;而可索引性问题则是页面明明能正常打开、却唯独在搜索中看不到,因此往往会在不知不觉中被忽略。

与可抓取性的区别

区分可抓取性可索引性
问题搜索引擎能否访问并读取页面?能否把已读取的页面存入索引并展示?
阻碍因素robots.txt 阻断、服务器错误、失效链接noindex、规范标签、4xx·5xx 状态码、低质量内容
关系前置条件抓取成功后才进行评估

这两个概念是先后关系。未被抓取的页面,连进入收录评估的资格都没有;只有抓取成功的页面,才会进入可索引性这一环节。

决定可索引性的因素

  1. noindex 指令:如果页面带有 noindex 元标签或 X-Robots-Tag 标头,搜索引擎就会把该页面排除在收录之外。
  2. 规范信号:如果规范 URL 指向了其他页面,那么该页面就会被归类为"备用页面"而被排除在收录对象之外。Google 会把相似的页面归为一组,每个聚类只收录一个代表页面。
  3. HTTP 状态码:只有返回 200 响应的页面才能被收录。404、410、5xx 错误、软 404,以及发生重定向的 URL,都会被排除在收录之外。
  4. 与 robots.txt 的关系:robots.txt 阻断只能拦住抓取,并不能直接阻止收录。反而,被阻断的页面会无法读取 noindex 标签,从而产生仅凭外部链接就让 URL 被收录的副作用。
  5. 内容质量:即便是技术上可被收录的页面,如果内容单薄或重复,Google 也可能不予收录。这是"已抓取——尚未收录"的常见原因。

检查方法

查看 Google Search Console 的"网页索引编制(Page Indexing)"报告,可以看到未被收录的页面按原因分类。根据"已通过 noindex 标记排除""带有适当规范标签的备用网页""已抓取——尚未收录"等不同原因,可以判断这究竟是有意的排除还是问题。对于单个 URL,则用 URL 检查工具确认其收录状态以及 Google 所选择的规范页面。

Sources:

inblog 如何提供帮助

inblog 会自动处理好基本功,让已发布的文章具备被收录的资格。正常的 200 响应、每篇文章独立的 canonical 标签、站点地图自动生成均为默认提供;对于想要排除在收录之外的文章,则可通过 noindex 设置加以排除。建议在发布后养成习惯,定期在 Search Console 的网页索引报告中确认实际的收录情况。