可索引性
可索引性(Indexability)是指搜索引擎能够分析已抓取的页面、将其存入索引(收录数据库)并展示在搜索结果中的状态。如果说可抓取性问的是"搜索引擎能否访问这个页面",那么可索引性问的就是"被访问到的页面是否有资格被收录"。
可索引性(Indexability)是指搜索引擎能够分析已抓取的页面、将其存入索引(收录数据库)并展示在搜索结果中的状态。如果说可抓取性问的是"搜索引擎能否访问这个页面",那么可索引性问的就是"被访问到的页面是否有资格被收录"。
为什么重要
被抓取并不意味着一定会被收录。Google 官方文档也明确指出:"不保证一定会建立索引,Google 处理的并非所有页面都会被收录。"未被收录的页面,无论内容多好都无法出现在搜索结果中,因此可索引性是搜索展示与排名的必要条件。
尤其随着站点规模变大,停留在"已抓取——尚未收录"状态而被搁置的页面更容易增多。可抓取性问题由于机器人的访问本身被阻断,相对容易发现;而可索引性问题则是页面明明能正常打开、却唯独在搜索中看不到,因此往往会在不知不觉中被忽略。
与可抓取性的区别
| 区分 | 可抓取性 | 可索引性 |
|---|---|---|
| 问题 | 搜索引擎能否访问并读取页面? | 能否把已读取的页面存入索引并展示? |
| 阻碍因素 | robots.txt 阻断、服务器错误、失效链接 | noindex、规范标签、4xx·5xx 状态码、低质量内容 |
| 关系 | 前置条件 | 抓取成功后才进行评估 |
这两个概念是先后关系。未被抓取的页面,连进入收录评估的资格都没有;只有抓取成功的页面,才会进入可索引性这一环节。
决定可索引性的因素
- noindex 指令:如果页面带有 noindex 元标签或 X-Robots-Tag 标头,搜索引擎就会把该页面排除在收录之外。
- 规范信号:如果规范 URL 指向了其他页面,那么该页面就会被归类为"备用页面"而被排除在收录对象之外。Google 会把相似的页面归为一组,每个聚类只收录一个代表页面。
- HTTP 状态码:只有返回 200 响应的页面才能被收录。404、410、5xx 错误、软 404,以及发生重定向的 URL,都会被排除在收录之外。
- 与 robots.txt 的关系:robots.txt 阻断只能拦住抓取,并不能直接阻止收录。反而,被阻断的页面会无法读取 noindex 标签,从而产生仅凭外部链接就让 URL 被收录的副作用。
- 内容质量:即便是技术上可被收录的页面,如果内容单薄或重复,Google 也可能不予收录。这是"已抓取——尚未收录"的常见原因。
检查方法
查看 Google Search Console 的"网页索引编制(Page Indexing)"报告,可以看到未被收录的页面按原因分类。根据"已通过 noindex 标记排除""带有适当规范标签的备用网页""已抓取——尚未收录"等不同原因,可以判断这究竟是有意的排除还是问题。对于单个 URL,则用 URL 检查工具确认其收录状态以及 Google 所选择的规范页面。
Sources:
- In-depth guide to how Google Search works - Google Search Central
- Page Indexing report - Search Console Help
- Indexability: Make sure search engines can actually find and rank you - Search Engine Land
inblog 如何提供帮助
inblog 会自动处理好基本功,让已发布的文章具备被收录的资格。正常的 200 响应、每篇文章独立的 canonical 标签、站点地图自动生成均为默认提供;对于想要排除在收录之外的文章,则可通过 noindex 设置加以排除。建议在发布后养成习惯,定期在 Search Console 的网页索引报告中确认实际的收录情况。