什么是可索引性（Indexability）？| SEO 术语表

可索引性（Indexability）是指搜索引擎能够分析已抓取的页面、将其存入索引（收录数据库）并展示在搜索结果中的状态。如果说可抓取性问的是"搜索引擎能否访问这个页面"，那么可索引性问的就是"被访问到的页面是否有资格被收录"。

为什么重要

被抓取并不意味着一定会被收录。Google 官方文档也明确指出："不保证一定会建立索引，Google 处理的并非所有页面都会被收录。"未被收录的页面，无论内容多好都无法出现在搜索结果中，因此可索引性是搜索展示与排名的必要条件。

尤其随着站点规模变大，停留在"已抓取——尚未收录"状态而被搁置的页面更容易增多。可抓取性问题由于机器人的访问本身被阻断，相对容易发现；而可索引性问题则是页面明明能正常打开、却唯独在搜索中看不到，因此往往会在不知不觉中被忽略。

与可抓取性的区别

区分	可抓取性	可索引性
问题	搜索引擎能否访问并读取页面？	能否把已读取的页面存入索引并展示？
阻碍因素	robots.txt 阻断、服务器错误、失效链接	noindex、规范标签、4xx·5xx 状态码、低质量内容
关系	前置条件	抓取成功后才进行评估

这两个概念是先后关系。未被抓取的页面，连进入收录评估的资格都没有；只有抓取成功的页面，才会进入可索引性这一环节。

决定可索引性的因素

noindex 指令：如果页面带有 noindex 元标签或 X-Robots-Tag 标头，搜索引擎就会把该页面排除在收录之外。
规范信号：如果规范 URL 指向了其他页面，那么该页面就会被归类为"备用页面"而被排除在收录对象之外。Google 会把相似的页面归为一组，每个聚类只收录一个代表页面。
HTTP 状态码：只有返回 200 响应的页面才能被收录。404、410、5xx 错误、软 404，以及发生重定向的 URL，都会被排除在收录之外。
与 robots.txt 的关系：robots.txt 阻断只能拦住抓取，并不能直接阻止收录。反而，被阻断的页面会无法读取 noindex 标签，从而产生仅凭外部链接就让 URL 被收录的副作用。
内容质量：即便是技术上可被收录的页面，如果内容单薄或重复，Google 也可能不予收录。这是"已抓取——尚未收录"的常见原因。

检查方法

查看 Google Search Console 的"网页索引编制（Page Indexing）"报告，可以看到未被收录的页面按原因分类。根据"已通过 noindex 标记排除""带有适当规范标签的备用网页""已抓取——尚未收录"等不同原因，可以判断这究竟是有意的排除还是问题。对于单个 URL，则用 URL 检查工具确认其收录状态以及 Google 所选择的规范页面。

Sources:

inblog 如何提供帮助

inblog 会自动处理好基本功，让已发布的文章具备被收录的资格。正常的 200 响应、每篇文章独立的 canonical 标签、站点地图自动生成均为默认提供；对于想要排除在收录之外的文章，则可通过 noindex 设置加以排除。建议在发布后养成习惯，定期在 Search Console 的网页索引报告中确认实际的收录情况。