客座发文

可索引性

可抓取性是指搜索引擎机器人访问网页并收集其内容的能力。[抓取](/glossary/crawling)是收集这一动作，而可抓取性则是可被收集的状态。它位于[技术 SEO](/glossary/technical-seo) 需求层级的最底层。

### 为什么重要

如果搜索引擎无法访问你的内容，那么无论质量多高，它都不会出现在搜索结果中。可抓取性是 SEO 的第一道关卡，这里出问题会让后续的所有优化（页面内、内容、反向链接）都失去意义。

### 常见的可抓取性障碍

**[robots.txt](/glossary/robots-txt) 屏蔽**：重要页面被意外禁止抓取。

**失效链接和重定向循环**：消耗[抓取预算](/glossary/crawl-budget)却到不了目的地的路径。

**服务器响应缓慢**：响应时间过长会减少 [Googlebot](/glossary/googlebot) 在每个会话中能抓取的页面数量。

**孤立页面**：没有内部链接、爬虫无法发现的页面。

**依赖 JavaScript 的内容**：仅通过 JS 渲染的内容可能面临抓取和[索引](/glossary/indexing)延迟。

### 如何提升

1. **[内部链接](/glossary/internal-link)结构**：确保所有重要页面都能在 3 次点击以内到达
2. **XML [站点地图](/glossary/sitemap)**：向爬虫提交一份完整的重要页面清单
3. **审查 robots.txt**：核实重要页面没有被意外屏蔽
4. **修复失效链接**：及时解决 404 错误和重定向链
5. **服务器速度**：更快的响应时间可提升抓取效率
6. **清理低价值页面**：把抓取预算集中在重要的页面上

### 可抓取性与可索引性

| 阶段 | 可抓取性 | 可索引性 |
|-------|-------------|-------------|
| 问题 | 搜索引擎能访问这个页面吗？ | 被访问的页面会被纳入索引吗？ |
| 障碍 | robots.txt、服务器错误、无法访问 | [noindex](/glossary/noindex) 标签、[重复内容](/glossary/duplicate-content)、低质量 |
| 关系 | 前提条件 | 在确认可抓取性之后才进行评估 |

Sources:
- [可抓取性与可索引性：它们是什么以及如何影响 SEO - Semrush](https://www.semrush.com/blog/what-are-crawlability-and-indexability-of-a-website/)
- [可抓取性 101：修复 SEO 以被搜索引擎发现 - Search Engine Land](https://searchengineland.com/guide/crawlability)
- [什么是可抓取性？ - Ahrefs](https://ahrefs.com/seo/glossary/crawlability)

可抓取性是指搜索引擎访问并收集页面内容的能力。它是技术 SEO 的基础，了解如何提升 它。

阶段	可抓取性	可索引性
问题	搜索引擎能访问这个页面吗？	被访问的页面会被纳入索引吗？
障碍	robots.txt、服务器错误、无法访问	noindex 标签、重复内容、低质量
关系	前提条件	在确认可抓取性之后才进行评估