可抓取性
可抓取性是指搜索引擎机器人访问网页并收集其内容的能力。抓取是收集这一动作,而可抓取性则是可被收集的状态。它位于技术 SEO 需求层级的最底层。
可抓取性是指搜索引擎机器人访问网页并收集其内容的能力。抓取是收集这一动作,而可抓取性则是可被收集的状态。它位于技术 SEO 需求层级的最底层。
为什么重要
如果搜索引擎无法访问你的内容,那么无论质量多高,它都不会出现在搜索结果中。可抓取性是 SEO 的第一道关卡,这里出问题会让后续的所有优化(页面内、内容、反向链接)都失去意义。
常见的可抓取性障碍
robots.txt 屏蔽:重要页面被意外禁止抓取。
失效链接和重定向循环:消耗抓取预算却到不了目的地的路径。
服务器响应缓慢:响应时间过长会减少 Googlebot 在每个会话中能抓取的页面数量。
孤立页面:没有内部链接、爬虫无法发现的页面。
依赖 JavaScript 的内容:仅通过 JS 渲染的内容可能面临抓取和索引延迟。
如何提升
- 内部链接结构:确保所有重要页面都能在 3 次点击以内到达
- XML 站点地图:向爬虫提交一份完整的重要页面清单
- 审查 robots.txt:核实重要页面没有被意外屏蔽
- 修复失效链接:及时解决 404 错误和重定向链
- 服务器速度:更快的响应时间可提升抓取效率
- 清理低价值页面:把抓取预算集中在重要的页面上
可抓取性与可索引性
| 阶段 | 可抓取性 | 可索引性 |
|---|---|---|
| 问题 | 搜索引擎能访问这个页面吗? | 被访问的页面会被纳入索引吗? |
| 障碍 | robots.txt、服务器错误、无法访问 | noindex 标签、重复内容、低质量 |
| 关系 | 前提条件 | 在确认可抓取性之后才进行评估 |
Sources: