SEO

抓取预算

抓取预算是指 Google 等搜索引擎在给定时间内会抓取(发现)网站上的 URL 数量。由于搜索引擎的资源有限,需要分摊到数十亿个网站上,因此它们只会为每个网站分配有限的抓取能力。

抓取预算是指 Google 等搜索引擎在给定时间内会抓取(发现)网站上的 URL 数量。由于搜索引擎的资源有限,需要分摊到数十亿个网站上,因此它们只会为每个网站分配有限的抓取能力。

为什么重要

页面只有先被搜索引擎抓取并编入索引,才能出现在搜索结果中。抓取预算不足意味着重要页面可能无法被发现,或者更新后的内容无法及时反映到搜索结果中。

大多数小型网站无需担心抓取预算,Google 对较小网站的抓取处理得很高效。然而,在以下情况下,抓取预算管理就变得至关重要:

  • 大型网站:拥有 10,000 个以上页面的网站,爬虫可能无法访问每一个页面。根据 Botify 对 4.13 亿个页面上 62 亿次 Googlebot 请求的分析,大型网站上有 77% 的页面没有获得任何搜索流量。
  • 频繁变化的内容:新闻网站、电商平台,或任何内容会定期更新的网站。
  • 存在技术性抓取问题的网站:例如存在重定向链、失效链接或大量重复内容的网站。

组成部分

抓取预算由两个因素决定:抓取需求抓取容量上限

抓取需求反映 Google 想要抓取某个网站的程度,受以下因素影响:

  • 已知库存:除非通过 robots.txt 或 HTTP 状态码加以屏蔽,Google 会尝试抓取所有已知页面。
  • 受欢迎程度:拥有优质反向链接和较高流量的网站会被更频繁地抓取。
  • 内容时效性:定期更新的网站(如新闻出版商)比静态页面被抓取得更频繁。

抓取容量上限是 Google 为避免使服务器过载而设定的上限。网站响应速度越快,允许的抓取量就越大;而频繁的服务器错误会降低抓取频率。

如何优化

  1. 提升网站速度:更快的服务器响应时间让爬虫能在相同时间内处理更多页面。
  2. 强化内部链接:通过有策略地布置内部链接,将爬虫引导至重要页面。
  3. 维护 XML 站点地图:排除重复或不重要的 URL,并保持站点地图为最新状态。
  4. 有效使用 robots.txt:屏蔽不必要的页面(管理后台页面、筛选页面),以防止抓取预算被浪费。
  5. 消除重定向链:多级重定向会无谓地消耗抓取预算。让重定向直接指向最终目标。
  6. 修复失效的内部链接:返回 404 错误的链接会浪费爬虫资源。
  7. 解决重复内容:大量相同或近乎相同的页面可能耗尽全部抓取预算。使用规范标签进行归并。

监测

Google Search Console 的抓取统计报告会显示 90 天周期内的总抓取请求数、下载大小和响应时间。抓取频率骤降或服务器错误率激增都预示着抓取预算出现了问题。

Sources: