Что такое краулинговый бюджет? | Словарь SEO

Краулинговый бюджет - это число URL на сайте, которое поисковые системы вроде Google просканируют (обнаружат) за определенный период времени. Поскольку у поисковых систем конечные ресурсы, распределенные по миллиардам сайтов, они выделяют каждому сайту ограниченный объем сканирующей мощности.

Почему это важно

Поисковые системы должны просканировать и проиндексировать страницу, прежде чем она сможет появиться в результатах поиска. Недостаточный краулинговый бюджет означает, что важные страницы могут остаться необнаруженными, а обновленный контент может не отразиться в выдаче своевременно.

Большинству небольших сайтов не нужно беспокоиться о краулинговом бюджете - Google эффективно справляется со сканированием небольших сайтов. Однако управление краулинговым бюджетом становится критичным для:

Крупных сайтов: сайтов с 10 000+ страниц, где роботы могут посещать не каждую страницу. По данным анализа Botify, охватившего 6,2 млрд запросов Googlebot к 413 млн страниц, 77% страниц на крупных сайтах не получают никакого поискового трафика.
Часто меняющегося контента: новостных сайтов, платформ электронной коммерции или любых сайтов, где контент регулярно обновляется.
Сайтов с техническими проблемами сканирования: тех, что имеют цепочки редиректов, битые ссылки или избыточный дублирующийся контент.

Составляющие

Краулинговый бюджет определяется двумя факторами: краулинговым спросом (Crawl Demand) и лимитом краулинговой мощности (Crawl Capacity Limit).

Краулинговый спрос отражает, насколько Google хочет сканировать сайт, и зависит от:

Предполагаемого объема контента: Google пытается просканировать все известные страницы, если они не заблокированы через robots.txt или HTTP-коды состояния.
Популярности: сайты с качественными обратными ссылками и более высоким трафиком сканируются чаще.
Свежести контента: регулярно обновляемые сайты (например, новостные издания) сканируются чаще, чем статичные страницы.

Лимит краулинговой мощности - это верхняя граница, которую Google устанавливает, чтобы не перегружать сервер. Более быстрое время отклика сайта позволяет сканировать больше, тогда как частые ошибки сервера снижают частоту сканирования.

Как оптимизировать

Повысьте скорость сайта: более быстрое время отклика сервера позволяет роботам обрабатывать больше страниц за тот же промежуток времени.
Усильте внутреннюю перелинковку: направляйте роботов к важным страницам через стратегическое размещение внутренних ссылок.
Поддерживайте XML-карты сайта: исключайте дублирующиеся или неважные URL и держите карты сайта в актуальном состоянии.
Эффективно используйте robots.txt: блокируйте ненужные страницы (страницы администрирования, страницы фильтров), чтобы предотвратить трату краулингового бюджета.
Устраняйте цепочки редиректов: многошаговые редиректы напрасно расходуют краулинговый бюджет. Направляйте редиректы напрямую к конечным адресам.
Исправляйте битые внутренние ссылки: ссылки, возвращающие ошибки 404, тратят ресурсы роботов.
Устраняйте дублирующийся контент: множество идентичных или почти идентичных страниц может исчерпать весь краулинговый бюджет. Используйте канонические теги для объединения.

Мониторинг

Отчет Crawl Stats в Google Search Console показывает общее число запросов на сканирование, объемы загрузки и время отклика за периоды в 90 дней. Внезапное падение частоты сканирования или всплеск доли ошибок сервера сигнализируют о проблемах с краулинговым бюджетом.

Источники: