Краулинговый бюджет
Краулинговый бюджет - это число URL на сайте, которое поисковые системы вроде Google просканируют (обнаружат) за определенный период времени. Поскольку у поисковых систем конечные ресурсы, распределенные по миллиардам сайтов, они выделяют каждому сайту ограниченный объем сканирующей мощности.
Краулинговый бюджет - это число URL на сайте, которое поисковые системы вроде Google просканируют (обнаружат) за определенный период времени. Поскольку у поисковых систем конечные ресурсы, распределенные по миллиардам сайтов, они выделяют каждому сайту ограниченный объем сканирующей мощности.
Почему это важно
Поисковые системы должны просканировать и проиндексировать страницу, прежде чем она сможет появиться в результатах поиска. Недостаточный краулинговый бюджет означает, что важные страницы могут остаться необнаруженными, а обновленный контент может не отразиться в выдаче своевременно.
Большинству небольших сайтов не нужно беспокоиться о краулинговом бюджете - Google эффективно справляется со сканированием небольших сайтов. Однако управление краулинговым бюджетом становится критичным для:
- Крупных сайтов: сайтов с 10 000+ страниц, где роботы могут посещать не каждую страницу. По данным анализа Botify, охватившего 6,2 млрд запросов Googlebot к 413 млн страниц, 77% страниц на крупных сайтах не получают никакого поискового трафика.
- Часто меняющегося контента: новостных сайтов, платформ электронной коммерции или любых сайтов, где контент регулярно обновляется.
- Сайтов с техническими проблемами сканирования: тех, что имеют цепочки редиректов, битые ссылки или избыточный дублирующийся контент.
Составляющие
Краулинговый бюджет определяется двумя факторами: краулинговым спросом (Crawl Demand) и лимитом краулинговой мощности (Crawl Capacity Limit).
Краулинговый спрос отражает, насколько Google хочет сканировать сайт, и зависит от:
- Предполагаемого объема контента: Google пытается просканировать все известные страницы, если они не заблокированы через robots.txt или HTTP-коды состояния.
- Популярности: сайты с качественными обратными ссылками и более высоким трафиком сканируются чаще.
- Свежести контента: регулярно обновляемые сайты (например, новостные издания) сканируются чаще, чем статичные страницы.
Лимит краулинговой мощности - это верхняя граница, которую Google устанавливает, чтобы не перегружать сервер. Более быстрое время отклика сайта позволяет сканировать больше, тогда как частые ошибки сервера снижают частоту сканирования.
Как оптимизировать
- Повысьте скорость сайта: более быстрое время отклика сервера позволяет роботам обрабатывать больше страниц за тот же промежуток времени.
- Усильте внутреннюю перелинковку: направляйте роботов к важным страницам через стратегическое размещение внутренних ссылок.
- Поддерживайте XML-карты сайта: исключайте дублирующиеся или неважные URL и держите карты сайта в актуальном состоянии.
- Эффективно используйте robots.txt: блокируйте ненужные страницы (страницы администрирования, страницы фильтров), чтобы предотвратить трату краулингового бюджета.
- Устраняйте цепочки редиректов: многошаговые редиректы напрасно расходуют краулинговый бюджет. Направляйте редиректы напрямую к конечным адресам.
- Исправляйте битые внутренние ссылки: ссылки, возвращающие ошибки 404, тратят ресурсы роботов.
- Устраняйте дублирующийся контент: множество идентичных или почти идентичных страниц может исчерпать весь краулинговый бюджет. Используйте канонические теги для объединения.
Мониторинг
Отчет Crawl Stats в Google Search Console показывает общее число запросов на сканирование, объемы загрузки и время отклика за периоды в 90 дней. Внезапное падение частоты сканирования или всплеск доли ошибок сервера сигнализируют о проблемах с краулинговым бюджетом.
Источники: