SEO

Crawling

Сканирование (crawling) - это процесс, в ходе которого боты поисковых систем (краулеры), такие как Googlebot, автоматически посещают веб-страницы, чтобы обнаружить и собрать их контент. После сканирования страницы проходят этап индексации, по завершении которого они могут появиться в результатах поиска.

Сканирование (crawling) - это процесс, в ходе которого боты поисковых систем (краулеры), такие как Googlebot, автоматически посещают веб-страницы, чтобы обнаружить и собрать их контент. После сканирования страницы проходят этап индексации, по завершении которого они могут появиться в результатах поиска.

Почему это важно

Страницы, которые не были просканированы поисковыми системами, не могут быть включены в индекс и, следовательно, не появятся в результатах поиска. Каким бы хорошим ни был ваш контент, если краулер не может получить доступ к странице, эффект для SEO фактически равен нулю. Примечательно, что по состоянию на 2025 год Cloudflare сообщила, что трафик GPTBot вырос на 305% в годовом исчислении, а трафик Googlebot - на 96%. В условиях, когда AI-краулеры и краулеры поисковых систем одновременно потребляют ресурсы сервера, управление сканированием стало важнее, чем когда-либо.

Что такое краулинговый бюджет

Краулинговый бюджет - это общий объем времени и ресурсов, который Google выделяет на сканирование конкретного сайта. Он определяется двумя факторами:

  1. Crawl Rate Limit (лимит скорости сканирования): максимальное количество одновременных соединений и задержка между запросами, которые Googlebot выдерживает, чтобы не перегружать сервер. Если время отклика сервера (TTFB) низкое - менее 200 мс - лимит увеличивается. Если сервер замедляется или возвращает ошибки 5xx, лимит снижается.
  2. Crawl Demand (спрос на сканирование): степень, в которой Google хочет сканировать сайт, основанная на популярности и актуальности его контента. Часто обновляемые страницы с высоким трафиком создают более высокий спрос.

Как правило, если у сайта менее 10 000 страниц и новый контент индексируется в течение нескольких дней, краулинговый бюджет не является серьезной проблемой. Однако для масштабных сайтов с десятками тысяч страниц и более, или там, где контент создается быстрее, чем Google успевает его индексировать, оптимизация краулингового бюджета необходима.

Как оптимизировать сканирование

  1. Поддерживайте карту сайта в актуальном состоянии: по состоянию на 2026 год одних статических карт сайта недостаточно. Сайты с часто меняющимся контентом - такие как блоги или интернет-магазины - должны обновлять свои карты сайта ежедневно или в реальном времени.
  2. Оптимизируйте robots.txt: закройте краулерам доступ к админ-страницам, страницам внутреннего поиска, URL-адресам с комбинациями фильтров и другим путям, которые не нужно сканировать, тем самым предотвращая трату краулингового бюджета.
  3. Улучшайте время отклика сервера: поддержание TTFB на уровне 200 мс или менее заставляет Googlebot автоматически увеличивать скорость сканирования. Внедрение CDN, оптимизация стратегии кеширования и улучшение характеристик сервера - все это эффективно.
  4. Устраняйте дублирующийся контент: устанавливайте теги rel="canonical" на дублирующихся страницах, возникающих из-за параметров URL, пагинации или смешанного использования HTTP/HTTPS, чтобы краулеры сосредоточились на канонической URL.
  5. Улучшайте структуру внутренних ссылок: проектируйте внутренние ссылки так, чтобы важные страницы были достижимы в пределах 3 кликов от верхнего уровня сайта, позволяя краулерам в первую очередь обнаруживать ключевой контент.
  6. Управляйте AI-краулерами: AI-краулеры, такие как GPTBot и CCBot, могут потреблять до 40% полосы пропускания. Блокируйте ненужные AI-краулеры в robots.txt, чтобы высвободить больше ресурсов сервера для Googlebot.

Обработка ошибок сканирования

Вы можете проверить статус сканирования в отчете Crawl Stats Report в Google Search Console. Основные типы ошибок и способы их устранения следующие:

  • Серверные ошибки 5xx: указывают на проблему стабильности сервера. Проверьте журналы сервера и примените автомасштабирование при всплесках трафика. Если эта ошибка сохраняется, Googlebot автоматически снизит частоту сканирования.
  • 404 Not Found: удаленные страницы или некорректные URL. Если контент был перемещен, настройте переадресацию 301. Если он удален навсегда, уберите URL из карты сайта.
  • Цепочки переадресаций: если переадресация проходит через три и более перехода, краулер может отказаться от нее. Измените переадресацию так, чтобы она вела напрямую к конечному URL с кодом 301.
  • Заблокировано в robots.txt: периодически проверяйте, что важные страницы не заблокированы непреднамеренно. Используйте инструмент проверки URL (URL Inspection) в Search Console, чтобы выяснить, можно ли просканировать отдельные страницы.

Источники:

Похожие статьи inblog

Чем помогает inblog

Архитектура SSR в inblog позволяет Googlebot полностью сканировать контент без рендеринга JavaScript.