Crawling
Сканирование (crawling) - это процесс, в ходе которого боты поисковых систем (краулеры), такие как Googlebot, автоматически посещают веб-страницы, чтобы обнаружить и собрать их контент. После сканирования страницы проходят этап индексации, по завершении которого они могут появиться в результатах поиска.
Сканирование (crawling) - это процесс, в ходе которого боты поисковых систем (краулеры), такие как Googlebot, автоматически посещают веб-страницы, чтобы обнаружить и собрать их контент. После сканирования страницы проходят этап индексации, по завершении которого они могут появиться в результатах поиска.
Почему это важно
Страницы, которые не были просканированы поисковыми системами, не могут быть включены в индекс и, следовательно, не появятся в результатах поиска. Каким бы хорошим ни был ваш контент, если краулер не может получить доступ к странице, эффект для SEO фактически равен нулю. Примечательно, что по состоянию на 2025 год Cloudflare сообщила, что трафик GPTBot вырос на 305% в годовом исчислении, а трафик Googlebot - на 96%. В условиях, когда AI-краулеры и краулеры поисковых систем одновременно потребляют ресурсы сервера, управление сканированием стало важнее, чем когда-либо.
Что такое краулинговый бюджет
Краулинговый бюджет - это общий объем времени и ресурсов, который Google выделяет на сканирование конкретного сайта. Он определяется двумя факторами:
- Crawl Rate Limit (лимит скорости сканирования): максимальное количество одновременных соединений и задержка между запросами, которые Googlebot выдерживает, чтобы не перегружать сервер. Если время отклика сервера (TTFB) низкое - менее 200 мс - лимит увеличивается. Если сервер замедляется или возвращает ошибки 5xx, лимит снижается.
- Crawl Demand (спрос на сканирование): степень, в которой Google хочет сканировать сайт, основанная на популярности и актуальности его контента. Часто обновляемые страницы с высоким трафиком создают более высокий спрос.
Как правило, если у сайта менее 10 000 страниц и новый контент индексируется в течение нескольких дней, краулинговый бюджет не является серьезной проблемой. Однако для масштабных сайтов с десятками тысяч страниц и более, или там, где контент создается быстрее, чем Google успевает его индексировать, оптимизация краулингового бюджета необходима.
Как оптимизировать сканирование
- Поддерживайте карту сайта в актуальном состоянии: по состоянию на 2026 год одних статических карт сайта недостаточно. Сайты с часто меняющимся контентом - такие как блоги или интернет-магазины - должны обновлять свои карты сайта ежедневно или в реальном времени.
- Оптимизируйте robots.txt: закройте краулерам доступ к админ-страницам, страницам внутреннего поиска, URL-адресам с комбинациями фильтров и другим путям, которые не нужно сканировать, тем самым предотвращая трату краулингового бюджета.
- Улучшайте время отклика сервера: поддержание TTFB на уровне 200 мс или менее заставляет Googlebot автоматически увеличивать скорость сканирования. Внедрение CDN, оптимизация стратегии кеширования и улучшение характеристик сервера - все это эффективно.
- Устраняйте дублирующийся контент: устанавливайте теги
rel="canonical"на дублирующихся страницах, возникающих из-за параметров URL, пагинации или смешанного использования HTTP/HTTPS, чтобы краулеры сосредоточились на канонической URL. - Улучшайте структуру внутренних ссылок: проектируйте внутренние ссылки так, чтобы важные страницы были достижимы в пределах 3 кликов от верхнего уровня сайта, позволяя краулерам в первую очередь обнаруживать ключевой контент.
- Управляйте AI-краулерами: AI-краулеры, такие как GPTBot и CCBot, могут потреблять до 40% полосы пропускания. Блокируйте ненужные AI-краулеры в robots.txt, чтобы высвободить больше ресурсов сервера для Googlebot.
Обработка ошибок сканирования
Вы можете проверить статус сканирования в отчете Crawl Stats Report в Google Search Console. Основные типы ошибок и способы их устранения следующие:
- Серверные ошибки 5xx: указывают на проблему стабильности сервера. Проверьте журналы сервера и примените автомасштабирование при всплесках трафика. Если эта ошибка сохраняется, Googlebot автоматически снизит частоту сканирования.
- 404 Not Found: удаленные страницы или некорректные URL. Если контент был перемещен, настройте переадресацию 301. Если он удален навсегда, уберите URL из карты сайта.
- Цепочки переадресаций: если переадресация проходит через три и более перехода, краулер может отказаться от нее. Измените переадресацию так, чтобы она вела напрямую к конечному URL с кодом 301.
- Заблокировано в robots.txt: периодически проверяйте, что важные страницы не заблокированы непреднамеренно. Используйте инструмент проверки URL (URL Inspection) в Search Console, чтобы выяснить, можно ли просканировать отдельные страницы.
Источники:
- In-Depth Guide to How Google Search Works - Google Search Central
- Website Crawling: The What, Why & How To Optimize - Search Engine Journal
- What Is a Website Crawler? How It Works + Tools to Try - Semrush
Похожие статьи inblog
Чем помогает inblog
Архитектура SSR в inblog позволяет Googlebot полностью сканировать контент без рендеринга JavaScript.