SEO

Robots.txt

Robots.txt - это общедоступный текстовый файл, расположенный в корневом каталоге сайта (/robots.txt), который служит стандартным протоколом (Robots Exclusion Protocol) для указания поисковым краулерам, к каким URL они могут получать доступ на сайте.

Robots.txt - это общедоступный текстовый файл, расположенный в корневом каталоге сайта (/robots.txt), который служит стандартным протоколом (Robots Exclusion Protocol) для указания поисковым краулерам, к каким URL они могут получать доступ на сайте.

Почему это важно

Количество страниц, которые поисковые системы посещают за день, ограничено в зависимости от краулингового бюджета, выделенного каждому сайту. Правильно настроенный robots.txt блокирует ненужные пути - такие как административные страницы, конечные точки API и дублирующийся контент - от сканирования, позволяя сосредоточить краулинговый бюджет на основном контенте. Для крупных сайтов с тысячами и более страниц эта настройка напрямую влияет на скорость индексации и общую эффективность SEO.

С 2025 года появление ИИ-краулеров, таких как GPTBot, CCBot, PerplexityBot и Google-Extended, ещё больше расширило роль robots.txt. Самый безопасный вариант по умолчанию для публичного маркетингового контента - разрешить доступ краулеров и контролировать только те пути, которые расходуют краулинговый бюджет или раскрывают непубличные части сайта. Блокируйте краулеры, обучающие ИИ, только если это соответствует вашей стратегии лицензирования контента и видимости в ИИ.

Ключевые директивы

ДирективаОписаниеПример
User-agentУказывает, к какому краулеру применяются правила. * означает все краулеры.User-agent: Googlebot
DisallowУказывает пути, которые нужно заблокировать от сканирования.Disallow: /admin/
AllowРазрешает отдельные подпути внутри родительского пути, заблокированного директивой Disallow.Allow: /admin/public/
SitemapУказывает URL XML-карты сайта. По соглашению размещается в нижней части файла.Sitemap: https://example.com/sitemap.xml
Crawl-delayЗадаёт время ожидания в секундах между запросами краулера. Googlebot игнорирует эту директиву.Crawl-delay: 10

Руководство по настройке

Для публичного блога базовая настройка должна быть простой:

User-agent: *
Allow: /

Sitemap: https://example.com/sitemap.xml

Добавляйте правила Disallow только для тех областей, которые не должны сканироваться, например внутренний поиск, административные маршруты, дублирующиеся URL с фильтрами или конечные точки API. Если вам нужно заблокировать определённые краулеры, обучающие ИИ, но оставить доступ для поисковых краулеров, изолируйте эти user agents:

User-agent: *
Allow: /
Disallow: /admin/
Disallow: /api/
Disallow: /*?*utm_

# Block AI crawlers
User-agent: GPTBot
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: anthropic-ai
Disallow: /

# Sitemap
Sitemap: https://example.com/sitemap.xml

Важные моменты:

  1. Расположение файла: файл должен находиться в корне домена (https://example.com/robots.txt). Размещение его в подкаталоге приведёт к тому, что краулеры его не распознают.
  2. Чувствительность к регистру: пути URL чувствительны к регистру. Disallow: /Private/ не блокирует /private/.
  3. Сопоставление правил: Google использует наиболее конкретное подходящее правило. Если правила Allow и Disallow оба соответствуют URL, побеждает более длинный совпадающий путь.
  4. Обработка HTTP-статусов: robots.txt с кодом 404 или 410 трактуется так, как будто никаких ограничений нет. Ответ 5xx может временно остановить сканирование, поскольку Google не может определить, недоступны ли правила или они намеренно ограничивающие.
  5. Тестирование обязательно: используйте отчёт robots.txt и инструмент проверки URL в Search Console, чтобы убедиться, что Googlebot может получить файл и что важные URL не заблокированы.
  6. Интеграция карты сайта: хотя рекомендуется напрямую отправлять карту сайта в Google Search Console и Bing Webmaster Tools, хорошей практикой также является указание её в robots.txt.

Распространённые ошибки

  • Восприятие его как инструмента безопасности: robots.txt - это всего лишь запрос к краулерам, он не блокирует доступ физически. Конфиденциальные страницы требуют отдельных мер безопасности, таких как аутентификация на сервере или блокировка по IP.
  • Путаница между Disallow и noindex: Disallow блокирует только сканирование, но не индексацию. Страницы с внешними ссылками всё равно могут появляться в результатах поиска, даже если они не сканировались. Чтобы полностью удалить страницу из результатов поиска, используйте мета-тег noindex.
  • Блокировка страницы до того, как Google увидит noindex: если вы добавите Disallow и noindex вместе, Google может вообще не просканировать страницу и, следовательно, никогда не увидеть директиву noindex.
  • Случайная блокировка всего сайта: установка Disallow: / под User-agent: * блокирует доступ всех краулеров ко всему сайту. Частая ошибка - использовать эту настройку во время редизайна сайта или на тестовой среде и забыть отменить её при развёртывании в продакшене.
  • Блокировка файлов CSS и JS: Googlebot рендерит страницы для оценки контента. Блокировка сканирования файлов CSS или JavaScript приводит к неполному рендерингу и может снизить оценки SEO.
  • Раскрытие конфиденциальных путей в robots.txt: robots.txt - это общедоступный файл, который может просмотреть любой. Указание приватного пути вроде /secret-admin-panel/ в Disallow фактически раскрывает существование этого пути внешнему миру.

Sources:

Related inblog Posts

How inblog Helps

inblog по умолчанию разрешает доступ поисковым краулерам и предоставляет управление ИИ-краулерами (GPTBot и др.) через панель управления.