Robots.txt
Robots.txt - это общедоступный текстовый файл, расположенный в корневом каталоге сайта (/robots.txt), который служит стандартным протоколом (Robots Exclusion Protocol) для указания поисковым краулерам, к каким URL они могут получать доступ на сайте.
Robots.txt - это общедоступный текстовый файл, расположенный в корневом каталоге сайта (/robots.txt), который служит стандартным протоколом (Robots Exclusion Protocol) для указания поисковым краулерам, к каким URL они могут получать доступ на сайте.
Почему это важно
Количество страниц, которые поисковые системы посещают за день, ограничено в зависимости от краулингового бюджета, выделенного каждому сайту. Правильно настроенный robots.txt блокирует ненужные пути - такие как административные страницы, конечные точки API и дублирующийся контент - от сканирования, позволяя сосредоточить краулинговый бюджет на основном контенте. Для крупных сайтов с тысячами и более страниц эта настройка напрямую влияет на скорость индексации и общую эффективность SEO.
С 2025 года появление ИИ-краулеров, таких как GPTBot, CCBot, PerplexityBot и Google-Extended, ещё больше расширило роль robots.txt. Самый безопасный вариант по умолчанию для публичного маркетингового контента - разрешить доступ краулеров и контролировать только те пути, которые расходуют краулинговый бюджет или раскрывают непубличные части сайта. Блокируйте краулеры, обучающие ИИ, только если это соответствует вашей стратегии лицензирования контента и видимости в ИИ.
Ключевые директивы
| Директива | Описание | Пример |
|---|---|---|
User-agent | Указывает, к какому краулеру применяются правила. * означает все краулеры. | User-agent: Googlebot |
Disallow | Указывает пути, которые нужно заблокировать от сканирования. | Disallow: /admin/ |
Allow | Разрешает отдельные подпути внутри родительского пути, заблокированного директивой Disallow. | Allow: /admin/public/ |
Sitemap | Указывает URL XML-карты сайта. По соглашению размещается в нижней части файла. | Sitemap: https://example.com/sitemap.xml |
Crawl-delay | Задаёт время ожидания в секундах между запросами краулера. Googlebot игнорирует эту директиву. | Crawl-delay: 10 |
Руководство по настройке
Для публичного блога базовая настройка должна быть простой:
User-agent: *
Allow: /
Sitemap: https://example.com/sitemap.xml
Добавляйте правила Disallow только для тех областей, которые не должны сканироваться, например внутренний поиск, административные маршруты, дублирующиеся URL с фильтрами или конечные точки API. Если вам нужно заблокировать определённые краулеры, обучающие ИИ, но оставить доступ для поисковых краулеров, изолируйте эти user agents:
User-agent: *
Allow: /
Disallow: /admin/
Disallow: /api/
Disallow: /*?*utm_
# Block AI crawlers
User-agent: GPTBot
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: anthropic-ai
Disallow: /
# Sitemap
Sitemap: https://example.com/sitemap.xml
Важные моменты:
- Расположение файла: файл должен находиться в корне домена (
https://example.com/robots.txt). Размещение его в подкаталоге приведёт к тому, что краулеры его не распознают. - Чувствительность к регистру: пути URL чувствительны к регистру.
Disallow: /Private/не блокирует/private/. - Сопоставление правил: Google использует наиболее конкретное подходящее правило. Если правила
AllowиDisallowоба соответствуют URL, побеждает более длинный совпадающий путь. - Обработка HTTP-статусов: robots.txt с кодом 404 или 410 трактуется так, как будто никаких ограничений нет. Ответ 5xx может временно остановить сканирование, поскольку Google не может определить, недоступны ли правила или они намеренно ограничивающие.
- Тестирование обязательно: используйте отчёт robots.txt и инструмент проверки URL в Search Console, чтобы убедиться, что Googlebot может получить файл и что важные URL не заблокированы.
- Интеграция карты сайта: хотя рекомендуется напрямую отправлять карту сайта в Google Search Console и Bing Webmaster Tools, хорошей практикой также является указание её в robots.txt.
Распространённые ошибки
- Восприятие его как инструмента безопасности: robots.txt - это всего лишь запрос к краулерам, он не блокирует доступ физически. Конфиденциальные страницы требуют отдельных мер безопасности, таких как аутентификация на сервере или блокировка по IP.
- Путаница между Disallow и noindex:
Disallowблокирует только сканирование, но не индексацию. Страницы с внешними ссылками всё равно могут появляться в результатах поиска, даже если они не сканировались. Чтобы полностью удалить страницу из результатов поиска, используйте мета-тегnoindex. - Блокировка страницы до того, как Google увидит
noindex: если вы добавитеDisallowиnoindexвместе, Google может вообще не просканировать страницу и, следовательно, никогда не увидеть директивуnoindex. - Случайная блокировка всего сайта: установка
Disallow: /подUser-agent: *блокирует доступ всех краулеров ко всему сайту. Частая ошибка - использовать эту настройку во время редизайна сайта или на тестовой среде и забыть отменить её при развёртывании в продакшене. - Блокировка файлов CSS и JS: Googlebot рендерит страницы для оценки контента. Блокировка сканирования файлов CSS или JavaScript приводит к неполному рендерингу и может снизить оценки SEO.
- Раскрытие конфиденциальных путей в robots.txt: robots.txt - это общедоступный файл, который может просмотреть любой. Указание приватного пути вроде
/secret-admin-panel/в Disallow фактически раскрывает существование этого пути внешнему миру.
Sources:
- Robots.txt Introduction and Guide - Google Search Central
- Robots.txt Specifications - Google Search Central
- Robots.txt Report - Search Console Help
- Robots.txt and SEO: Everything You Need to Know - Ahrefs
- Robots.txt Explained: Syntax, Best Practices, & SEO - Semrush
Related inblog Posts
How inblog Helps
inblog по умолчанию разрешает доступ поисковым краулерам и предоставляет управление ИИ-краулерами (GPTBot и др.) через панель управления.