AI-краулер
AI-краулер - это бот, управляемый поставщиком LLM: GPTBot от OpenAI, ClaudeBot от Anthropic, PerplexityBot от Perplexity, CCBot от Common Crawl, Google-Extended от Google, - который загружает веб-страницы, чтобы либо обучать большие языковые модели, либо обосновывать ответы AI-поиска актуальным контентом. AI-краулеры ведут себя как поисковые краулеры, но служат иной цели: они питают слой AI-ответов, а не SERP.
AI-краулер - это бот, управляемый поставщиком LLM: GPTBot от OpenAI, ClaudeBot от Anthropic, PerplexityBot от Perplexity, CCBot от Common Crawl, Google-Extended от Google, - который загружает веб-страницы, чтобы либо обучать большие языковые модели, либо обосновывать ответы AI-поиска актуальным контентом. AI-краулеры ведут себя как поисковые краулеры, но служат иной цели: они питают слой AI-ответов, а не SERP.
Почему это важно
В 2024-2025 годах трафик AI-краулеров вырос с "погрешности округления" до 10-20% всего ботового трафика на многих контентных сайтах. Данные Cloudflare за 2025 год показывают, что GPTBot и Google-Extended каждый выдают десятки миллионов запросов в день по всему открытому вебу. Для издателей AI-краулеры ставят два решения: разрешать ли их вообще (вы можете обучать модель без компенсации) и, если да, то как оптимизировать под них так, как SEO-специалисты когда-то оптимизировали под Googlebot. Блокировка убирает ваш бренд из AI-ответов; разрешение без структуры оставляет вас на милость того, как ИИ интерпретирует сырой HTML.
Основные AI-краулеры
GPTBot (OpenAI): загружает контент в первую очередь для обучения ChatGPT и обновления знаний. User-agent: GPTBot. Может быть заблокирован для всего сайта в robots.txt. Не рендерит JavaScript.
ClaudeBot / Claude-Web (Anthropic): загружает для обучения и извлечения данных Claude. User-agent: ClaudeBot, Claude-Web, anthropic-ai. Соблюдает robots.txt.
PerplexityBot (Perplexity): загружает для генерации ответов в реальном времени в поиске Perplexity. User-agent: PerplexityBot. Исторически вызывал споры после сообщений 2024 года об обходе robots.txt; теперь явно соблюдает его.
Google-Extended (Google): токен, позволяющий сайтам отказаться от использования в обучении Gemini и продуктах Vertex AI без блокировки обычного Googlebot. Критическое различие: блокировка Googlebot убивает поисковый трафик; блокировка Google-Extended лишь отказывается от обучения ИИ.
CCBot (Common Crawl): не принадлежит AI-компании, но вывод Common Crawl - самый распространённый обучающий корпус для LLM. Блокировка CCBot убирает вас из большинства конвейеров обучения моделей.
Applebot-Extended, Meta-ExternalAgent, Bytespider: более новые краулеры эпохи ИИ от Apple, Meta и ByteDance.
Краулеры обучения против краулеров извлечения
Краулеры обучения поглощают контент однократно (или периодически) и запекают его в веса модели. Их блокировка означает, что ваш контент не будет обучать будущие модели - долгосрочная потеря узнаваемости бренда.
Краулеры извлечения загружают страницы в момент запроса, чтобы обосновать конкретный ответ. Их блокировка означает, что ваш контент не сможет появляться в живых AI-цитированиях - немедленная потеря AI-видимости.
Некоторые боты делают и то, и другое; некоторые - только одно. Узнайте, что есть что, прежде чем определять свою политику.
Управление доступом
Через robots.txt:
User-agent: GPTBot
Disallow: /
User-agent: Google-Extended
Disallow: /
Через HTTP-заголовки: X-Robots-Tag: noai, noimageai сообщает некоторым краулерам не использовать страницу для обучения ИИ, хотя соблюдение этого непоследовательно.
Через файрвол / WAF: Cloudflare, Fastly и AWS WAF теперь предлагают блокировку AI-краулеров в один клик, которая применяется на уровне периметра, а не полагается на соблюдение robots.txt.
Через пейволл или авторизацию: самая надёжная блокировка. Контент за входом по умолчанию недоступен краулерам.
Стоит ли блокировать AI-краулеры?
Аргументы за блокировку: вы не хотите некомпенсированного обучения на ваших оригинальных репортажах, аналитике или платном контенте. Крупные издатели (NYT, Reuters, CNN) заблокировали многие AI-краулеры, одновременно судясь или лицензируя отдельно.
Аргументы против блокировки: ваш бренд исчезает из AI-ответов. Для большинства контентных сайтов - особенно SaaS, малого бизнеса и маркетинговых блогов - AI-видимость ценнее теоретического дохода от обучающих данных, который вы всё равно никогда бы не увидели.
Средний путь: блокируйте краулеры только для обучения (Google-Extended, GPTBot для обучения), разрешая краулеры извлечения (PerplexityBot, ChatGPT Search). Публикуйте качественный контент и получайте цитирования, не питая долгосрочное обучение.
Распространённые ошибки
Блокировка Googlebot в уверенности, что заблокировали ИИ Google: Googlebot отвечает за индексацию поиска; Google-Extended отвечает за обучение ИИ. Это разные вещи.
Доверие только к самозаявленным user-agent: некоторые боты выдают себя за других. Сочетайте robots.txt с правилами файрвола для критичных блокировок.
Никогда не принимать решение: оставлять "разрешить всё" по умолчанию - это тоже решение. Проверьте логи сервера один раз и выберите политику.
Блокировка CCBot, не осознавая этого: вы только что убрали себя из Common Crawl, основы большинства открытого обучения моделей.
Источники: