Что такое AI-краулер? | SEO-глоссарий

AI-краулер - это бот, управляемый поставщиком LLM: GPTBot от OpenAI, ClaudeBot от Anthropic, PerplexityBot от Perplexity, CCBot от Common Crawl, Google-Extended от Google, - который загружает веб-страницы, чтобы либо обучать большие языковые модели, либо обосновывать ответы AI-поиска актуальным контентом. AI-краулеры ведут себя как поисковые краулеры, но служат иной цели: они питают слой AI-ответов, а не SERP.

Почему это важно

В 2024-2025 годах трафик AI-краулеров вырос с "погрешности округления" до 10-20% всего ботового трафика на многих контентных сайтах. Данные Cloudflare за 2025 год показывают, что GPTBot и Google-Extended каждый выдают десятки миллионов запросов в день по всему открытому вебу. Для издателей AI-краулеры ставят два решения: разрешать ли их вообще (вы можете обучать модель без компенсации) и, если да, то как оптимизировать под них так, как SEO-специалисты когда-то оптимизировали под Googlebot. Блокировка убирает ваш бренд из AI-ответов; разрешение без структуры оставляет вас на милость того, как ИИ интерпретирует сырой HTML.

Основные AI-краулеры

GPTBot (OpenAI): загружает контент в первую очередь для обучения ChatGPT и обновления знаний. User-agent: GPTBot. Может быть заблокирован для всего сайта в robots.txt. Не рендерит JavaScript.

ClaudeBot / Claude-Web (Anthropic): загружает для обучения и извлечения данных Claude. User-agent: ClaudeBot, Claude-Web, anthropic-ai. Соблюдает robots.txt.

PerplexityBot (Perplexity): загружает для генерации ответов в реальном времени в поиске Perplexity. User-agent: PerplexityBot. Исторически вызывал споры после сообщений 2024 года об обходе robots.txt; теперь явно соблюдает его.

Google-Extended (Google): токен, позволяющий сайтам отказаться от использования в обучении Gemini и продуктах Vertex AI без блокировки обычного Googlebot. Критическое различие: блокировка Googlebot убивает поисковый трафик; блокировка Google-Extended лишь отказывается от обучения ИИ.

CCBot (Common Crawl): не принадлежит AI-компании, но вывод Common Crawl - самый распространённый обучающий корпус для LLM. Блокировка CCBot убирает вас из большинства конвейеров обучения моделей.

Applebot-Extended, Meta-ExternalAgent, Bytespider: более новые краулеры эпохи ИИ от Apple, Meta и ByteDance.

Краулеры обучения против краулеров извлечения

Краулеры обучения поглощают контент однократно (или периодически) и запекают его в веса модели. Их блокировка означает, что ваш контент не будет обучать будущие модели - долгосрочная потеря узнаваемости бренда.

Краулеры извлечения загружают страницы в момент запроса, чтобы обосновать конкретный ответ. Их блокировка означает, что ваш контент не сможет появляться в живых AI-цитированиях - немедленная потеря AI-видимости.

Некоторые боты делают и то, и другое; некоторые - только одно. Узнайте, что есть что, прежде чем определять свою политику.

Управление доступом

Через robots.txt:

User-agent: GPTBot
Disallow: /

User-agent: Google-Extended
Disallow: /

Через HTTP-заголовки: X-Robots-Tag: noai, noimageai сообщает некоторым краулерам не использовать страницу для обучения ИИ, хотя соблюдение этого непоследовательно.

Через файрвол / WAF: Cloudflare, Fastly и AWS WAF теперь предлагают блокировку AI-краулеров в один клик, которая применяется на уровне периметра, а не полагается на соблюдение robots.txt.

Через пейволл или авторизацию: самая надёжная блокировка. Контент за входом по умолчанию недоступен краулерам.

Стоит ли блокировать AI-краулеры?

Аргументы за блокировку: вы не хотите некомпенсированного обучения на ваших оригинальных репортажах, аналитике или платном контенте. Крупные издатели (NYT, Reuters, CNN) заблокировали многие AI-краулеры, одновременно судясь или лицензируя отдельно.

Аргументы против блокировки: ваш бренд исчезает из AI-ответов. Для большинства контентных сайтов - особенно SaaS, малого бизнеса и маркетинговых блогов - AI-видимость ценнее теоретического дохода от обучающих данных, который вы всё равно никогда бы не увидели.

Средний путь: блокируйте краулеры только для обучения (Google-Extended, GPTBot для обучения), разрешая краулеры извлечения (PerplexityBot, ChatGPT Search). Публикуйте качественный контент и получайте цитирования, не питая долгосрочное обучение.

Распространённые ошибки

Блокировка Googlebot в уверенности, что заблокировали ИИ Google: Googlebot отвечает за индексацию поиска; Google-Extended отвечает за обучение ИИ. Это разные вещи.

Доверие только к самозаявленным user-agent: некоторые боты выдают себя за других. Сочетайте robots.txt с правилами файрвола для критичных блокировок.

Никогда не принимать решение: оставлять "разрешить всё" по умолчанию - это тоже решение. Проверьте логи сервера один раз и выберите политику.

Блокировка CCBot, не осознавая этого: вы только что убрали себя из Common Crawl, основы большинства открытого обучения моделей.

Источники: