AI Crawler
Um AI crawler é um bot operado por um provedor de LLM - o GPTBot da OpenAI, o ClaudeBot da Anthropic, o PerplexityBot da Perplexity, o CCBot da Common Crawl, o Google-Extended do Google - que busca páginas da web para treinar grandes modelos de linguagem ou para fundamentar respostas de busca por IA em conteúdo em tempo real. Os AI crawlers se comportam como crawlers de busca, mas servem a um propósito diferente: alimentar a camada de respostas da IA, e não a SERP.
Um AI crawler é um bot operado por um provedor de LLM - o GPTBot da OpenAI, o ClaudeBot da Anthropic, o PerplexityBot da Perplexity, o CCBot da Common Crawl, o Google-Extended do Google - que busca páginas da web para treinar grandes modelos de linguagem ou para fundamentar respostas de busca por IA em conteúdo em tempo real. Os AI crawlers se comportam como crawlers de busca, mas servem a um propósito diferente: alimentar a camada de respostas da IA, e não a SERP.
Por Que Importa
Em 2024 e 2025, o tráfego de AI crawlers passou de "erro de arredondamento" para 10 a 20% de todo o tráfego de bots em muitos sites de conteúdo. Os dados de 2025 da Cloudflare mostram que o GPTBot e o Google-Extended emitem, cada um, dezenas de milhões de requisições por dia em toda a web aberta. Para os publishers, os AI crawlers levantam duas decisões: se devem permiti-los (você pode estar treinando um modelo sem compensação) e, em caso afirmativo, como otimizar para eles da mesma forma que os profissionais de SEO um dia otimizaram para o Googlebot. Bloqueá-los remove sua marca das respostas da IA; permiti-los sem estrutura deixa você à mercê de como a IA interpreta o HTML bruto.
Os Principais AI Crawlers
GPTBot (OpenAI): Busca conteúdo principalmente para o treinamento do ChatGPT e a atualização de conhecimento. User-agent: GPTBot. Pode ser bloqueado em todo o site no robots.txt. Não renderiza JavaScript.
ClaudeBot / Claude-Web (Anthropic): Busca para o treinamento e a recuperação do Claude. User-agents: ClaudeBot, Claude-Web, anthropic-ai. Respeita o robots.txt.
PerplexityBot (Perplexity): Busca para a geração de respostas em tempo real na busca da Perplexity. User-agent: PerplexityBot. Foi historicamente controverso após relatos, em 2024, de que ignorava o robots.txt; agora é explicitamente compatível.
Google-Extended (Google): Um token que permite aos sites optar por não serem usados para o treinamento do Gemini e dos produtos do Vertex AI, sem bloquear o Googlebot comum. Distinção fundamental - bloquear o Googlebot elimina o tráfego de busca; bloquear o Google-Extended apenas exclui o site do treinamento de IA.
CCBot (Common Crawl): Não pertence a uma empresa de IA, mas o resultado da Common Crawl é, isoladamente, o corpus de treinamento mais comum para LLMs. Bloquear o CCBot remove você da maioria dos pipelines de treinamento de modelos.
Applebot-Extended, Meta-ExternalAgent, Bytespider: Crawlers mais recentes da era da IA, da Apple, da Meta e da ByteDance.
Crawlers de Treinamento vs. de Recuperação
Os crawlers de treinamento ingerem o conteúdo uma vez (ou periodicamente) e o incorporam aos pesos do modelo. Bloqueá-los significa que seu conteúdo não treinará modelos futuros - uma perda de longo prazo da familiaridade com a marca.
Os crawlers de recuperação buscam páginas no momento da consulta para fundamentar uma resposta específica. Bloqueá-los significa que seu conteúdo não pode aparecer em citações de IA em tempo real - uma perda imediata de visibilidade na IA.
Alguns bots fazem as duas coisas; alguns fazem apenas uma. Saiba qual é qual antes de definir sua política.
Controlando o Acesso
Via robots.txt:
User-agent: GPTBot
Disallow: /
User-agent: Google-Extended
Disallow: /
Via cabeçalhos HTTP: X-Robots-Tag: noai, noimageai diz a alguns crawlers para não usarem a página no treinamento de IA, embora a aplicação seja inconsistente.
Via firewall / WAF: Cloudflare, Fastly e AWS WAF agora oferecem bloqueios de AI crawlers em um clique, que são aplicados na borda (edge) em vez de dependerem da conformidade com o robots.txt.
Via paywall ou autenticação: O bloqueio mais confiável. O conteúdo atrás de um login é, por padrão, inacessível aos crawlers.
Você Deveria Bloquear os AI Crawlers?
Argumentos a favor do bloqueio: Você não quer treinamento não compensado em suas reportagens, análises ou conteúdo pago originais. Grandes publishers (NYT, Reuters, CNN) bloquearam muitos AI crawlers enquanto processam ou licenciam separadamente.
Argumentos contra o bloqueio: Sua marca desaparece das respostas da IA. Para a maioria dos sites de conteúdo - especialmente SaaS, pequenas e médias empresas e blogs de marketing -, a visibilidade na IA é mais valiosa do que a receita teórica de dados de treinamento que você jamais veria de qualquer forma.
Caminho do meio: Bloqueie os crawlers exclusivos de treinamento (Google-Extended, GPTBot para treinamento) enquanto permite os crawlers de recuperação (PerplexityBot, ChatGPT Search). Publique conteúdo de alta qualidade e seja citado sem alimentar o treinamento de longo prazo.
Erros Comuns
Bloquear o Googlebot achando que bloqueou a IA do Google: O Googlebot cuida da indexação de busca; o Google-Extended cuida do treinamento de IA. Eles são separados.
Confiar apenas nos user-agents autodeclarados: Alguns bots se passam por outros. Combine o robots.txt com regras de firewall para bloqueios de alto risco.
Nunca decidir: Optar por "permitir tudo" por padrão ainda é uma decisão. Audite seus logs de servidor uma vez e escolha uma política.
Bloquear o CCBot sem perceber: Você agora se removeu da Common Crawl, a espinha dorsal da maioria dos treinamentos de modelos de código aberto.
Fontes: