¿Qué es un rastreador de IA? | Glosario SEO

Un rastreador de IA es un bot operado por un proveedor de LLM (GPTBot de OpenAI, ClaudeBot de Anthropic, PerplexityBot de Perplexity, CCBot de Common Crawl, Google-Extended de Google) que obtiene páginas web para entrenar grandes modelos de lenguaje o para fundamentar en contenido en tiempo real las respuestas de la búsqueda con IA. Los rastreadores de IA se comportan como los rastreadores de búsqueda, pero cumplen un propósito diferente: alimentar la capa de respuesta de la IA en lugar de la SERP.

Por qué es importante

En 2024 y 2025, el tráfico de los rastreadores de IA pasó de ser un "error de redondeo" a representar entre el 10 % y el 20 % del tráfico total de bots en muchos sitios de contenido. Los datos de Cloudflare de 2025 muestran que GPTBot y Google-Extended emiten cada uno decenas de millones de solicitudes diarias en la web abierta. Para los editores, los rastreadores de IA plantean dos decisiones: si permitirlos siquiera (podrías estar entrenando un modelo sin compensación) y, en caso afirmativo, cómo optimizar para ellos del mismo modo que los SEO optimizaban antes para Googlebot. Bloquearlos elimina tu marca de las respuestas de la IA; permitirlos sin estructura te deja a merced de cómo la IA interpreta el HTML en bruto.

Los principales rastreadores de IA

GPTBot (OpenAI): obtiene contenido principalmente para el entrenamiento de ChatGPT y para actualizar conocimientos. Agente de usuario: GPTBot. Se puede bloquear en todo el sitio en robots.txt. No renderiza JavaScript.

ClaudeBot / Claude-Web (Anthropic): obtiene contenido para el entrenamiento y la recuperación de Claude. Agentes de usuario: ClaudeBot, Claude-Web, anthropic-ai. Respeta robots.txt.

PerplexityBot (Perplexity): obtiene contenido para la generación de respuestas en tiempo real en la búsqueda de Perplexity. Agente de usuario: PerplexityBot. Históricamente controvertido tras los informes de 2024 sobre cómo eludía robots.txt; ahora cumple explícitamente.

Google-Extended (Google): un token que permite a los sitios optar por no ser usados para el entrenamiento de Gemini ni para los productos de Vertex AI, sin bloquear el Googlebot habitual. Distinción crítica: bloquear Googlebot acaba con el tráfico de búsqueda; bloquear Google-Extended solo te excluye del entrenamiento de IA.

CCBot (Common Crawl): no pertenece a una empresa de IA, pero el resultado de Common Crawl es el corpus de entrenamiento más habitual para los LLM. Bloquear CCBot te elimina de la mayoría de los flujos de entrenamiento de modelos.

Applebot-Extended, Meta-ExternalAgent, Bytespider: rastreadores más nuevos de la era de la IA de Apple, Meta y ByteDance.

Rastreadores de entrenamiento frente a rastreadores de recuperación

Los rastreadores de entrenamiento ingieren contenido una vez (o periódicamente) y lo incorporan a los pesos del modelo. Bloquearlos significa que tu contenido no entrenará modelos futuros: una pérdida a largo plazo de familiaridad con la marca.

Los rastreadores de recuperación obtienen páginas en el momento de la consulta para fundamentar una respuesta específica. Bloquearlos significa que tu contenido no puede aparecer en las citas de la IA en vivo: una pérdida inmediata de visibilidad en la IA.

Algunos bots hacen ambas cosas; otros solo una. Antes de decidir tu política, conoce cuál es cuál.

Controlar el acceso

Mediante robots.txt:

User-agent: GPTBot
Disallow: /

User-agent: Google-Extended
Disallow: /

Mediante cabeceras HTTP: X-Robots-Tag: noai, noimageai indica a algunos rastreadores que no usen la página para el entrenamiento de IA, aunque su cumplimiento es inconsistente.

Mediante firewall / WAF: Cloudflare, Fastly y AWS WAF ofrecen ahora bloqueos de rastreadores de IA con un solo clic que se aplican en el borde, en lugar de depender del cumplimiento de robots.txt.

Mediante muro de pago o autenticación: el bloqueo más fiable. El contenido detrás de un inicio de sesión es, de forma predeterminada, inaccesible para los rastreadores.

¿Deberías bloquear los rastreadores de IA?

Argumentos a favor de bloquear: no quieres que se entrene sin compensación con tus reportajes, análisis o contenido de pago originales. Los grandes editores (NYT, Reuters, CNN) han bloqueado muchos rastreadores de IA mientras litigan o conceden licencias por separado.

Argumentos en contra de bloquear: tu marca desaparece de las respuestas de la IA. Para la mayoría de los sitios de contenido, en especial SaaS, pymes y blogs de marketing, la visibilidad en la IA es más valiosa que los hipotéticos ingresos por datos de entrenamiento que de todos modos nunca verías.

Camino intermedio: bloquea los rastreadores que solo entrenan (Google-Extended, GPTBot para entrenamiento) mientras permites los rastreadores de recuperación (PerplexityBot, ChatGPT Search). Publica contenido de alta calidad y consigue que te citen sin alimentar el entrenamiento a largo plazo.

Errores comunes

Bloquear Googlebot creyendo que has bloqueado la IA de Google: Googlebot se encarga de la indexación para búsqueda; Google-Extended se encarga del entrenamiento de IA. Son independientes.

Fiarse solo de los agentes de usuario autodeclarados: algunos bots suplantan a otros. Combina robots.txt con reglas de firewall para los bloqueos de alto riesgo.

No decidir nunca: optar por "permitir todo" sigue siendo una decisión. Audita tus registros del servidor una vez y elige una política.

Bloquear CCBot sin darte cuenta: ahora te has eliminado de Common Crawl, la columna vertebral de la mayor parte del entrenamiento de modelos de código abierto.

Fuentes:

Rastreador de IA