GEO

Rastreo con IA

El rastreo con IA se refiere al proceso por el que bots automatizados operados por empresas de IA, como GPTBot, ClaudeBot y PerplexityBot, visitan y recopilan contenido de los sitios web. Los datos recopilados se utilizan con diversos fines, como el entrenamiento de grandes modelos de lenguaje (LLM), la generación de resultados de búsqueda con IA y la respuesta a preguntas en tiempo real.

El rastreo con IA se refiere al proceso por el que bots automatizados operados por empresas de IA, como GPTBot, ClaudeBot y PerplexityBot, visitan y recopilan contenido de los sitios web. Los datos recopilados se utilizan con diversos fines, como el entrenamiento de grandes modelos de lenguaje (LLM), la generación de resultados de búsqueda con IA y la respuesta a preguntas en tiempo real.

Por qué importa

A fecha de 2025-2026, el tráfico de los rastreadores de IA crece con rapidez como porcentaje del tráfico total de bots, y el rastreo con fines de entrenamiento representa aproximadamente el 80 % de toda la actividad de los bots de IA. Para los creadores de contenido, el rastreo con IA es importante de dos maneras. Primero, necesitas poder controlar si tu contenido se utiliza como datos de entrenamiento para modelos de IA sin autorización. Segundo, si quieres que tu contenido se cite y aparezca en los buscadores con IA (Perplexity, ChatGPT Search, Gemini, etc.), debes permitir que los rastreadores de búsqueda correspondientes accedan a tu sitio. En otras palabras, gestionar el rastreo con IA es un reto estratégico de equilibrar la protección del contenido con la obtención de visibilidad en la IA (visibilidad en LLM).

Principales rastreadores de IA

A fecha de 2026, los principales rastreadores de IA, sus operadores y sus propósitos principales son los siguientes:

User-AgentOperadorPropósito principal
GPTBotOpenAIRecopilación de datos de entrenamiento del modelo
OAI-SearchBotOpenAIGeneración de resultados de búsqueda de ChatGPT
ChatGPT-UserOpenAIRecuperación de páginas en tiempo real durante las conversaciones de los usuarios
ClaudeBotAnthropicRecopilación de datos de entrenamiento del modelo
Claude-SearchBotAnthropicIndexación de resultados de búsqueda de Claude
Claude-UserAnthropicRecuperación de páginas en tiempo real para las consultas de los usuarios
Google-ExtendedGoogleToken de control del entrenamiento del modelo Gemini
PerplexityBotPerplexityRastreo web para la búsqueda con IA
CCBotCommon CrawlArchivo abierto de la web (usado para entrenar muchos modelos de IA)
BytespiderByteDanceFunciones de búsqueda e IA de TikTok
meta-externalagentMetaSoporte de las funciones de Meta AI
Applebot-ExtendedAppleEntrenamiento de Apple Intelligence
AmazonbotAmazonServicios de Alexa y de IA de Amazon

Googlebot representa el 38,7 % de todas las solicitudes de bots relacionados con IA, seguido de GPTBot con un 12,8 %, meta-externalagent con un 11,6 % y ClaudeBot con un 11,4 %; estos cuatro rastreadores representan en conjunto aproximadamente el 74 % de todo el tráfico de bots de IA.

Cómo permitir o bloquear los rastreadores de IA

El acceso de los rastreadores de IA se controla mediante el archivo robots.txt. La mayoría de los principales rastreadores de IA (GPTBot, ClaudeBot, PerplexityBot, etc.) declaran oficialmente que cumplen las directivas de robots.txt.

Ejemplo: Bloquear todos los rastreadores de entrenamiento de IA:

User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: Bytespider
Disallow: /

Ejemplo: Bloquear el entrenamiento permitiendo la visibilidad en la búsqueda con IA:

# Bloquear rastreadores de entrenamiento
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: CCBot
Disallow: /

# Permitir rastreadores de búsqueda/recuperación en tiempo real
User-agent: ChatGPT-User
Allow: /

User-agent: Claude-SearchBot
Allow: /

User-agent: PerplexityBot
Allow: /

Ten en cuenta que Google-Extended es un token de control en lugar de un rastreador tradicional, por lo que no aparece directamente en los registros del servidor. Se utiliza para restringir el entrenamiento de Gemini sin bloquear al propio Googlebot.

Consideraciones estratégicas

Compensación entre el bloqueo del entrenamiento y la visibilidad en la búsqueda con IA: Bloquear todos los rastreadores de IA de forma indiscriminada protege tu contenido, pero impide que se cite en los resultados de la búsqueda con IA. Permitir el acceso de forma selectiva distinguiendo entre bots de entrenamiento y bots de búsqueda es la estrategia más recomendada a fecha de 2026.

Las auditorías periódicas son esenciales: Las empresas de IA introducen con frecuencia nuevos User-Agents de rastreadores. Cuando Anthropic consolidó sus anteriores agentes anthropic-ai y Claude-Web en ClaudeBot, los sitios que no actualizaron sus reglas quedaron accesibles sin querer. Deberías revisar tu robots.txt al menos una vez por trimestre.

Cloudflare Pay-per-Crawl: En julio de 2025, Cloudflare lanzó una función de Pay-per-Crawl que permite a los propietarios de sitios recibir micropagos de entre 0,01 y 0,05 dólares por cada solicitud de rastreo de un bot de IA. Ha llamado la atención como una nueva opción de monetización de contenido.

Supervisión de los registros del servidor: Incluso después de configurar robots.txt, es importante verificar mediante los registros del servidor que los rastreadores cumplen realmente tus directivas. Se ha informado de que algunos rastreadores de IA más pequeños ignoran robots.txt, en cuyo caso puede ser necesario un bloqueo a nivel de cortafuegos.

Sources:

Publicaciones relacionadas de inblog

Cómo ayuda inblog

El robots.txt de inblog permite por defecto los rastreadores de los motores de búsqueda. La configuración de los rastreadores de IA por bot (permitir/bloquear) puede gestionarse mediante el editor de robots.txt del panel de control.