Rastreo con IA
El rastreo con IA se refiere al proceso por el que bots automatizados operados por empresas de IA, como GPTBot, ClaudeBot y PerplexityBot, visitan y recopilan contenido de los sitios web. Los datos recopilados se utilizan con diversos fines, como el entrenamiento de grandes modelos de lenguaje (LLM), la generación de resultados de búsqueda con IA y la respuesta a preguntas en tiempo real.
El rastreo con IA se refiere al proceso por el que bots automatizados operados por empresas de IA, como GPTBot, ClaudeBot y PerplexityBot, visitan y recopilan contenido de los sitios web. Los datos recopilados se utilizan con diversos fines, como el entrenamiento de grandes modelos de lenguaje (LLM), la generación de resultados de búsqueda con IA y la respuesta a preguntas en tiempo real.
Por qué importa
A fecha de 2025-2026, el tráfico de los rastreadores de IA crece con rapidez como porcentaje del tráfico total de bots, y el rastreo con fines de entrenamiento representa aproximadamente el 80 % de toda la actividad de los bots de IA. Para los creadores de contenido, el rastreo con IA es importante de dos maneras. Primero, necesitas poder controlar si tu contenido se utiliza como datos de entrenamiento para modelos de IA sin autorización. Segundo, si quieres que tu contenido se cite y aparezca en los buscadores con IA (Perplexity, ChatGPT Search, Gemini, etc.), debes permitir que los rastreadores de búsqueda correspondientes accedan a tu sitio. En otras palabras, gestionar el rastreo con IA es un reto estratégico de equilibrar la protección del contenido con la obtención de visibilidad en la IA (visibilidad en LLM).
Principales rastreadores de IA
A fecha de 2026, los principales rastreadores de IA, sus operadores y sus propósitos principales son los siguientes:
| User-Agent | Operador | Propósito principal |
|---|---|---|
| GPTBot | OpenAI | Recopilación de datos de entrenamiento del modelo |
| OAI-SearchBot | OpenAI | Generación de resultados de búsqueda de ChatGPT |
| ChatGPT-User | OpenAI | Recuperación de páginas en tiempo real durante las conversaciones de los usuarios |
| ClaudeBot | Anthropic | Recopilación de datos de entrenamiento del modelo |
| Claude-SearchBot | Anthropic | Indexación de resultados de búsqueda de Claude |
| Claude-User | Anthropic | Recuperación de páginas en tiempo real para las consultas de los usuarios |
| Google-Extended | Token de control del entrenamiento del modelo Gemini | |
| PerplexityBot | Perplexity | Rastreo web para la búsqueda con IA |
| CCBot | Common Crawl | Archivo abierto de la web (usado para entrenar muchos modelos de IA) |
| Bytespider | ByteDance | Funciones de búsqueda e IA de TikTok |
| meta-externalagent | Meta | Soporte de las funciones de Meta AI |
| Applebot-Extended | Apple | Entrenamiento de Apple Intelligence |
| Amazonbot | Amazon | Servicios de Alexa y de IA de Amazon |
Googlebot representa el 38,7 % de todas las solicitudes de bots relacionados con IA, seguido de GPTBot con un 12,8 %, meta-externalagent con un 11,6 % y ClaudeBot con un 11,4 %; estos cuatro rastreadores representan en conjunto aproximadamente el 74 % de todo el tráfico de bots de IA.
Cómo permitir o bloquear los rastreadores de IA
El acceso de los rastreadores de IA se controla mediante el archivo robots.txt. La mayoría de los principales rastreadores de IA (GPTBot, ClaudeBot, PerplexityBot, etc.) declaran oficialmente que cumplen las directivas de robots.txt.
Ejemplo: Bloquear todos los rastreadores de entrenamiento de IA:
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: Bytespider
Disallow: /
Ejemplo: Bloquear el entrenamiento permitiendo la visibilidad en la búsqueda con IA:
# Bloquear rastreadores de entrenamiento
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: CCBot
Disallow: /
# Permitir rastreadores de búsqueda/recuperación en tiempo real
User-agent: ChatGPT-User
Allow: /
User-agent: Claude-SearchBot
Allow: /
User-agent: PerplexityBot
Allow: /
Ten en cuenta que Google-Extended es un token de control en lugar de un rastreador tradicional, por lo que no aparece directamente en los registros del servidor. Se utiliza para restringir el entrenamiento de Gemini sin bloquear al propio Googlebot.
Consideraciones estratégicas
Compensación entre el bloqueo del entrenamiento y la visibilidad en la búsqueda con IA: Bloquear todos los rastreadores de IA de forma indiscriminada protege tu contenido, pero impide que se cite en los resultados de la búsqueda con IA. Permitir el acceso de forma selectiva distinguiendo entre bots de entrenamiento y bots de búsqueda es la estrategia más recomendada a fecha de 2026.
Las auditorías periódicas son esenciales: Las empresas de IA introducen con frecuencia nuevos User-Agents de rastreadores. Cuando Anthropic consolidó sus anteriores agentes anthropic-ai y Claude-Web en ClaudeBot, los sitios que no actualizaron sus reglas quedaron accesibles sin querer. Deberías revisar tu robots.txt al menos una vez por trimestre.
Cloudflare Pay-per-Crawl: En julio de 2025, Cloudflare lanzó una función de Pay-per-Crawl que permite a los propietarios de sitios recibir micropagos de entre 0,01 y 0,05 dólares por cada solicitud de rastreo de un bot de IA. Ha llamado la atención como una nueva opción de monetización de contenido.
Supervisión de los registros del servidor: Incluso después de configurar robots.txt, es importante verificar mediante los registros del servidor que los rastreadores cumplen realmente tus directivas. Se ha informado de que algunos rastreadores de IA más pequeños ignoran robots.txt, en cuyo caso puede ser necesario un bloqueo a nivel de cortafuegos.
Sources:
- Estrategia de robots.txt 2026: gestionar rastreadores de IA y tradicionales
- ClaudeBot, Claude-User y Claude-SearchBot: el marco de tres bots de Anthropic
- Bots de IA y Robots.txt | Paul Calvano
- Cómo bloquear los rastreadores de IA (guía completa 2026)
- La guía completa de gestión de rastreadores de IA en 2026
- Informe mensual de rastreadores de IA: tendencias de tráfico de enero de 2026
- User-Agents de IA / LLM: guía de bloqueo
- Los bots Claude de Anthropic hacen más granulares las decisiones de Robots.txt
- Controla el uso de contenido para el entrenamiento de IA con Cloudflare
- Lista completa de rastreadores de IA en 2025
Publicaciones relacionadas de inblog
- Qué es llms.txt y por qué importa para el SEO
- Qué es la búsqueda con IA y cómo está cambiando el SEO
Cómo ayuda inblog
El robots.txt de inblog permite por defecto los rastreadores de los motores de búsqueda. La configuración de los rastreadores de IA por bot (permitir/bloquear) puede gestionarse mediante el editor de robots.txt del panel de control.