Robots.txt
Robots.txt es un archivo de texto de acceso público ubicado en el directorio raíz de un sitio web (/robots.txt) que funciona como protocolo estándar (Robots Exclusion Protocol) para indicar a los rastreadores de los motores de búsqueda a qué URLs pueden acceder en el sitio.
Robots.txt es un archivo de texto de acceso público ubicado en el directorio raíz de un sitio web (/robots.txt) que funciona como protocolo estándar (Robots Exclusion Protocol) para indicar a los rastreadores de los motores de búsqueda a qué URLs pueden acceder en el sitio.
Por qué es importante
Los motores de búsqueda tienen un límite en la cantidad de páginas que visitan al día según el presupuesto de rastreo asignado a cada sitio web. Un robots.txt configurado correctamente bloquea rutas innecesarias, como páginas de administración, endpoints de API y contenido duplicado, evitando que se rastreen y permitiendo concentrar el presupuesto de rastreo en el contenido principal. En sitios de gran escala con miles de páginas o más, esta configuración influye directamente en la velocidad de indexación y en el rendimiento SEO general.
Desde 2025, la aparición de rastreadores de AI como GPTBot, CCBot, PerplexityBot y Google-Extended ha ampliado aún más el papel del robots.txt. La opción predeterminada más segura para el contenido de marketing público es permitir el acceso de los rastreadores y controlar únicamente las rutas que desperdician presupuesto de rastreo o exponen superficies no públicas. Bloquea los rastreadores de entrenamiento de AI solo cuando esto se ajuste a tu estrategia de licencias de contenido y de visibilidad en AI.
Directivas clave
| Directiva | Descripción | Ejemplo |
|---|---|---|
User-agent | Especifica a qué rastreador se aplican las reglas. * significa todos los rastreadores. | User-agent: Googlebot |
Disallow | Especifica las rutas que se deben bloquear del rastreo. | Disallow: /admin/ |
Allow | Permite subrutas específicas dentro de una ruta superior bloqueada con Disallow. | Allow: /admin/public/ |
Sitemap | Especifica la URL del sitemap XML. Por convención se coloca al final del archivo. | Sitemap: https://example.com/sitemap.xml |
Crawl-delay | Establece el tiempo de espera en segundos entre las solicitudes del rastreador. Googlebot ignora esta directiva. | Crawl-delay: 10 |
Guía de configuración
Para un blog público, la configuración base debe ser sencilla:
User-agent: *
Allow: /
Sitemap: https://example.com/sitemap.xml
Añade reglas Disallow solo para las áreas que no deben rastrearse, como la búsqueda interna, las rutas de administración, las URLs duplicadas de filtros o los endpoints de API. Si necesitas bloquear rastreadores de entrenamiento de AI específicos mientras mantienes abiertos los rastreadores de búsqueda, aísla esos user agents:
User-agent: *
Allow: /
Disallow: /admin/
Disallow: /api/
Disallow: /*?*utm_
# Block AI crawlers
User-agent: GPTBot
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: anthropic-ai
Disallow: /
# Sitemap
Sitemap: https://example.com/sitemap.xml
Consideraciones importantes:
- Ubicación del archivo: el archivo debe estar ubicado en la raíz del dominio (
https://example.com/robots.txt). Colocarlo en un subdirectorio hará que los rastreadores no lo reconozcan. - Sensibilidad a mayúsculas y minúsculas: las rutas de las URLs distinguen entre mayúsculas y minúsculas.
Disallow: /Private/no bloquea/private/. - Coincidencia de reglas: Google utiliza la regla coincidente más específica. Si las reglas
AllowyDisallowcoinciden ambas con una URL, gana la ruta coincidente más larga. - Manejo del estado HTTP: un robots.txt que devuelve 404 o 410 se trata como si no existieran restricciones. Una respuesta 5xx puede detener temporalmente el rastreo porque Google no puede determinar si las reglas no están disponibles o son intencionadamente restrictivas.
- Las pruebas son obligatorias: utiliza el informe de robots.txt y la herramienta de inspección de URLs de Search Console para verificar que Googlebot puede obtener el archivo y que las URLs importantes no están bloqueadas.
- Integración del sitemap: aunque se recomienda enviar el sitemap directamente a Google Search Console y a Bing Webmaster Tools, también es una buena práctica especificarlo en el robots.txt.
Errores comunes
- Tratarlo como una herramienta de seguridad: robots.txt es simplemente una solicitud a los rastreadores, no bloquea físicamente el acceso. Las páginas sensibles requieren medidas de seguridad independientes, como autenticación en el servidor o bloqueo por IP.
- Confundir Disallow con noindex:
Disallowsolo bloquea el rastreo, no la indexación. Las páginas con enlaces externos aún pueden aparecer en los resultados de búsqueda incluso sin ser rastreadas. Para eliminar por completo una página de los resultados de búsqueda, utiliza la metaetiquetanoindex. - Bloquear una página antes de que Google pueda ver
noindex: si añadesDisallowynoindexjuntos, es posible que Google nunca rastree la página y, por lo tanto, nunca vea la directivanoindex. - Bloquear accidentalmente todo el sitio: establecer
Disallow: /bajoUser-agent: *bloquea el acceso de todos los rastreadores a todo el sitio. Un error frecuente es utilizar esta configuración durante el rediseño de un sitio o en un entorno de staging y olvidar revertirla para la implementación en producción. - Bloquear archivos CSS y JS: Googlebot renderiza las páginas para evaluar el contenido. Bloquear el rastreo de archivos CSS o JavaScript da como resultado un renderizado incompleto y puede reducir las puntuaciones SEO.
- Exponer rutas sensibles en robots.txt: robots.txt es un archivo de acceso público que cualquiera puede ver. Listar una ruta privada como
/secret-admin-panel/en Disallow en realidad revela al exterior la existencia de esa ruta.
Sources:
- Introducción y guía de Robots.txt - Google Search Central
- Especificaciones de Robots.txt - Google Search Central
- Informe de Robots.txt - Ayuda de Search Console
- Robots.txt y SEO: todo lo que necesitas saber - Ahrefs
- Robots.txt explicado: sintaxis, mejores prácticas y SEO - Semrush
Artículos relacionados de inblog
- ¿Qué es Robots.txt? ¿Por qué importa Robots.txt para el SEO?
- Qué es llms.txt y por qué importa para el SEO
Cómo ayuda inblog
inblog permite los rastreadores de los motores de búsqueda de forma predeterminada y ofrece la gestión de rastreadores de AI (GPTBot, etc.) a través del panel de control.