SEO

Robots.txt

Robots.txt es un archivo de texto de acceso público ubicado en el directorio raíz de un sitio web (/robots.txt) que funciona como protocolo estándar (Robots Exclusion Protocol) para indicar a los rastreadores de los motores de búsqueda a qué URLs pueden acceder en el sitio.

Robots.txt es un archivo de texto de acceso público ubicado en el directorio raíz de un sitio web (/robots.txt) que funciona como protocolo estándar (Robots Exclusion Protocol) para indicar a los rastreadores de los motores de búsqueda a qué URLs pueden acceder en el sitio.

Por qué es importante

Los motores de búsqueda tienen un límite en la cantidad de páginas que visitan al día según el presupuesto de rastreo asignado a cada sitio web. Un robots.txt configurado correctamente bloquea rutas innecesarias, como páginas de administración, endpoints de API y contenido duplicado, evitando que se rastreen y permitiendo concentrar el presupuesto de rastreo en el contenido principal. En sitios de gran escala con miles de páginas o más, esta configuración influye directamente en la velocidad de indexación y en el rendimiento SEO general.

Desde 2025, la aparición de rastreadores de AI como GPTBot, CCBot, PerplexityBot y Google-Extended ha ampliado aún más el papel del robots.txt. La opción predeterminada más segura para el contenido de marketing público es permitir el acceso de los rastreadores y controlar únicamente las rutas que desperdician presupuesto de rastreo o exponen superficies no públicas. Bloquea los rastreadores de entrenamiento de AI solo cuando esto se ajuste a tu estrategia de licencias de contenido y de visibilidad en AI.

Directivas clave

DirectivaDescripciónEjemplo
User-agentEspecifica a qué rastreador se aplican las reglas. * significa todos los rastreadores.User-agent: Googlebot
DisallowEspecifica las rutas que se deben bloquear del rastreo.Disallow: /admin/
AllowPermite subrutas específicas dentro de una ruta superior bloqueada con Disallow.Allow: /admin/public/
SitemapEspecifica la URL del sitemap XML. Por convención se coloca al final del archivo.Sitemap: https://example.com/sitemap.xml
Crawl-delayEstablece el tiempo de espera en segundos entre las solicitudes del rastreador. Googlebot ignora esta directiva.Crawl-delay: 10

Guía de configuración

Para un blog público, la configuración base debe ser sencilla:

User-agent: *
Allow: /

Sitemap: https://example.com/sitemap.xml

Añade reglas Disallow solo para las áreas que no deben rastrearse, como la búsqueda interna, las rutas de administración, las URLs duplicadas de filtros o los endpoints de API. Si necesitas bloquear rastreadores de entrenamiento de AI específicos mientras mantienes abiertos los rastreadores de búsqueda, aísla esos user agents:

User-agent: *
Allow: /
Disallow: /admin/
Disallow: /api/
Disallow: /*?*utm_

# Block AI crawlers
User-agent: GPTBot
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: anthropic-ai
Disallow: /

# Sitemap
Sitemap: https://example.com/sitemap.xml

Consideraciones importantes:

  1. Ubicación del archivo: el archivo debe estar ubicado en la raíz del dominio (https://example.com/robots.txt). Colocarlo en un subdirectorio hará que los rastreadores no lo reconozcan.
  2. Sensibilidad a mayúsculas y minúsculas: las rutas de las URLs distinguen entre mayúsculas y minúsculas. Disallow: /Private/ no bloquea /private/.
  3. Coincidencia de reglas: Google utiliza la regla coincidente más específica. Si las reglas Allow y Disallow coinciden ambas con una URL, gana la ruta coincidente más larga.
  4. Manejo del estado HTTP: un robots.txt que devuelve 404 o 410 se trata como si no existieran restricciones. Una respuesta 5xx puede detener temporalmente el rastreo porque Google no puede determinar si las reglas no están disponibles o son intencionadamente restrictivas.
  5. Las pruebas son obligatorias: utiliza el informe de robots.txt y la herramienta de inspección de URLs de Search Console para verificar que Googlebot puede obtener el archivo y que las URLs importantes no están bloqueadas.
  6. Integración del sitemap: aunque se recomienda enviar el sitemap directamente a Google Search Console y a Bing Webmaster Tools, también es una buena práctica especificarlo en el robots.txt.

Errores comunes

  • Tratarlo como una herramienta de seguridad: robots.txt es simplemente una solicitud a los rastreadores, no bloquea físicamente el acceso. Las páginas sensibles requieren medidas de seguridad independientes, como autenticación en el servidor o bloqueo por IP.
  • Confundir Disallow con noindex: Disallow solo bloquea el rastreo, no la indexación. Las páginas con enlaces externos aún pueden aparecer en los resultados de búsqueda incluso sin ser rastreadas. Para eliminar por completo una página de los resultados de búsqueda, utiliza la metaetiqueta noindex.
  • Bloquear una página antes de que Google pueda ver noindex: si añades Disallow y noindex juntos, es posible que Google nunca rastree la página y, por lo tanto, nunca vea la directiva noindex.
  • Bloquear accidentalmente todo el sitio: establecer Disallow: / bajo User-agent: * bloquea el acceso de todos los rastreadores a todo el sitio. Un error frecuente es utilizar esta configuración durante el rediseño de un sitio o en un entorno de staging y olvidar revertirla para la implementación en producción.
  • Bloquear archivos CSS y JS: Googlebot renderiza las páginas para evaluar el contenido. Bloquear el rastreo de archivos CSS o JavaScript da como resultado un renderizado incompleto y puede reducir las puntuaciones SEO.
  • Exponer rutas sensibles en robots.txt: robots.txt es un archivo de acceso público que cualquiera puede ver. Listar una ruta privada como /secret-admin-panel/ en Disallow en realidad revela al exterior la existencia de esa ruta.

Sources:

Artículos relacionados de inblog

Cómo ayuda inblog

inblog permite los rastreadores de los motores de búsqueda de forma predeterminada y ofrece la gestión de rastreadores de AI (GPTBot, etc.) a través del panel de control.