Qu'est-ce que le Robots.txt ? | Glossaire SEO

Le Robots.txt est un fichier texte accessible publiquement, situé dans le répertoire racine d'un site web (/robots.txt), qui sert de protocole standard (Robots Exclusion Protocol) pour indiquer aux robots d'exploration des moteurs de recherche quelles URL ils peuvent consulter sur le site.

Pourquoi c'est important

Les moteurs de recherche sont limités quant au nombre de pages qu'ils visitent par jour, en fonction du budget d'exploration alloué à chaque site web. Un fichier robots.txt correctement configuré bloque l'exploration des chemins inutiles, comme les pages d'administration, les points de terminaison d'API et le contenu en double, ce qui permet de concentrer le budget d'exploration sur le contenu principal. Pour les sites de grande envergure comportant des milliers de pages ou plus, cette configuration a un impact direct sur la vitesse d'indexation et sur les performances SEO globales.

Depuis 2025, l'apparition de robots d'exploration d'IA tels que GPTBot, CCBot, PerplexityBot et Google-Extended a encore élargi le rôle du robots.txt. Le réglage par défaut le plus sûr pour le contenu marketing public consiste à autoriser l'accès des robots et à ne contrôler que les chemins qui gaspillent le budget d'exploration ou qui exposent des surfaces non publiques. Ne bloquez les robots d'entraînement d'IA que si cela correspond à votre stratégie de licence de contenu et de visibilité auprès des IA.

Directives clés

Directive	Description	Exemple
`User-agent`	Précise à quel robot les règles s'appliquent. `*` désigne tous les robots.	`User-agent: Googlebot`
`Disallow`	Précise les chemins à bloquer pour l'exploration.	`Disallow: /admin/`
`Allow`	Autorise des sous-chemins spécifiques au sein d'un chemin parent bloqué par Disallow.	`Allow: /admin/public/`
`Sitemap`	Précise l'URL du sitemap XML. Placée par convention en bas du fichier.	`Sitemap: https://example.com/sitemap.xml`
`Crawl-delay`	Définit le délai d'attente en secondes entre les requêtes du robot. Googlebot ignore cette directive.	`Crawl-delay: 10`

Guide de configuration

Pour un blog public, la configuration de base doit rester simple :

User-agent: *
Allow: /

Sitemap: https://example.com/sitemap.xml

Ajoutez des règles Disallow uniquement pour les zones qui ne doivent pas être explorées, comme la recherche interne, les routes d'administration, les URL de filtres en double ou les points de terminaison d'API. Si vous devez bloquer certains robots d'entraînement d'IA tout en gardant les robots de recherche ouverts, isolez ces user agents :

User-agent: *
Allow: /
Disallow: /admin/
Disallow: /api/
Disallow: /*?*utm_

# Block AI crawlers
User-agent: GPTBot
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: anthropic-ai
Disallow: /

# Sitemap
Sitemap: https://example.com/sitemap.xml

Points importants à prendre en compte :

Emplacement du fichier : le fichier doit se trouver à la racine du domaine (https://example.com/robots.txt). Le placer dans un sous-répertoire empêchera les robots de le reconnaître.
Sensibilité à la casse : les chemins d'URL sont sensibles à la casse. Disallow: /Private/ ne bloque pas /private/.
Correspondance des règles : Google utilise la règle correspondante la plus spécifique. Si des règles Allow et Disallow correspondent toutes deux à une URL, le chemin correspondant le plus long l'emporte.
Gestion du statut HTTP : un robots.txt renvoyant un 404 ou un 410 est traité comme s'il n'existait aucune restriction. Une réponse 5xx peut interrompre temporairement l'exploration, car Google ne peut pas déterminer si les règles sont indisponibles ou intentionnellement restrictives.
Le test est obligatoire : utilisez le rapport robots.txt de la Search Console et l'outil d'inspection d'URL pour vérifier que Googlebot peut récupérer le fichier et que les URL importantes ne sont pas bloquées.
Intégration du sitemap : bien qu'il soit recommandé de soumettre directement votre sitemap à la Google Search Console et au Bing Webmaster Tools, il est également de bonne pratique de l'indiquer dans le robots.txt.

Erreurs courantes

Le considérer comme un outil de sécurité : le robots.txt n'est qu'une demande adressée aux robots, il ne bloque pas physiquement l'accès. Les pages sensibles nécessitent des mesures de sécurité distinctes, comme une authentification serveur ou un blocage par IP.
Confondre Disallow et noindex : Disallow ne bloque que l'exploration, pas l'indexation. Les pages comportant des liens externes peuvent tout de même apparaître dans les résultats de recherche, même sans être explorées. Pour retirer entièrement une page des résultats de recherche, utilisez la balise meta noindex.
Bloquer une page avant que Google ne puisse voir le noindex : si vous ajoutez Disallow et noindex ensemble, Google risque de ne jamais explorer la page et donc de ne jamais voir la directive noindex.
Bloquer accidentellement l'ensemble du site : définir Disallow: / sous User-agent: * bloque l'accès de tous les robots à l'ensemble du site. Une erreur fréquente consiste à utiliser ce réglage lors d'une refonte de site ou sur un environnement de préproduction, puis à oublier de l'annuler pour la mise en production.
Bloquer les fichiers CSS et JS : Googlebot affiche les pages pour en évaluer le contenu. Bloquer l'exploration des fichiers CSS ou JavaScript entraîne un rendu incomplet et peut faire baisser les scores SEO.
Exposer des chemins sensibles dans le robots.txt : le robots.txt est un fichier accessible publiquement que n'importe qui peut consulter. Lister un chemin privé comme /secret-admin-panel/ dans Disallow révèle en réalité l'existence de ce chemin au monde extérieur.

Sources :

Articles inblog associés

Comment inblog vous aide

inblog autorise les robots d'exploration des moteurs de recherche par défaut et propose la gestion des robots d'IA (GPTBot, etc.) via le tableau de bord.