Robots.txt
Le Robots.txt est un fichier texte accessible publiquement, situé dans le répertoire racine d'un site web (/robots.txt), qui sert de protocole standard (Robots Exclusion Protocol) pour indiquer aux robots d'exploration des moteurs de recherche quelles URL ils peuvent consulter sur le site.
Le Robots.txt est un fichier texte accessible publiquement, situé dans le répertoire racine d'un site web (/robots.txt), qui sert de protocole standard (Robots Exclusion Protocol) pour indiquer aux robots d'exploration des moteurs de recherche quelles URL ils peuvent consulter sur le site.
Pourquoi c'est important
Les moteurs de recherche sont limités quant au nombre de pages qu'ils visitent par jour, en fonction du budget d'exploration alloué à chaque site web. Un fichier robots.txt correctement configuré bloque l'exploration des chemins inutiles, comme les pages d'administration, les points de terminaison d'API et le contenu en double, ce qui permet de concentrer le budget d'exploration sur le contenu principal. Pour les sites de grande envergure comportant des milliers de pages ou plus, cette configuration a un impact direct sur la vitesse d'indexation et sur les performances SEO globales.
Depuis 2025, l'apparition de robots d'exploration d'IA tels que GPTBot, CCBot, PerplexityBot et Google-Extended a encore élargi le rôle du robots.txt. Le réglage par défaut le plus sûr pour le contenu marketing public consiste à autoriser l'accès des robots et à ne contrôler que les chemins qui gaspillent le budget d'exploration ou qui exposent des surfaces non publiques. Ne bloquez les robots d'entraînement d'IA que si cela correspond à votre stratégie de licence de contenu et de visibilité auprès des IA.
Directives clés
| Directive | Description | Exemple |
|---|---|---|
User-agent | Précise à quel robot les règles s'appliquent. * désigne tous les robots. | User-agent: Googlebot |
Disallow | Précise les chemins à bloquer pour l'exploration. | Disallow: /admin/ |
Allow | Autorise des sous-chemins spécifiques au sein d'un chemin parent bloqué par Disallow. | Allow: /admin/public/ |
Sitemap | Précise l'URL du sitemap XML. Placée par convention en bas du fichier. | Sitemap: https://example.com/sitemap.xml |
Crawl-delay | Définit le délai d'attente en secondes entre les requêtes du robot. Googlebot ignore cette directive. | Crawl-delay: 10 |
Guide de configuration
Pour un blog public, la configuration de base doit rester simple :
User-agent: *
Allow: /
Sitemap: https://example.com/sitemap.xml
Ajoutez des règles Disallow uniquement pour les zones qui ne doivent pas être explorées, comme la recherche interne, les routes d'administration, les URL de filtres en double ou les points de terminaison d'API. Si vous devez bloquer certains robots d'entraînement d'IA tout en gardant les robots de recherche ouverts, isolez ces user agents :
User-agent: *
Allow: /
Disallow: /admin/
Disallow: /api/
Disallow: /*?*utm_
# Block AI crawlers
User-agent: GPTBot
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: anthropic-ai
Disallow: /
# Sitemap
Sitemap: https://example.com/sitemap.xml
Points importants à prendre en compte :
- Emplacement du fichier : le fichier doit se trouver à la racine du domaine (
https://example.com/robots.txt). Le placer dans un sous-répertoire empêchera les robots de le reconnaître. - Sensibilité à la casse : les chemins d'URL sont sensibles à la casse.
Disallow: /Private/ne bloque pas/private/. - Correspondance des règles : Google utilise la règle correspondante la plus spécifique. Si des règles
AllowetDisallowcorrespondent toutes deux à une URL, le chemin correspondant le plus long l'emporte. - Gestion du statut HTTP : un robots.txt renvoyant un 404 ou un 410 est traité comme s'il n'existait aucune restriction. Une réponse 5xx peut interrompre temporairement l'exploration, car Google ne peut pas déterminer si les règles sont indisponibles ou intentionnellement restrictives.
- Le test est obligatoire : utilisez le rapport robots.txt de la Search Console et l'outil d'inspection d'URL pour vérifier que Googlebot peut récupérer le fichier et que les URL importantes ne sont pas bloquées.
- Intégration du sitemap : bien qu'il soit recommandé de soumettre directement votre sitemap à la Google Search Console et au Bing Webmaster Tools, il est également de bonne pratique de l'indiquer dans le robots.txt.
Erreurs courantes
- Le considérer comme un outil de sécurité : le robots.txt n'est qu'une demande adressée aux robots, il ne bloque pas physiquement l'accès. Les pages sensibles nécessitent des mesures de sécurité distinctes, comme une authentification serveur ou un blocage par IP.
- Confondre Disallow et noindex :
Disallowne bloque que l'exploration, pas l'indexation. Les pages comportant des liens externes peuvent tout de même apparaître dans les résultats de recherche, même sans être explorées. Pour retirer entièrement une page des résultats de recherche, utilisez la balise metanoindex. - Bloquer une page avant que Google ne puisse voir le
noindex: si vous ajoutezDisallowetnoindexensemble, Google risque de ne jamais explorer la page et donc de ne jamais voir la directivenoindex. - Bloquer accidentellement l'ensemble du site : définir
Disallow: /sousUser-agent: *bloque l'accès de tous les robots à l'ensemble du site. Une erreur fréquente consiste à utiliser ce réglage lors d'une refonte de site ou sur un environnement de préproduction, puis à oublier de l'annuler pour la mise en production. - Bloquer les fichiers CSS et JS : Googlebot affiche les pages pour en évaluer le contenu. Bloquer l'exploration des fichiers CSS ou JavaScript entraîne un rendu incomplet et peut faire baisser les scores SEO.
- Exposer des chemins sensibles dans le robots.txt : le robots.txt est un fichier accessible publiquement que n'importe qui peut consulter. Lister un chemin privé comme
/secret-admin-panel/dans Disallow révèle en réalité l'existence de ce chemin au monde extérieur.
Sources :
- Introduction et guide du Robots.txt - Google Search Central
- Spécifications du Robots.txt - Google Search Central
- Rapport Robots.txt - Aide Search Console
- Robots.txt et SEO : tout ce que vous devez savoir - Ahrefs
- Robots.txt expliqué : syntaxe, bonnes pratiques et SEO - Semrush
Articles inblog associés
- Qu'est-ce que le Robots.txt ? Pourquoi le Robots.txt est-il important pour le SEO ?
- Qu'est-ce que llms.txt et pourquoi c'est important pour le SEO
Comment inblog vous aide
inblog autorise les robots d'exploration des moteurs de recherche par défaut et propose la gestion des robots d'IA (GPTBot, etc.) via le tableau de bord.