Budget de crawl
Le budget de crawl correspond au nombre d'URL d'un site web que les moteurs de recherche comme Google exploreront (découvriront) pendant une période donnée. Comme les moteurs de recherche disposent de ressources limitées réparties sur des milliards de sites web, ils allouent à chaque site une capacité d'exploration limitée.
Le budget de crawl correspond au nombre d'URL d'un site web que les moteurs de recherche comme Google exploreront (découvriront) pendant une période donnée. Comme les moteurs de recherche disposent de ressources limitées réparties sur des milliards de sites web, ils allouent à chaque site une capacité d'exploration limitée.
Pourquoi c'est important
Les moteurs de recherche doivent explorer et indexer une page avant qu'elle puisse apparaître dans les résultats de recherche. Un budget de crawl insuffisant signifie que des pages importantes risquent de ne pas être découvertes, ou qu'un contenu mis à jour ne soit pas répercuté rapidement dans les résultats de recherche.
La plupart des petits sites web n'ont pas à se soucier du budget de crawl : Google gère efficacement l'exploration des sites de taille modeste. Cependant, la gestion du budget de crawl devient cruciale pour :
- Les grands sites : les sites comptant plus de 10 000 pages, où les robots d'exploration peuvent ne pas visiter chaque page. Selon l'analyse par Botify de 6,2 milliards de requêtes Googlebot sur 413 millions de pages, 77 % des pages des grands sites web ne reçoivent aucun trafic de recherche.
- Le contenu en évolution fréquente : les sites d'actualité, les plateformes d'e-commerce ou tout site dont le contenu est régulièrement mis à jour.
- Les sites présentant des problèmes techniques d'exploration : ceux comportant des chaînes de redirection, des liens brisés ou un contenu dupliqué excessif.
Composantes
Le budget de crawl est déterminé par deux facteurs : la demande de crawl et la limite de capacité de crawl.
La demande de crawl reflète l'intérêt de Google à explorer un site, influencée par :
- L'inventaire perçu : Google tente d'explorer toutes les pages connues, sauf si elles sont bloquées via robots.txt ou des codes d'état HTTP.
- La popularité : les sites disposant de backlinks de qualité et d'un trafic plus élevé sont explorés plus fréquemment.
- La fraîcheur du contenu : les sites régulièrement mis à jour (comme les éditeurs d'actualités) sont explorés plus souvent que les pages statiques.
La limite de capacité de crawl est la borne supérieure que Google fixe pour éviter de surcharger un serveur. Des temps de réponse plus rapides permettent une exploration plus poussée, tandis que des erreurs serveur fréquentes réduisent la fréquence d'exploration.
Comment l'optimiser
- Améliorez la vitesse du site : des temps de réponse serveur plus rapides permettent aux robots de traiter davantage de pages dans le même laps de temps.
- Renforcez le maillage interne : orientez les robots vers les pages importantes grâce à un placement stratégique des liens internes.
- Maintenez les sitemaps XML : excluez les URL dupliquées ou sans importance et gardez les sitemaps à jour.
- Utilisez robots.txt efficacement : bloquez les pages inutiles (pages d'administration, pages de filtres) pour éviter de gaspiller le budget de crawl.
- Éliminez les chaînes de redirection : les redirections en plusieurs étapes consomment inutilement le budget de crawl. Faites pointer les redirections directement vers les destinations finales.
- Corrigez les liens internes brisés : les liens renvoyant des erreurs 404 gaspillent les ressources des robots.
- Résolvez le contenu dupliqué : de nombreuses pages identiques ou quasi identiques peuvent épuiser l'intégralité du budget de crawl. Utilisez des balises canoniques pour les regrouper.
Surveillance
Le rapport sur les statistiques d'exploration de Google Search Console indique le nombre total de requêtes d'exploration, les tailles de téléchargement et les temps de réponse sur des périodes de 90 jours. Une baisse soudaine de la fréquence d'exploration ou un pic du taux d'erreurs serveur signale des problèmes de budget de crawl.
Sources: