Noindex
Noindex est une directive meta robots qui demande aux moteurs de recherche de ne pas inclure une page spécifique dans les résultats de recherche. Elle peut être définie via une balise HTML <meta> ou un en-tête de réponse HTTP (X-Robots-Tag), empêchant la page d'apparaître sur les pages de résultats des moteurs de recherche (SERP) comme Google et Bing.
Noindex est une directive meta robots qui demande aux moteurs de recherche de ne pas inclure une page spécifique dans les résultats de recherche. Elle peut être définie via une balise HTML <meta> ou un en-tête de réponse HTTP (X-Robots-Tag), empêchant la page d'apparaître sur les pages de résultats des moteurs de recherche (SERP) comme Google et Bing.
Pourquoi c'est important
Les moteurs de recherche tentent de crawler et d'indexer chaque page d'un site web. Cependant, toutes les pages ne méritent pas d'apparaître dans les résultats de recherche. Si des pages comme les pages de connexion, les pages de résultats de recherche internes, les pages de remerciement ou les pages d'environnement de préproduction sont indexées, le budget de crawl est gaspillé, des problèmes de contenu dupliqué apparaissent et l'évaluation globale de la qualité de recherche du site peut se dégrader. Bien utiliser le noindex vous permet d'orienter les moteurs de recherche pour qu'ils concentrent leurs ressources de crawl sur les pages qui apportent réellement de la valeur.
Comment le configurer
- Méthode de la balise méta HTML
Ajoutez la balise suivante à la section <head> de la page :
<meta name="robots" content="noindex">
Vous pouvez aussi cibler des moteurs de recherche spécifiques. Par exemple, pour appliquer le noindex uniquement à Google, remplacez l'attribut name par googlebot :
<meta name="googlebot" content="noindex">
Pour bloquer également le crawl des liens, utilisez nofollow conjointement :
<meta name="robots" content="noindex, nofollow">
- Méthode de l'en-tête HTTP (X-Robots-Tag)
Pour les ressources non HTML (PDF, images, etc.) où les balises méta ne peuvent pas être insérées, définissez la directive dans l'en-tête de réponse du serveur :
X-Robots-Tag: noindex
Dans des frameworks comme Next.js, vous pouvez définir les en-têtes de réponse directement dans les routes d'API ou getServerSideProps.
Quand l'utiliser
L'application du noindex est recommandée pour les types de pages suivants :
- Pages de résultats de recherche interne : les pages dynamiques générées par la fonctionnalité de recherche du site peuvent être perçues comme du contenu dupliqué par les moteurs de recherche.
- Pages de connexion, d'inscription et de profil : les pages contenant des informations personnelles qui n'ont pas besoin d'être exposées dans les résultats de recherche.
- Pages de remerciement : les pages de confirmation affichées après l'envoi d'un formulaire n'ont aucune valeur en trafic de recherche.
- Environnements de préproduction et de test : empêche les sites de développement d'être indexés par accident. Veillez toutefois à retirer le noindex lors du déploiement en production.
- Pages avec du contenu dupliqué : cependant, si la relation entre une page canonique et un doublon est claire, une balise
canonicalpeut être une solution plus appropriée. - Pages réservées aux administrateurs : les tableaux de bord, les panneaux d'administration et autres pages similaires n'ont pas besoin d'exposition en recherche.
Différences entre Noindex et Disallow
Le noindex et la directive Disallow du robots.txt sont fréquemment confondus, mais leur comportement est fondamentalement différent.
| Attribut | noindex (balise méta) | Disallow (robots.txt) |
|---|---|---|
| Fonction | Exclut la page des résultats de recherche | Bloque entièrement l'accès du robot à la page |
| Indexation | Autorise le crawl mais bloque l'indexation | Bloque le crawl, mais la page peut tout de même être indexée via des liens externes |
| Link equity | La valeur de lien (link equity) de la page peut tout de même être transmise | Les robots ne peuvent pas lire la page, la valeur de lien ne peut donc pas être transférée |
| Portée | Contrôle précis au niveau de chaque page | Contrôle par lot au niveau d'un répertoire ou d'un motif d'URL |
La mise en garde la plus importante est que vous ne devez pas utiliser les deux simultanément. Si le crawl est bloqué via le robots.txt, le moteur de recherche ne peut pas lire la balise noindex de la page, ce qui fait que la directive noindex est ignorée, et la page peut rester dans les résultats de recherche. Pour exclure de manière fiable une page des résultats de recherche, autorisez le crawl tout en utilisant la balise méta noindex.
Sources :
- Bloquer l'indexation avec noindex - Google Search Central
- À quoi sert le noindex ? Aperçu et bonnes pratiques - Semrush
- Qu'est-ce qu'une balise noindex ? - Ahrefs
Articles inblog associés
Comment inblog vous aide
inblog vous permet de définir le noindex sur des articles ou des pages de tags individuels pour éviter que des pages indésirables ne soient indexées.