Que sont les Content Signals ? | Glossaire GEO

Les Content Signals constituent un standard de politique qui étend le fichier robots.txt afin qu'un site web puisse déclarer, dans un format lisible par les machines, l'usage qu'il privilégie pour son contenu après l'exploration : pour la recherche, pour les réponses IA en temps réel (ai-input) ou pour l'entraînement de l'IA (ai-train). Cloudflare l'a annoncé le 24 septembre 2025.

Pourquoi c'est important

Le robots.txt classique exprime uniquement qui peut accéder à quels chemins — il ne dit rien de ce qu'il advient du contenu une fois récupéré. Le problème, c'est qu'un même robot d'exploration sert souvent plusieurs finalités. Google, par exemple, utilise le même robot pour l'indexation de recherche et les fonctionnalités d'IA ; bloquer purement et simplement un robot d'IA ne laissait donc aucun moyen de rester visible dans la recherche tout en refusant l'entraînement de l'IA. Les Content Signals comblent cette lacune en permettant aux sites de déclarer leurs préférences par finalité d'usage plutôt que par robot. Ils sont devenus l'un des piliers du débat plus large sur la façon dont les propriétaires de contenu reprennent le contrôle à l'ère de l'IA.

Les trois signaux et la syntaxe

search : construire un index de recherche et afficher des résultats de recherche. N'inclut pas les résumés générés par l'IA.
ai-input : alimenter des modèles d'IA pour générer des réponses en temps réel (grounding, RAG et usages similaires).
ai-train : entraîner ou affiner des modèles d'IA.

Les préférences s'écrivent à l'intérieur du robots.txt sous forme de valeurs yes/no séparées par des virgules :

Content-Signal: search=yes, ai-input=yes, ai-train=no
User-Agent: *
Allow: /

Omettre un signal signifie qu'aucune préférence n'est exprimée pour cet usage. Cloudflare a appliqué search=yes, ai-train=no comme valeur par défaut aux plus de 3,8 millions de domaines utilisant son robots.txt géré, laissant délibérément ai-input non défini afin que chaque propriétaire de site décide lui-même.

Limites et angle GEO

Les Content Signals sont une déclaration de préférence, et non une mesure technique de protection — les robots qui les ignorent ne sont pas bloqués. Néanmoins, une déclaration explicite et lisible par les machines peut peser dans de futurs litiges sur l'utilisation du contenu, et Cloudflare l'a conçue pour être associée à des outils de mise en application comme le blocage des robots et le Pay Per Crawl. Pour le GEO, la tension essentielle tient au fait qu'ai-input est à double tranchant : si votre objectif est d'être cité dans les réponses de l'IA, fixer ai-input à « no » supprime toute chance d'être cité via le crawling IA. C'est pourquoi les sites qui recherchent la visibilité de leur marque conservent généralement search=yes, ai-input=yes et ne refusent sélectivement que ai-train.

Sources :

Comment inblog vous aide

La plupart des blogs publiés avec inblog existent pour être visibles à la fois dans la recherche et dans les réponses IA ; si vous adoptez les Content Signals, garder search et ai-input ouverts est donc la configuration naturelle. Les analyses intégrées d'inblog affichent le trafic de référence provenant des canaux IA, ce qui vous permet de vérifier par les données que l'autorisation d'ai-input se traduit réellement par des visites, tandis que l'intégration Google Search Console maintient la visibilité de recherche dans la même vue.