GEO

Guardrails

Les guardrails sont les règles, filtres et couches de validation qui entourent un LLM pour maintenir ses entrées et ses sorties sûres, pertinentes et conformes à la politique. Ils se placent entre l'utilisateur et le modèle, et entre le modèle et les systèmes en aval, interceptant les problèmes que le modèle lui-même pourrait produire.

Les guardrails sont les règles, filtres et couches de validation qui entourent un LLM pour maintenir ses entrées et ses sorties sûres, pertinentes et conformes à la politique. Ils se placent entre l'utilisateur et le modèle, et entre le modèle et les systèmes en aval, interceptant les problèmes que le modèle lui-même pourrait produire.

Pourquoi c'est important

Les LLM de base répondront volontiers à des questions hors sujet, produiront du contenu toxique sous des prompts adverses, divulgueront des instructions de prompt et renverront des données mal formées. Livrer une fonctionnalité LLM sans guardrails revient à livrer ces modes de défaillance aux utilisateurs. Tous les systèmes LLM en production à grande échelle, ChatGPT, Claude, Gemini et les déploiements en entreprise, exécutent des guardrails en couches, et des frameworks comme NVIDIA NeMo Guardrails, Guardrails AI et la constitutional AI de LangChain sont devenus une infrastructure standard.

Types de guardrails

Guardrails d'entrée : valident l'entrée de l'utilisateur avant qu'elle n'atteigne le modèle.

  • Rejeter les tentatives d'injection de prompt
  • Bloquer les informations personnelles identifiables (PII)
  • Filtrer les questions toxiques ou hors sujet
  • Limiter le débit par utilisateur

Guardrails de sortie : valident la sortie du modèle avant de la renvoyer.

  • Vérifier les faits hallucinés par rapport à une source
  • Bloquer le contenu interdit (violence, automutilation, conseils illégaux)
  • Imposer un format (schéma JSON, longueur maximale)
  • Détecter toute fuite du system prompt ou d'instructions internes

Guardrails thématiques : maintiennent l'assistant dans son périmètre.

  • Un bot de support client refuse de parler politique
  • Un assistant de codage refuse d'écrire des logiciels malveillants
  • Généralement implémentés sous la forme « si hors sujet, répondre par une redirection préétablie »

Guardrails comportementaux : règles de style et de ton.

  • Maintenir la voix de marque
  • Ne jamais faire de promesses que le produit ne peut tenir
  • Répondre dans la langue de l'utilisateur

Comment ils sont implémentés

Filtres basés sur des règles : regex, listes de blocage et classificateurs, rapides et déterministes.

Classificateurs basés sur un LLM : un petit modèle rapide (Claude Haiku, GPT-4o-mini) juge si une entrée/sortie donnée enfreint la politique. Meilleur rappel que les regex, mais ajoute de la latence.

Sortie structurée + validation de schéma : rend certains modes de défaillance impossibles par conception. Voir l'entrée structured-output.

Constitutional AI / autocritique : le modèle examine et révise sa propre sortie par rapport à un ensemble écrit de principes avant de répondre.

Hybride : la plupart des systèmes en production superposent plusieurs approches, des regex peu coûteuses d'abord, puis des classificateurs LLM pour les cas ambigus.

Compromis

Latence : chaque guardrail ajoute du temps. Les guardrails d'entrée + de sortie peuvent doubler le temps d'aller-retour.

Faux positifs : des guardrails trop stricts refusent des requêtes légitimes, frustrant les utilisateurs.

Faux négatifs : des guardrails trop laxistes laissent passer de réelles violations de politique.

Coût : les guardrails basés sur un LLM doublent ou triplent la facture d'inférence pour les points de terminaison protégés.

Maintenance : les guardrails dérivent à mesure que les attaquants s'adaptent. Attendez-vous à un ajustement continu.

Erreurs courantes

Se reposer uniquement sur le system prompt : les system prompts peuvent être contournés par jailbreak. De vrais guardrails se situent en dehors du modèle.

Ne protéger que la sortie : les guardrails d'entrée interceptent l'injection de prompt avant qu'elle n'empoisonne la conversation.

Refus binaire : « Je ne peux pas vous aider avec ça » détruit l'expérience utilisateur. Un bon refus redirige vers quelque chose d'utile.

Ne pas journaliser : on ne peut pas ajuster ce qu'on ne voit pas. Journalisez chaque déclenchement de guardrail pour examen.

Ajustement ponctuel : les modèles de menace changent chaque mois. Les guardrails ont besoin d'une cadence de révision.

Sources: