Guardrails
Guardrails sao as regras, os filtros e as camadas de validacao que envolvem um LLM para manter suas entradas e saidas seguras, no tema e em conformidade com as politicas. Eles ficam entre o usuario e o modelo, e entre o modelo e os sistemas a jusante, capturando problemas que o proprio modelo poderia produzir.
Guardrails sao as regras, os filtros e as camadas de validacao que envolvem um LLM para manter suas entradas e saidas seguras, no tema e em conformidade com as politicas. Eles ficam entre o usuario e o modelo, e entre o modelo e os sistemas a jusante, capturando problemas que o proprio modelo poderia produzir.
Por que isso importa
LLMs base respondem alegremente a perguntas fora do tema, produzem conteudo toxico sob prompts adversariais, vazam instrucoes de prompt e retornam dados malformados. Lancar um recurso de LLM sem guardrails significa entregar esses modos de falha aos usuarios. Todo sistema de LLM em producao e em larga escala (ChatGPT, Claude, Gemini e implantacoes empresariais) executa guardrails em camadas, e frameworks como NVIDIA NeMo Guardrails, Guardrails AI e a IA constitucional do LangChain se tornaram infraestrutura padrao.
Tipos de Guardrails
Guardrails de entrada: Validam a entrada do usuario antes que ela chegue ao modelo.
- Rejeitam tentativas de injecao de prompt
- Bloqueiam informacoes de identificacao pessoal (PII)
- Filtram perguntas toxicas ou fora do tema
- Limitam a taxa por usuario
Guardrails de saida: Validam a saida do modelo antes de retorna-la.
- Verificam fatos alucinados em relacao a uma fonte
- Bloqueiam conteudo nao permitido (violencia, automutilacao, orientacao ilegal)
- Garantem o formato (schema JSON, comprimento maximo)
- Varrem em busca de system prompt vazado ou instrucoes internas
Guardrails tematicos: Mantem o assistente dentro do escopo.
- Um bot de suporte ao cliente se recusa a falar sobre politica
- Um assistente de programacao se recusa a escrever malware
- Geralmente implementados como "se estiver fora do tema, responder com um redirecionamento pronto"
Guardrails comportamentais: Regras de estilo e tom.
- Manter a voz de marca
- Nunca fazer promessas que o produto nao pode cumprir
- Responder no idioma do usuario
Como sao implementados
Filtros baseados em regras: Regex, listas de bloqueio e classificadores, rapidos e deterministicos.
Classificadores baseados em LLM: Um modelo pequeno e rapido (Claude Haiku, GPT-4o-mini) avalia se uma determinada entrada/saida viola a politica. Maior recall que o regex, mas adiciona latencia.
Saida estruturada + validacao de schema: Torna certos modos de falha impossiveis por construcao. Veja o verbete de saida estruturada.
IA constitucional / autocritica: O modelo revisa e ajusta sua propria saida em relacao a um conjunto escrito de principios antes de responder.
Hibrido: A maioria dos sistemas em producao combina varias abordagens em camadas: regex barato primeiro e, depois, classificadores de LLM para casos ambiguos.
Compensacoes
Latencia: Cada guardrail adiciona tempo. Guardrails de entrada + saida podem dobrar o tempo de ida e volta.
Falsos positivos: Guardrails ajustados em excesso recusam solicitacoes legitimas, frustrando os usuarios.
Falsos negativos: Guardrails pouco ajustados deixam passar violacoes reais de politica.
Custo: Guardrails baseados em LLM dobram ou triplicam a conta de inferencia dos endpoints protegidos.
Manutencao: Os guardrails ficam defasados a medida que os atacantes se adaptam. Espere ajustes continuos.
Erros comuns
Confiar apenas no system prompt: System prompts podem sofrer jailbreak. Guardrails de verdade ficam fora do modelo.
Proteger apenas a saida: Guardrails de entrada capturam a injecao de prompt antes que ela contamine a conversa.
Recusa binaria: "Nao posso ajudar com isso" arruina a experiencia do usuario. Uma boa recusa redireciona para algo util.
Nao registrar logs: Voce nao consegue ajustar o que nao consegue ver. Registre cada acionamento de guardrail para revisao.
Ajuste unico: Os modelos de ameaca mudam todo mes. Os guardrails precisam de uma cadencia de revisao.
Fontes: