O que sao Guardrails de LLM? | Glossario GEO

Guardrails sao as regras, os filtros e as camadas de validacao que envolvem um LLM para manter suas entradas e saidas seguras, no tema e em conformidade com as politicas. Eles ficam entre o usuario e o modelo, e entre o modelo e os sistemas a jusante, capturando problemas que o proprio modelo poderia produzir.

Por que isso importa

LLMs base respondem alegremente a perguntas fora do tema, produzem conteudo toxico sob prompts adversariais, vazam instrucoes de prompt e retornam dados malformados. Lancar um recurso de LLM sem guardrails significa entregar esses modos de falha aos usuarios. Todo sistema de LLM em producao e em larga escala (ChatGPT, Claude, Gemini e implantacoes empresariais) executa guardrails em camadas, e frameworks como NVIDIA NeMo Guardrails, Guardrails AI e a IA constitucional do LangChain se tornaram infraestrutura padrao.

Tipos de Guardrails

Guardrails de entrada: Validam a entrada do usuario antes que ela chegue ao modelo.

Rejeitam tentativas de injecao de prompt
Bloqueiam informacoes de identificacao pessoal (PII)
Filtram perguntas toxicas ou fora do tema
Limitam a taxa por usuario

Guardrails de saida: Validam a saida do modelo antes de retorna-la.

Verificam fatos alucinados em relacao a uma fonte
Bloqueiam conteudo nao permitido (violencia, automutilacao, orientacao ilegal)
Garantem o formato (schema JSON, comprimento maximo)
Varrem em busca de system prompt vazado ou instrucoes internas

Guardrails tematicos: Mantem o assistente dentro do escopo.

Um bot de suporte ao cliente se recusa a falar sobre politica
Um assistente de programacao se recusa a escrever malware
Geralmente implementados como "se estiver fora do tema, responder com um redirecionamento pronto"

Guardrails comportamentais: Regras de estilo e tom.

Manter a voz de marca
Nunca fazer promessas que o produto nao pode cumprir
Responder no idioma do usuario

Como sao implementados

Filtros baseados em regras: Regex, listas de bloqueio e classificadores, rapidos e deterministicos.

Classificadores baseados em LLM: Um modelo pequeno e rapido (Claude Haiku, GPT-4o-mini) avalia se uma determinada entrada/saida viola a politica. Maior recall que o regex, mas adiciona latencia.

Saida estruturada + validacao de schema: Torna certos modos de falha impossiveis por construcao. Veja o verbete de saida estruturada.

IA constitucional / autocritica: O modelo revisa e ajusta sua propria saida em relacao a um conjunto escrito de principios antes de responder.

Hibrido: A maioria dos sistemas em producao combina varias abordagens em camadas: regex barato primeiro e, depois, classificadores de LLM para casos ambiguos.

Compensacoes

Latencia: Cada guardrail adiciona tempo. Guardrails de entrada + saida podem dobrar o tempo de ida e volta.

Falsos positivos: Guardrails ajustados em excesso recusam solicitacoes legitimas, frustrando os usuarios.

Falsos negativos: Guardrails pouco ajustados deixam passar violacoes reais de politica.

Custo: Guardrails baseados em LLM dobram ou triplicam a conta de inferencia dos endpoints protegidos.

Manutencao: Os guardrails ficam defasados a medida que os atacantes se adaptam. Espere ajustes continuos.

Erros comuns

Confiar apenas no system prompt: System prompts podem sofrer jailbreak. Guardrails de verdade ficam fora do modelo.

Proteger apenas a saida: Guardrails de entrada capturam a injecao de prompt antes que ela contamine a conversa.

Recusa binaria: "Nao posso ajudar com isso" arruina a experiencia do usuario. Uma boa recusa redireciona para algo util.

Nao registrar logs: Voce nao consegue ajustar o que nao consegue ver. Registre cada acionamento de guardrail para revisao.

Ajuste unico: Os modelos de ameaca mudam todo mes. Os guardrails precisam de uma cadencia de revisao.

Fontes: