Barreras de protección
Las barreras de protección son las reglas, los filtros y las capas de validación que rodean a un LLM para mantener sus entradas y salidas seguras, centradas en el tema y conformes con las políticas. Se sitúan entre el usuario y el modelo, y entre el modelo y los sistemas posteriores, interceptando los problemas que el propio modelo podría producir.
Las barreras de protección son las reglas, los filtros y las capas de validación que rodean a un LLM para mantener sus entradas y salidas seguras, centradas en el tema y conformes con las políticas. Se sitúan entre el usuario y el modelo, y entre el modelo y los sistemas posteriores, interceptando los problemas que el propio modelo podría producir.
Por qué importa
Los LLM de base responderán sin reparos a preguntas fuera de tema, producirán contenido tóxico ante prompts adversarios, filtrarán las instrucciones del prompt y devolverán datos mal formados. Lanzar una funcionalidad de LLM sin barreras de protección significa entregar esos modos de fallo a los usuarios. Todos los sistemas de LLM en producción a gran escala (ChatGPT, Claude, Gemini y los despliegues empresariales) ejecutan barreras de protección en capas, y marcos como NVIDIA NeMo Guardrails, Guardrails AI y la IA constitucional de LangChain se han convertido en infraestructura estándar.
Tipos de barreras de protección
Barreras de entrada: Validan la entrada del usuario antes de que llegue al modelo.
- Rechazan intentos de inyección de prompts
- Bloquean la información de identificación personal (PII)
- Filtran preguntas tóxicas o fuera de tema
- Limitan la frecuencia por usuario
Barreras de salida: Validan la salida del modelo antes de devolverla.
- Comprueban los hechos alucinados frente a una fuente
- Bloquean contenido no permitido (violencia, autolesiones, asesoramiento ilegal)
- Imponen el formato (esquema JSON, longitud máxima)
- Detectan filtraciones del prompt del sistema o de instrucciones internas
Barreras temáticas: Mantienen al asistente dentro de su ámbito.
- Un bot de atención al cliente se niega a hablar de política
- Un asistente de programación se niega a escribir malware
- Suelen implementarse como "si está fuera de tema, responde con una redirección predefinida"
Barreras de comportamiento: Reglas de estilo y tono.
- Mantener la voz de marca
- No hacer nunca promesas que el producto no pueda cumplir
- Responder en el idioma del usuario
Cómo se implementan
Filtros basados en reglas: Expresiones regulares, listas de bloqueo y clasificadores: rápidos y deterministas.
Clasificadores basados en LLM: Un modelo pequeño y rápido (Claude Haiku, GPT-4o-mini) juzga si una entrada o salida dada infringe la política. Mayor exhaustividad que las expresiones regulares, pero añade latencia.
Salida estructurada + validación de esquema: Hace que ciertos modos de fallo sean imposibles por diseño. Consulta la entrada sobre salida estructurada.
IA constitucional / autocrítica: El modelo revisa y corrige su propia salida frente a un conjunto escrito de principios antes de responder.
Híbrido: La mayoría de los sistemas en producción combinan varios enfoques: primero expresiones regulares económicas y, después, clasificadores de LLM para los casos ambiguos.
Compromisos
Latencia: Cada barrera de protección añade tiempo. Las barreras de entrada y salida pueden duplicar el tiempo de ida y vuelta.
Falsos positivos: Las barreras de protección con un ajuste excesivo rechazan solicitudes legítimas y frustran a los usuarios.
Falsos negativos: Las barreras de protección con un ajuste insuficiente pasan por alto infracciones reales de la política.
Costo: Las barreras de protección basadas en LLM duplican o triplican la factura de inferencia de los endpoints protegidos.
Mantenimiento: Las barreras de protección se desfasan a medida que los atacantes se adaptan. Cuenta con un ajuste continuo.
Errores comunes
Confiar solo en el prompt del sistema: Los prompts del sistema pueden saltarse con un jailbreak. Las barreras de protección reales se sitúan fuera del modelo.
Proteger solo la salida: Las barreras de entrada interceptan la inyección de prompts antes de que contamine la conversación.
Negación binaria: "No puedo ayudarte con eso" arruina la experiencia de usuario. Una buena negación redirige hacia algo útil.
No registrar: No puedes ajustar lo que no puedes ver. Registra cada activación de una barrera de protección para su revisión.
Ajuste único: Los modelos de amenazas cambian cada mes. Las barreras de protección necesitan una cadencia de revisión.
Sources: