GEO

Barreras de protección

Las barreras de protección son las reglas, los filtros y las capas de validación que rodean a un LLM para mantener sus entradas y salidas seguras, centradas en el tema y conformes con las políticas. Se sitúan entre el usuario y el modelo, y entre el modelo y los sistemas posteriores, interceptando los problemas que el propio modelo podría producir.

Las barreras de protección son las reglas, los filtros y las capas de validación que rodean a un LLM para mantener sus entradas y salidas seguras, centradas en el tema y conformes con las políticas. Se sitúan entre el usuario y el modelo, y entre el modelo y los sistemas posteriores, interceptando los problemas que el propio modelo podría producir.

Por qué importa

Los LLM de base responderán sin reparos a preguntas fuera de tema, producirán contenido tóxico ante prompts adversarios, filtrarán las instrucciones del prompt y devolverán datos mal formados. Lanzar una funcionalidad de LLM sin barreras de protección significa entregar esos modos de fallo a los usuarios. Todos los sistemas de LLM en producción a gran escala (ChatGPT, Claude, Gemini y los despliegues empresariales) ejecutan barreras de protección en capas, y marcos como NVIDIA NeMo Guardrails, Guardrails AI y la IA constitucional de LangChain se han convertido en infraestructura estándar.

Tipos de barreras de protección

Barreras de entrada: Validan la entrada del usuario antes de que llegue al modelo.

  • Rechazan intentos de inyección de prompts
  • Bloquean la información de identificación personal (PII)
  • Filtran preguntas tóxicas o fuera de tema
  • Limitan la frecuencia por usuario

Barreras de salida: Validan la salida del modelo antes de devolverla.

  • Comprueban los hechos alucinados frente a una fuente
  • Bloquean contenido no permitido (violencia, autolesiones, asesoramiento ilegal)
  • Imponen el formato (esquema JSON, longitud máxima)
  • Detectan filtraciones del prompt del sistema o de instrucciones internas

Barreras temáticas: Mantienen al asistente dentro de su ámbito.

  • Un bot de atención al cliente se niega a hablar de política
  • Un asistente de programación se niega a escribir malware
  • Suelen implementarse como "si está fuera de tema, responde con una redirección predefinida"

Barreras de comportamiento: Reglas de estilo y tono.

  • Mantener la voz de marca
  • No hacer nunca promesas que el producto no pueda cumplir
  • Responder en el idioma del usuario

Cómo se implementan

Filtros basados en reglas: Expresiones regulares, listas de bloqueo y clasificadores: rápidos y deterministas.

Clasificadores basados en LLM: Un modelo pequeño y rápido (Claude Haiku, GPT-4o-mini) juzga si una entrada o salida dada infringe la política. Mayor exhaustividad que las expresiones regulares, pero añade latencia.

Salida estructurada + validación de esquema: Hace que ciertos modos de fallo sean imposibles por diseño. Consulta la entrada sobre salida estructurada.

IA constitucional / autocrítica: El modelo revisa y corrige su propia salida frente a un conjunto escrito de principios antes de responder.

Híbrido: La mayoría de los sistemas en producción combinan varios enfoques: primero expresiones regulares económicas y, después, clasificadores de LLM para los casos ambiguos.

Compromisos

Latencia: Cada barrera de protección añade tiempo. Las barreras de entrada y salida pueden duplicar el tiempo de ida y vuelta.

Falsos positivos: Las barreras de protección con un ajuste excesivo rechazan solicitudes legítimas y frustran a los usuarios.

Falsos negativos: Las barreras de protección con un ajuste insuficiente pasan por alto infracciones reales de la política.

Costo: Las barreras de protección basadas en LLM duplican o triplican la factura de inferencia de los endpoints protegidos.

Mantenimiento: Las barreras de protección se desfasan a medida que los atacantes se adaptan. Cuenta con un ajuste continuo.

Errores comunes

Confiar solo en el prompt del sistema: Los prompts del sistema pueden saltarse con un jailbreak. Las barreras de protección reales se sitúan fuera del modelo.

Proteger solo la salida: Las barreras de entrada interceptan la inyección de prompts antes de que contamine la conversación.

Negación binaria: "No puedo ayudarte con eso" arruina la experiencia de usuario. Una buena negación redirige hacia algo útil.

No registrar: No puedes ajustar lo que no puedes ver. Registra cada activación de una barrera de protección para su revisión.

Ajuste único: Los modelos de amenazas cambian cada mes. Las barreras de protección necesitan una cadencia de revisión.

Sources: