Что такое защитные ограничения LLM? | Глоссарий GEO

Защитные ограничения (guardrails) - это правила, фильтры и слои валидации, которыми обёрнута LLM, чтобы её входные и выходные данные оставались безопасными, по теме и соответствовали политике. Они располагаются между пользователем и моделью, а также между моделью и нижестоящими системами, перехватывая проблемы, которые сама модель могла бы создать.

Почему это важно

Базовые LLM с радостью ответят на вопросы не по теме, произведут токсичный контент при состязательных промптах, утекут инструкции промпта и вернут некорректные данные. Запуск функции на основе LLM без защитных ограничений означает поставку этих режимов сбоя пользователям. Каждая продакшен-система на основе LLM в больших масштабах - ChatGPT, Claude, Gemini и корпоративные развёртывания - использует многослойные защитные ограничения, а такие фреймворки, как NVIDIA NeMo Guardrails, Guardrails AI и constitutional AI от LangChain, стали стандартной инфраструктурой.

Типы защитных ограничений

Входные ограничения: Валидируют ввод пользователя до того, как он достигнет модели.

Отклоняют попытки инъекции промпта
Блокируют персональные данные (PII)
Фильтруют токсичные вопросы или вопросы не по теме
Ограничивают частоту запросов на пользователя

Выходные ограничения: Валидируют вывод модели до его возврата.

Проверяют сгенерированные факты на соответствие источнику для выявления галлюцинаций
Блокируют запрещённый контент (насилие, самоповреждение, незаконные советы)
Обеспечивают формат (схема JSON, максимальная длина)
Сканируют на предмет утечки системного промпта или внутренних инструкций

Тематические ограничения: Удерживают ассистента в рамках темы.

Бот поддержки клиентов отказывается обсуждать политику
Ассистент по программированию отказывается писать вредоносное ПО
Обычно реализуются как "если не по теме, ответь шаблонным перенаправлением"

Поведенческие ограничения: Правила стиля и тона.

Поддержание голоса бренда
Никогда не давать обещаний, которые продукт не может выполнить
Отвечать на языке пользователя

Как они реализуются

Фильтры на основе правил: Регулярные выражения, списки блокировки и классификаторы - быстрые и детерминированные.

Классификаторы на основе LLM: Небольшая быстрая модель (Claude Haiku, GPT-4o-mini) определяет, нарушает ли заданный ввод/вывод политику. Более высокая полнота, чем у регулярных выражений, но добавляет задержку.

Структурированный вывод + валидация схемы: Делает определённые режимы сбоя невозможными по построению. См. статью о структурированном выводе.

Constitutional AI / самокритика: Модель проверяет и пересматривает собственный вывод в соответствии с письменным набором принципов, прежде чем ответить.

Гибрид: Большинство продакшен-систем сочетают несколько подходов - сначала дешёвые регулярные выражения, затем классификаторы на основе LLM для неоднозначных случаев.

Компромиссы

Задержка: Каждое защитное ограничение добавляет время. Входные + выходные ограничения могут удвоить время обхода.

Ложные срабатывания: Чрезмерно настроенные ограничения отклоняют легитимные запросы, расстраивая пользователей.

Ложные пропуски: Недостаточно настроенные ограничения пропускают реальные нарушения политики.

Стоимость: Защитные ограничения на основе LLM удваивают или утраивают счёт за инференс для защищённых эндпоинтов.

Сопровождение: Защитные ограничения дрейфуют по мере адаптации атакующих. Ожидайте постоянной настройки.

Распространённые ошибки

Опора только на системный промпт: Системные промпты можно обойти через джейлбрейк. Реальные защитные ограничения находятся вне модели.

Защита только вывода: Входные ограничения перехватывают инъекцию промпта до того, как она отравит диалог.

Бинарный отказ: "Я не могу с этим помочь" убивает UX. Хороший отказ перенаправляет к чему-то полезному.

Отсутствие логирования: Нельзя настроить то, что нельзя увидеть. Логируйте каждое срабатывание защитного ограничения для анализа.

Разовая настройка: Модели угроз меняются ежемесячно. Защитным ограничениям нужна периодичность пересмотра.

Источники:

Защитные ограничения (Guardrails)

Почему это важно

Типы защитных ограничений

Как они реализуются

Компромиссы

Распространённые ошибки