Что такое наблюдаемость LLM? | Глоссарий GEO

Наблюдаемость LLM (LLM observability) - это практика инструментирования продакшн-приложений на LLM, чтобы команды могли видеть, что делает модель, отлаживать сбои, измерять стоимость и задержку, выявлять дрейф качества и оценивать вывод во времени. Это аналог традиционной наблюдаемости приложений эпохи LLM - логи, трассировки и метрики, адаптированные к вероятностным системам, где один и тот же ввод может давать разный вывод.

Почему это важно

Традиционное веб-приложение либо работает, либо выдает ошибку. LLM-приложение может "работать" (возвращать хорошо отформатированный ответ), при том что ответ неверен, не по теме, галлюцинирован, предвзят или просто хуже вчерашнего. Без наблюдаемости такие сбои остаются невидимыми, пока пользователи не пожалуются, а к этому моменту доверие уже подорвано. В 2024-2025 годах наблюдаемость LLM стала отдельной категорией: инструменты вроде Langfuse, LangSmith, Helicone, Arize Phoenix, Weights & Biases Weave и Braintrust заняли каждый свою нишу. Для любой команды, запускающей LLM в продакшене, наблюдаемость теперь обязательное условие, а не приятное дополнение.

Что инструментировать

Трассировки: Полный путь выполнения - каждый промпт, вызов извлечения, вызов инструмента и ответ в рамках одного запроса. Позволяет воспроизвести, что агент на самом деле сделал.

Пары ввод/вывод: Точный отправленный промпт и точное полученное завершение, версионированные по шаблону промпта.

Стоимость на запрос: Количество токенов × цена для ввода и вывода, по каждой модели. Агрегированная по функции, пользователю или арендатору.

Задержка: Время до первого токена, общее время завершения и время, проведенное в каждом подшаге.

Ошибки и повторы: Ошибки ограничения частоты, тайм-ауты, сбои вызовов инструментов, ошибки парсинга.

Сигналы качества: Оценки пользователя "палец вверх/вниз", неявные сигналы (скопированный вывод, запущенный код, отправленное сообщение) и оценки LLM-как-судьи по недавнему выводу.

Дрейф: Изменения во времени в распределении вывода, качестве ответов или частоте вызовов инструментов - часто первый сигнал того, что обновление модели или изменение промпта что-то сломало.

Чем это отличается от традиционной наблюдаемости

Вывод недетерминирован: Один ввод, разный вывод. Метрики должны учитывать разброс как полноценную концепцию.

Затраты считаются по токенам, а не по запросам: Традиционный APM не знает, что такое токены. Наблюдаемость LLM обязана знать.

Качество субъективно: Нельзя утверждать "вывод верен" простым тестом. Оценка требует проверки человеком, судей-LLM или сравнения с эталоном.

Промпты - это код: Изменение промпта - это деплой. Без версионирования промптов нельзя понять, какая версия породила вчерашний баг.

Многошаговые цепочки важны: Большинство LLM-приложений - это конвейеры. Нужны вложенные трассировки, отражающие граф вызовов, а не плоские логи.

Ландшафт инструментария (2026)

Langfuse (open source): Наблюдаемость с упором на трассировки, с оценкой, управлением промптами и обратной связью пользователей. Популярна у команд с самостоятельным хостингом.

LangSmith (LangChain): Тесно интегрирован с LangChain. Силен для команд, уже работающих на этом стеке.

Helicone: Легковесная наблюдаемость на основе прокси. Интеграция в одну строку, легко внедрить.

Arize Phoenix / Arize AX: Происходит из мира наблюдаемости ML; силен в дрейфе, эмбеддингах и науке об оценке.

Braintrust: Платформа с упором на оценку, полезна командам, которые хотят рассматривать разработку LLM как рабочий процесс экспериментирования.

Weave (Weights & Biases): Расширяет отслеживание ML-экспериментов WandB на территорию LLM.

Мониторинг LLM от Datadog / New Relic: Классические вендоры APM, добавляющие дашборды, специфичные для LLM.

Семантические соглашения OpenTelemetry GenAI: Кросс-вендорный стандарт для трассировки LLM, набирающий распространение в 2025-2026 годах.

За чем следить

Стоимость на пользовательскую сессию: Резкие всплески чаще означают баг (цикл повторов, вышедший из-под контроля агент), чем рост.

Задержка p95/p99: Длинные хвосты убивают UX. Худший случай важнее среднего.

Дрейф оценки: Еженедельная оценка LLM-как-судьи на репрезентативных промптах ловит тихие регрессии после изменений промпта или модели.

Основные режимы сбоев: Категоризируйте ошибки - отказ, галлюцинация, не по теме, плохой формат - чтобы знать, куда вкладываться.

Производительность версий промпта: Сравнивайте оценки между версиями промпта, чтобы знать, помогло или навредило последнее изменение.

Распределение токенов: Длинные ответы повышают стоимость. Неожиданно длинные хвосты часто указывают на дрейф промпта или сломанные стоп-токены.

Частые ошибки

Логировать только ошибки: LLM дают сбой тихо. Логируйте и успехи, с достаточным количеством метаданных для оценки качества.

Отсутствие стратегии сэмплирования: Логировать 100% запросов в масштабе дорого. Сэмплируйте умно - по сегменту пользователей, ценовому уровню или недавнему изменению.

Не связывать трассировки с обратной связью пользователя: "Палец вниз" должен вести обратно к точной трассировке, породившей вывод.

Разрозненность по командам: Продукт, ML и инфраструктура строят каждый свои дашборды. Единая наблюдаемость - вот выигрыш.

Игнорирование регрессионного тестирования: "Выглядит нормально" недостаточно. Создайте регрессионный оценочный набор и прогоняйте его перед каждым изменением промпта.

Погоня за привязкой к вендору: Соглашения OpenTelemetry GenAI позволяют инструментировать один раз и менять вендоров наблюдаемости позже.

Источники: