LLM-как-судья
LLM-как-судья (LLM-as-a-Judge) - это техника оценки, при которой одна языковая модель оценивает или сравнивает вывод другой модели (или собственный более ранний вывод) по заданным критериям. Она заменяет дорогостоящую оценку человеком в задачах вроде открытых вопросов и ответов, суммаризации и ответов чат-ботов.
LLM-как-судья (LLM-as-a-Judge) - это техника оценки, при которой одна языковая модель оценивает или сравнивает вывод другой модели (или собственный более ранний вывод) по заданным критериям. Она заменяет дорогостоящую оценку человеком в задачах вроде открытых вопросов и ответов, суммаризации и ответов чат-ботов.
Почему это важно
Оценка генеративного вывода - самая трудная часть выпуска LLM-функций. Проверка человеком не масштабируется - оценивать 10 000 ответов в неделю непозволительно дорого, а согласие между оценщиками часто низкое. Статья 2023 года "Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena" показала, что GPT-4 в роли судьи совпадает с мнением экспертов-людей примерно на 85% - приблизительно с той же частотой, с какой люди соглашаются друг с другом. Этого достаточно, чтобы заменить людей в большинстве циклов оценки, открывая возможность непрерывного тестирования за малую долю стоимости.
Как это работает
1. Определите критерии: Критерии вроде точности, полноты, тона, безопасности. Каждый со шкалой (1-5) или бинарным "прошел/не прошел".
2. Дайте промпт судье: Передайте модели-судье входные данные, оцениваемый вывод и критерии. Попросите ее выставить оценку и объяснить ее.
3. Попарно или поточечно:
- Поточечно (pointwise): Оценить один вывод по критериям. Проще, но более подвержено дрейфу шкалы.
- Попарно (pairwise): Сравнить два вывода и выбрать победителя. Надежнее, потому что относительное суждение стабильнее абсолютной оценки.
4. Агрегируйте: Усредните оценки по множеству примеров, отслеживайте их во времени по мере итераций.
Где это хорошо работает
A/B-тестирование промптов: "Дает ли v2 ответы лучше, чем v1?" - это попарный вопрос, с которым судьи-LLM хорошо справляются.
Мониторинг качества RAG: Проверка того, что извлеченный контекст действительно используется и фактологически подкреплен.
Регрессионное тестирование: Прогон судьи по фиксированному оценочному набору после каждого изменения промпта.
Red-teaming: Судья-LLM сканирует на нарушения правил в масштабе.
Известные смещения
Смещение по позиции: В попарных сравнениях судьи склонны отдавать предпочтение первому ответу. Смягчается перестановкой позиций и усреднением.
Смещение по многословности: Более длинные ответы оцениваются выше, даже когда они не лучше. Контролируйте длину в критериях.
Самопредпочтение: Модели слегка предпочитают собственный вывод. По возможности используйте в качестве судьи другую модель.
Неоткалиброванность шкалы: Судьи сжимают оценки к середине. Попарная оценка этого избегает.
Чувствительность к промпту: Небольшие изменения формулировок в критериях переворачивают результаты. Зафиксируйте промпт судьи, как только он проверен.
Лучшие практики
По возможности используйте более сильную модель, чем оцениваемая.
Проверяйте на размеченных человеком данных на небольшом стартовом наборе, прежде чем доверять оценкам судьи в масштабе.
Покажите судье критерии явно - не предполагайте, что он знает, что значит "хорошо".
Сначала просите рассуждение, потом оценку (цепочка рассуждений) - судьи оценивают надежнее, когда вынуждены объяснять.
Предпочитайте попарную оценку для решений с высокими ставками, поточечную - для дешевого мониторинга.
Источники: