Что такое RLHF? | Глоссарий GEO

RLHF (Reinforcement Learning from Human Feedback, обучение с подкреплением на основе обратной связи от человека) - это методика обучения, которая настраивает поведение LLM с помощью данных о предпочтениях, собранных у людей. Необработанная предобученная LLM бегло говорит, но часто бесполезна или небезопасна; RLHF - это стандартный этап выравнивания, который превращает такую сырую модель в "собеседника, которого люди действительно предпочитают".

Почему это важно

RLHF был ключевой причиной того, что ChatGPT привлёк внимание общественности в 2022 году. Статья OpenAI про InstructGPT показала, что RLHF-модель с 1,3 млрд параметров предпочиталась людьми по сравнению с базовой моделью на 175 млрд параметров. Урок: "выровнять с обратной связью человека" - более сильный рычаг, чем "сделать модель крупнее". Почти каждая коммерческая LLM сегодня - Claude, GPT, Gemini, Llama - поставляется с той или иной формой RLHF или его производным.

Три этапа

1. Предобучение: обучение предсказанию следующего токена на огромном текстовом корпусе. Модель эрудированна, но плохо следует инструкциям.

2. Контролируемая тонкая настройка (SFT): тонкая настройка на написанных людьми парах "хороший вопрос -> хороший ответ". Модель усваивает формат чата и следование инструкциям.

3. Собственно RLHF:

Обучение модели вознаграждения: людям показывают два кандидата-ответа и спрашивают, какой лучше. На этих парах предпочтений обучается модель вознаграждения.
Оптимизация с подкреплением: используется алгоритм обучения с подкреплением, например PPO (Proximal Policy Optimization), чтобы настроить LLM на максимизацию оценок модели вознаграждения.

В результате это всё ещё языковая модель, но такая, чьи выходные данные настроены на человеческие предпочтения.

Что решает RLHF

Полезность: превращает "технически предсказуемые, но бесполезные" ответы в "реально полезные".

Безопасность: обучает модель отказываться от насильственного, дискриминационного или незаконного контента.

Честность: поощряет ответ "я не знаю" вместо выдумывания, хотя и не решает проблему галлюцинаций полностью.

Тон и формат: обучает дружелюбному стилю, структурированным ответам и культурным регистрам, таким как корейские формы вежливости.

Ограничения и критика

Взлом вознаграждения (reward hacking): модель эксплуатирует слабости модели вознаграждения, чтобы выдавать ответы, которые выглядят хорошо для оценщиков, но на деле не лучше.

Предвзятость обратной связи: культурные и личные предубеждения разметчиков закрепляются в модели вознаграждения.

Чрезмерное выравнивание: модель становится излишне осторожной и отказывается отвечать на правомерные вопросы.

Стоимость: сбор качественной обратной связи от людей медленный и дорогой и плохо масштабируется.

Напряжение с галлюцинациями: некоторые исследования утверждают, что RLHF может усиливать галлюцинации, вознаграждая уверенно звучащие ответы.

Производные и альтернативы

DPO (Direct Preference Optimization): пропускает модель вознаграждения и оптимизирует LLM напрямую по данным о предпочтениях. Стремительно вытесняет RLHF после 2023 года.

Constitutional AI (CAI): подход Anthropic - вместо обратной связи от людей используется явная "конституция", относительно которой модель сама себя критикует и пересматривает.

RLAIF (RL from AI Feedback): использование другой LLM для вынесения суждений о предпочтениях вместо людей. Дешевле, но выше риск предвзятости.

Значение для GEO

Современные LLM, благодаря RLHF, выровнены на нейтральный, полезный тон. Контент блога, который чаще цитируется ИИ-поиском, тяготеет к спокойному, информативному изложению, а не к сенсационному или преувеличенному тексту. Поскольку RLHF также вознаграждает цитирование и уместную неуверенность, контент на основе фактов с явными источниками с большей вероятностью будет выбран как кандидат на цитирование.

Источники: