RLHF
RLHF (Reinforcement Learning from Human Feedback, обучение с подкреплением на основе обратной связи от человека) - это методика обучения, которая настраивает поведение LLM с помощью данных о предпочтениях, собранных у людей. Необработанная предобученная LLM бегло говорит, но часто бесполезна или небезопасна; RLHF - это стандартный этап выравнивания, который превращает такую сырую модель в "собеседника, которого люди действительно предпочитают".
RLHF (Reinforcement Learning from Human Feedback, обучение с подкреплением на основе обратной связи от человека) - это методика обучения, которая настраивает поведение LLM с помощью данных о предпочтениях, собранных у людей. Необработанная предобученная LLM бегло говорит, но часто бесполезна или небезопасна; RLHF - это стандартный этап выравнивания, который превращает такую сырую модель в "собеседника, которого люди действительно предпочитают".
Почему это важно
RLHF был ключевой причиной того, что ChatGPT привлёк внимание общественности в 2022 году. Статья OpenAI про InstructGPT показала, что RLHF-модель с 1,3 млрд параметров предпочиталась людьми по сравнению с базовой моделью на 175 млрд параметров. Урок: "выровнять с обратной связью человека" - более сильный рычаг, чем "сделать модель крупнее". Почти каждая коммерческая LLM сегодня - Claude, GPT, Gemini, Llama - поставляется с той или иной формой RLHF или его производным.
Три этапа
1. Предобучение: обучение предсказанию следующего токена на огромном текстовом корпусе. Модель эрудированна, но плохо следует инструкциям.
2. Контролируемая тонкая настройка (SFT): тонкая настройка на написанных людьми парах "хороший вопрос -> хороший ответ". Модель усваивает формат чата и следование инструкциям.
3. Собственно RLHF:
- Обучение модели вознаграждения: людям показывают два кандидата-ответа и спрашивают, какой лучше. На этих парах предпочтений обучается модель вознаграждения.
- Оптимизация с подкреплением: используется алгоритм обучения с подкреплением, например PPO (Proximal Policy Optimization), чтобы настроить LLM на максимизацию оценок модели вознаграждения.
В результате это всё ещё языковая модель, но такая, чьи выходные данные настроены на человеческие предпочтения.
Что решает RLHF
Полезность: превращает "технически предсказуемые, но бесполезные" ответы в "реально полезные".
Безопасность: обучает модель отказываться от насильственного, дискриминационного или незаконного контента.
Честность: поощряет ответ "я не знаю" вместо выдумывания, хотя и не решает проблему галлюцинаций полностью.
Тон и формат: обучает дружелюбному стилю, структурированным ответам и культурным регистрам, таким как корейские формы вежливости.
Ограничения и критика
Взлом вознаграждения (reward hacking): модель эксплуатирует слабости модели вознаграждения, чтобы выдавать ответы, которые выглядят хорошо для оценщиков, но на деле не лучше.
Предвзятость обратной связи: культурные и личные предубеждения разметчиков закрепляются в модели вознаграждения.
Чрезмерное выравнивание: модель становится излишне осторожной и отказывается отвечать на правомерные вопросы.
Стоимость: сбор качественной обратной связи от людей медленный и дорогой и плохо масштабируется.
Напряжение с галлюцинациями: некоторые исследования утверждают, что RLHF может усиливать галлюцинации, вознаграждая уверенно звучащие ответы.
Производные и альтернативы
DPO (Direct Preference Optimization): пропускает модель вознаграждения и оптимизирует LLM напрямую по данным о предпочтениях. Стремительно вытесняет RLHF после 2023 года.
Constitutional AI (CAI): подход Anthropic - вместо обратной связи от людей используется явная "конституция", относительно которой модель сама себя критикует и пересматривает.
RLAIF (RL from AI Feedback): использование другой LLM для вынесения суждений о предпочтениях вместо людей. Дешевле, но выше риск предвзятости.
Значение для GEO
Современные LLM, благодаря RLHF, выровнены на нейтральный, полезный тон. Контент блога, который чаще цитируется ИИ-поиском, тяготеет к спокойному, информативному изложению, а не к сенсационному или преувеличенному тексту. Поскольку RLHF также вознаграждает цитирование и уместную неуверенность, контент на основе фактов с явными источниками с большей вероятностью будет выбран как кандидат на цитирование.
Источники: