Дообучение (Fine-Tuning)
Дообучение (fine-tuning) - это техника дополнительного обучения предобученной LLM на данных, специфичных для области или задачи, чтобы сформировать её стиль, знания и поведение. Так вы превращаете универсальную модель в "кастомный GPT" под конкретный бренд или отрасль.
Дообучение (fine-tuning) - это техника дополнительного обучения предобученной LLM на данных, специфичных для области или задачи, чтобы сформировать её стиль, знания и поведение. Так вы превращаете универсальную модель в "кастомный GPT" под конкретный бренд или отрасль.
Почему это важно
У промпт-инжиниринга есть пределы. Он повторяет одни и те же инструкции в каждом запросе, расходует контекстное окно и не может полностью зафиксировать последовательный стиль. Дообучение обновляет веса модели, поэтому усвоенное поведение встраивается без явных инструкций. Исследования OpenAI показывают, что дообученный GPT-4o в среднем на 20-30% точнее на специализированных задачах по сравнению с одним только промптингом.
Типы дообучения
Полное дообучение (Full fine-tuning): Обновляет каждый параметр. Наивысшая производительность, но самый дорогой по вычислениям и хранению вариант.
LoRA (Low-Rank Adaptation): Сохраняет исходные веса замороженными и обучает небольшие слои-адаптеры. Примерно в 100 раз дешевле в обучении, и вы можете менять LoRA-адаптеры по необходимости. Самый широко используемый подход в 2026 году.
PEFT (Parameter-Efficient Fine-Tuning): Зонтичный термин для LoRA, Adapters, Prefix-Tuning и подобных методов - обучение только небольшого подмножества параметров.
RLHF / DPO: Настраивает качество ответов с помощью обратной связи от людей или сравнений предпочтений. Ключевая техника выравнивания за ChatGPT и Claude.
SFT (Supervised Fine-Tuning): Самая базовая форма - обучение на размеченных парах "вход-выход". Эффективна для обучения конкретным форматам или тонам.
Дообучение против промптинга против RAG
Эти подходы дополняют друг друга, а не конкурируют.
| Цель | Лучший подход |
|---|---|
| Последовательный стиль/тон | Дообучение |
| Соблюдение формата или языка | Дообучение или промптинг |
| Свежая информация в реальном времени | RAG |
| Внутренние документы компании | RAG |
| Глубокие знания области (медицина, право) | Дообучение + RAG |
| Разовые или меняющиеся задачи | Промптинг |
Эмпирическое правило: Если задачу решает промптинг, дообучение избыточно. Прибегайте к дообучению только тогда, когда вы постоянно повторяете одни и те же инструкции или не можете добиться последовательного тона.
Практические советы
Качество данных - это всё: 1000 высококачественных примеров лучше, чем 10 000 зашумлённых. Согласованность и разнообразие меток определяют итоговую производительность.
Минимальный объём данных: OpenAI рекомендует как минимум 50-100 примеров; на практике типично 500-1000. LoRA работает с меньшим объёмом.
Отложите валидационный набор: Зарезервируйте 10-20% данных, чтобы обнаружить переобучение.
Начинайте с наименьшей способной базовой модели: Хорошо дообученная маленькая модель часто превосходит большую модель с промптингом и по скорости, и по стоимости.
Сначала определите метрики оценки: Решите, как вы будете измерять точность, последовательность стиля и фактологичность до обучения, чтобы отслеживать улучшение.
Источники: