GEO

Дообучение (Fine-Tuning)

Дообучение (fine-tuning) - это техника дополнительного обучения предобученной LLM на данных, специфичных для области или задачи, чтобы сформировать её стиль, знания и поведение. Так вы превращаете универсальную модель в "кастомный GPT" под конкретный бренд или отрасль.

Дообучение (fine-tuning) - это техника дополнительного обучения предобученной LLM на данных, специфичных для области или задачи, чтобы сформировать её стиль, знания и поведение. Так вы превращаете универсальную модель в "кастомный GPT" под конкретный бренд или отрасль.

Почему это важно

У промпт-инжиниринга есть пределы. Он повторяет одни и те же инструкции в каждом запросе, расходует контекстное окно и не может полностью зафиксировать последовательный стиль. Дообучение обновляет веса модели, поэтому усвоенное поведение встраивается без явных инструкций. Исследования OpenAI показывают, что дообученный GPT-4o в среднем на 20-30% точнее на специализированных задачах по сравнению с одним только промптингом.

Типы дообучения

Полное дообучение (Full fine-tuning): Обновляет каждый параметр. Наивысшая производительность, но самый дорогой по вычислениям и хранению вариант.

LoRA (Low-Rank Adaptation): Сохраняет исходные веса замороженными и обучает небольшие слои-адаптеры. Примерно в 100 раз дешевле в обучении, и вы можете менять LoRA-адаптеры по необходимости. Самый широко используемый подход в 2026 году.

PEFT (Parameter-Efficient Fine-Tuning): Зонтичный термин для LoRA, Adapters, Prefix-Tuning и подобных методов - обучение только небольшого подмножества параметров.

RLHF / DPO: Настраивает качество ответов с помощью обратной связи от людей или сравнений предпочтений. Ключевая техника выравнивания за ChatGPT и Claude.

SFT (Supervised Fine-Tuning): Самая базовая форма - обучение на размеченных парах "вход-выход". Эффективна для обучения конкретным форматам или тонам.

Дообучение против промптинга против RAG

Эти подходы дополняют друг друга, а не конкурируют.

ЦельЛучший подход
Последовательный стиль/тонДообучение
Соблюдение формата или языкаДообучение или промптинг
Свежая информация в реальном времениRAG
Внутренние документы компанииRAG
Глубокие знания области (медицина, право)Дообучение + RAG
Разовые или меняющиеся задачиПромптинг

Эмпирическое правило: Если задачу решает промптинг, дообучение избыточно. Прибегайте к дообучению только тогда, когда вы постоянно повторяете одни и те же инструкции или не можете добиться последовательного тона.

Практические советы

Качество данных - это всё: 1000 высококачественных примеров лучше, чем 10 000 зашумлённых. Согласованность и разнообразие меток определяют итоговую производительность.

Минимальный объём данных: OpenAI рекомендует как минимум 50-100 примеров; на практике типично 500-1000. LoRA работает с меньшим объёмом.

Отложите валидационный набор: Зарезервируйте 10-20% данных, чтобы обнаружить переобучение.

Начинайте с наименьшей способной базовой модели: Хорошо дообученная маленькая модель часто превосходит большую модель с промптингом и по скорости, и по стоимости.

Сначала определите метрики оценки: Решите, как вы будете измерять точность, последовательность стиля и фактологичность до обучения, чтобы отслеживать улучшение.

Источники: