Декомпозиция запроса
Декомпозиция запроса - это техника RAG, которая разбивает сложный составной пользовательский вопрос на несколько более простых подвопросов, извлекает контекст для каждого, а затем составляет итоговый ответ. Вместо того чтобы просить ретривер найти один фрагмент, отвечающий сразу на всё, система задаёт множество узких вопросов параллельно.
Декомпозиция запроса - это техника RAG, которая разбивает сложный составной пользовательский вопрос на несколько более простых подвопросов, извлекает контекст для каждого, а затем составляет итоговый ответ. Вместо того чтобы просить ретривер найти один фрагмент, отвечающий сразу на всё, система задаёт множество узких вопросов параллельно.
Почему это важно
Реальные пользователи задают неаккуратные вопросы: "В чём разница между LCP и FCP, и что из этого важнее для мобильного SEO в 2026 году?" Векторный ретривер, получив такой запрос, возвращает фрагменты либо про LCP, либо про FCP, либо про мобильное SEO, либо про тренды 2026 года - редко единственный фрагмент, охватывающий все четыре. Декомпозиция запроса разбивает вопрос на подзапросы ("Что такое LCP?", "Что такое FCP?", "LCP против FCP", "Мобильное SEO Core Web Vitals 2026"), извлекает по каждому отдельно и позволяет модели сшить итоговый ответ из богатого контекста. Продакшн-системы RAG в Perplexity, Glean и Anthropic используют ту или иную форму декомпозиции для сложных вопросов, а бенчмарки LangChain 2024 года показывают прирост точности на 15-25% на многоэтапных вопросах.
Как это работает
1. Вызов LLM-декомпозитора: Малая модель берёт пользовательский запрос и выдаёт 2-5 подвопросов. Промпт: "Разбей этот вопрос на минимальное число подвопросов, необходимых для полного ответа на него."
2. Параллельное извлечение: Каждый подвопрос проходит через ретривер - векторный, гибридный или по ключевым словам - независимо.
3. Агрегация контекста: Извлечённые фрагменты из всех подвопросов объединяются в единый блок контекста.
4. Генерация итогового ответа: Основная модель видит исходный вопрос плюс весь извлечённый контекст и пишет единый ответ.
5. Опциональный шаг синтеза: Для многоэтапных вопросов промежуточный шаг составляет частичные ответы перед итоговой генерацией.
Варианты
Параллельная декомпозиция: Все подвопросы выполняются одновременно. Быстро, хорошо для вопросов, части которых независимы.
Последовательная декомпозиция (многоэтапная): Поздние подвопросы зависят от ранних ответов. "Кто гендиректор крупнейшего конкурента inblog?" требует сначала ответить на "Кто крупнейший конкурент inblog?", а затем найти гендиректора этой компании.
Step-back промптинг: Перед декомпозицией LLM задаёт более абстрактную версию вопроса, чтобы подтянуть более широкий контекст. Популяризирован Google Research в 2024 году.
HyDE (гипотетические эмбеддинги документов): Сначала сгенерировать гипотетический ответ, встроить его и извлечь - лёгкая альтернатива явной декомпозиции.
Когда применять
Сравнительные вопросы: "X против Y", "Что лучше для Z"
Многоэтапные рассуждения: "Кто основал компанию, которая приобрела Figma?"
Составные вопросы: "Как и почему", объединённые в одном запросе.
Низкочастотная специфичность: Редкие вопросы, где не существует ни одной страницы-источника, но несколько страниц каждая покрывают часть.
Вопросы, смешивающие концепции: "Техническое SEO для SaaS-блогов на корейском"
Когда её не применять
Простые однофактовые вопросы: "Какая столица Франции?" не нуждается в декомпозиции - она добавляет задержку и стоимость.
Приложения, ограниченные бюджетом: Декомпозиция умножает вызовы ретривера. Для высокообъёмного чата удар по стоимости реален.
Области с сильными однодокументными ответами: Юридические договоры, руководства к продуктам - один хороший фрагмент превосходит пять посредственных.
Компромиссы
Задержка: Каждый подвопрос - это туда-обратно. Параллельное выполнение помогает, но не устраняет её.
Стоимость ретривера: Вызовы векторного поиска масштабируются линейно с числом подвопросов.
Качество декомпозитора: Плохая декомпозиция даёт плохие извлечения. Промпт и модель декомпозитора важны не меньше итогового генератора.
Избыточное извлечение: Подвопросы часто пересекаются, многократно подтягивая одни и те же фрагменты. Дедупликация помогает.
Распространённые ошибки
Чрезмерная декомпозиция: Разбиение простого вопроса на 10 подвопросов тратит токены и сбивает с толку итоговую модель.
Декомпозиция без заземления: Передача подответов вместо исходных фрагментов позволяет галлюцинациям накапливаться через этапы.
Игнорирование зависимостей: Запуск многоэтапного вопроса параллельно, когда второй шаг зависит от первого, даёт неверные ответы.
Отсутствие оценки: Без бенчмарка вы не можете сказать, действительно ли декомпозиция помогла по сравнению с базовым одношаговым RAG.
Источники: