Что такое маршрутизация моделей? | Глоссарий GEO

Маршрутизация моделей - это практика динамического направления каждого запроса AI-приложения к LLM, наиболее подходящей под его характеристики - сложность, ограничения по стоимости, требования к задержке. Вместо того чтобы прогонять каждый запрос через одну высокоуровневую модель, маршрутизация направляет "простые запросы к быстрым малым моделям, а сложные рассуждения к крупным дорогим" - оптимизируя стоимость и качество одновременно.

Почему это важно

К 2026 году экосистема LLM насчитывает 20+ коммерческих и открытых моделей, каждая со своими сильными сторонами, ценообразованием и задержкой. Прогон всего через GPT-5.5 или Claude Opus 4.8 взрывает стоимость; прогон всего через малые модели обрушивает качество на трудных задачах. Специалисты по маршрутизации, такие как Martian и Not Diamond, сообщают, что хорошо настроенная маршрутизация сокращает среднюю стоимость на 50-80% по сравнению с использованием только GPT-5.5 при сохранении качества ответов.

Критерии маршрутизации

Сложность запроса: Классификация и суммирование - Haiku или GPT-5-nano. Программирование или сложные рассуждения - Opus или GPT-5.5.

Требования к задержке: Чат-интерфейсам нужны малые модели с низкой задержкой; пакетные задания могут терпеть более медленные крупные модели.

Бюджет по стоимости: Пользователи бесплатного тарифа на недорогих моделях, платные пользователи на премиальных моделях.

Длина контекста: Суммирование длинных документов - модели на 1 млн токенов (Claude, Gemini).

Доменная специализация: Задачи по коду - модели, дообученные на коде. Корейский контент - модели, сильные в корейском.

Позиция по безопасности: Оценка чувствительного контента - модели со строгими ограничителями. Творческое письмо - более свободные модели.

Подходы к маршрутизации

На основе правил: Явные конструкции if-else вроде "длина > 1000 символов - Opus, иначе Haiku". Просто и предсказуемо, но негибко.

На основе классификатора: Малая LLM анализирует каждый запрос и классифицирует сложность или тему, затем маршрутизирует. Точно, но шаг классификации добавляет задержку и стоимость.

Сходство эмбеддингов: Храните векторы прошлых успешных и неудачных запросов, находите ближайший прошлый пример и маршрутизируйте соответственно.

Обучение с подкреплением: Маршрутизатор, обученный на качестве ответов или обратной связи пользователей в качестве вознаграждения. Самый продвинутый, но операционно сложный.

Каскад: Сначала пробуйте дешёвую модель; эскалируйте к более крупной, если уверенность низкая. Платит за "два поколения", чтобы выиграть и по качеству, и по средней стоимости.

Эксплуатационные сложности

Каталог возможностей моделей: Без реальных бенчмарков на ваших собственных задачах правила маршрутизации становятся субъективными.

Конвейер честной оценки: Вам нужна инфраструктура A/B-тестирования, которая сравнивает несколько моделей на одних и тех же запросах.

Стратегия отката: Проектируйте с расчётом на устойчивость, когда выбранная модель недоступна или медленна.

Логирование и воспроизводимость: Записывайте, какой запрос был направлен к какой модели, чтобы вы могли отлаживать и улучшать.

Прозрачность для пользователя: В зависимости от продукта показывайте "этот ответ был сгенерирован моделью X", чтобы выстраивать доверие.

Последствия для GEO

Сами поисковые системы AI-поиска используют маршрутизацию моделей. Простые фактические вопросы идут к малым моделям; сложные исследовательские задачи идут к крупным. Чтобы быть процитированным на обоих путях, контент должен быть совместим с разнообразными входами моделей. Чистый Markdown, ясные заголовки, структурированные данные и декларативные предложения-ответы делают контент лёгким для разбора и цитирования независимо от того, какая модель его обрабатывает.

Источники: