Test-Time Compute
Test-time compute (также называемый inference-time compute) - это практика, при которой LLM позволяют дольше "думать" во время инференса: генерировать больше токенов рассуждений, прогонять несколько цепочек или сэмплировать множество кандидатов и выбирать лучшего, чтобы повысить качество ответа без переобучения модели. Популяризированный благодаря OpenAI o1 и DeepSeek-R1 в 2024-2025 годах, он перевёл рассуждения из задачи обучения в настраиваемый рычаг во время выполнения.
Test-time compute (также называемый inference-time compute) - это практика, при которой LLM позволяют дольше "думать" во время инференса: генерировать больше токенов рассуждений, прогонять несколько цепочек или сэмплировать множество кандидатов и выбирать лучшего, чтобы повысить качество ответа без переобучения модели. Популяризированный благодаря OpenAI o1 и DeepSeek-R1 в 2024-2025 годах, он перевёл рассуждения из задачи обучения в настраиваемый рычаг во время выполнения.
Почему это важно
Бо́льшую часть эпохи LLM единственным способом сделать модель умнее было обучить более крупную на бо́льшем объёме данных. Test-time compute разорвал эту зависимость. OpenAI o1 показала, что одна и та же базовая модель, получив в 10-30 раз больше токенов для рассуждений перед ответом, не уступает или превосходит гораздо более крупные модели без рассуждений на бенчмарках по математике, программированию и логике. Это переосмысливает бюджеты инференса: вместо "используй самую крупную модель, которую можешь себе позволить" команды теперь спрашивают "сколько размышлений я готов оплатить на этом запросе?". Экономика рассуждений изменилась - и вместе с ней изменился дизайн продуктов, потому что качество рассуждений теперь настраивается на уровне запроса.
Как это работает
Более длинная цепочка рассуждений: Модель выдаёт сотни или тысячи внутренних токенов рассуждений перед видимым ответом. Больше размышлений -> лучше ответы.
Несколько сэмплов (self-consistency): Генерируется N разных ответов, выбирается тот, к которому модель приходит чаще всего. Просто и эффективно в математике.
Поиск по дереву / лучевой поиск: Параллельное исследование нескольких ветвей рассуждений, отсечение плохих, продолжение перспективных.
Process reward models: Вторая модель оценивает каждый шаг рассуждения и направляет основную модель к лучшим путям. Используется в process supervision у OpenAI.
Поиск с проверяющим: Генерируется множество кандидатов, запускается внешний верификатор (юнит-тесты, математический чекер, LLM-судья), возвращается лучший.
Best-of-N + переранжирование: Более простой вариант. Генерируется 16-64 кандидата, переранжируются с помощью reward-модели, возвращается верхний.
Компромисс
Каждая техника test-time compute покупает точность ценой задержки и стоимости:
Задержка: Ответ, который без рассуждений занимает 500 мс, с тяжёлым test-time compute может занять 5-30 секунд.
Стоимость: Токены рассуждений стоят столько же, сколько любые другие выходные токены. Ответ o1 с 10 000 токенов размышлений стоит примерно в 30-50 раз дороже простого ответа GPT-4o.
Убывающая отдача: Кривая "точность против вычислений" выходит на плато. Переход с 1000 до 10 000 токенов рассуждений помогает больше, чем с 10 000 до 100 000.
Не всегда полезно: Простые фактические запросы и дружеская болтовня не выигрывают от рассуждений. Принуждение o1 на запросе "какая погода" тратит деньги впустую.
Когда использовать
Математика и формальная логика: Test-time compute помогает огромно. Reasoning-модели превосходят базовые на 20-40 пунктов на GSM8K, MATH, AIME.
Генерация кода с тестами: Генерируй, запускай тесты, итерируй. Поиск с проверяющим блистает.
Многошаговое планирование: Решения агентов, сложные инструкции, оптимизация с множеством ограничений.
Единичные высокоставочные запросы: Медицина, право, финансы - где заплатить 5 секунд и $0,30 за верный ответ дёшево по сравнению с ценой ошибки.
Когда не использовать
Чат-UX с бюджетом до 1 секунды: Задержка обрушивает пользовательский опыт.
Объёмные нагрузки: Раздувание токенов в 20-50 раз делает любой высоконагруженный эндпоинт нерентабельным.
Простой поиск или суммаризация: Ответы за один проход годятся; более долгое размышление не помогает.
Свободное творческое письмо: Больше размышлений делает результаты скованными.
Reasoning-модели против обычных моделей
| Аспект | Обычные (GPT-4o, Claude 3.5) | Reasoning (o1, R1, Claude Opus 4.6 thinking) |
|---|---|---|
| Скорость ответа | Быстрая | Медленная |
| Стоимость токенов | Низкая | Высокая |
| Математика / логика | Сносная | Отличная |
| Творческое письмо | Сильное | Иногда скованное |
| Чат-UX | Идеален | Избыточно |
| Лучшее применение | Большинство запросов | Сложные запросы |
Маршрутизация моделей - отправка простых запросов в быструю модель, а сложных в reasoning-модель - это стандартный продакшен-паттерн.
Частые ошибки
Использование reasoning-моделей везде: Быстро раздувает стоимость и задержку, не улучшая большинство ответов.
Отсутствие лимита на токены размышлений: Неограниченная трасса рассуждений может съесть тысячи долларов на одном запросе.
Игнорирование кеширования: Трассы рассуждений часто повторяются. Кеширование промптов способно существенно снизить стоимость.
Пропуск оценки: Команды полагают, что рассуждения = лучше. Для их конкретного домена это может быть не так - проверьте на бенчмарке, прежде чем фиксироваться.
Путаница токенов размышлений с выводом: Пользователи не должны видеть трассу рассуждений, если не попросят. Это внутренний монолог.
Источники: