GEO

Test-Time Compute

Test-time compute (также называемый inference-time compute) - это практика, при которой LLM позволяют дольше "думать" во время инференса: генерировать больше токенов рассуждений, прогонять несколько цепочек или сэмплировать множество кандидатов и выбирать лучшего, чтобы повысить качество ответа без переобучения модели. Популяризированный благодаря OpenAI o1 и DeepSeek-R1 в 2024-2025 годах, он перевёл рассуждения из задачи обучения в настраиваемый рычаг во время выполнения.

Test-time compute (также называемый inference-time compute) - это практика, при которой LLM позволяют дольше "думать" во время инференса: генерировать больше токенов рассуждений, прогонять несколько цепочек или сэмплировать множество кандидатов и выбирать лучшего, чтобы повысить качество ответа без переобучения модели. Популяризированный благодаря OpenAI o1 и DeepSeek-R1 в 2024-2025 годах, он перевёл рассуждения из задачи обучения в настраиваемый рычаг во время выполнения.

Почему это важно

Бо́льшую часть эпохи LLM единственным способом сделать модель умнее было обучить более крупную на бо́льшем объёме данных. Test-time compute разорвал эту зависимость. OpenAI o1 показала, что одна и та же базовая модель, получив в 10-30 раз больше токенов для рассуждений перед ответом, не уступает или превосходит гораздо более крупные модели без рассуждений на бенчмарках по математике, программированию и логике. Это переосмысливает бюджеты инференса: вместо "используй самую крупную модель, которую можешь себе позволить" команды теперь спрашивают "сколько размышлений я готов оплатить на этом запросе?". Экономика рассуждений изменилась - и вместе с ней изменился дизайн продуктов, потому что качество рассуждений теперь настраивается на уровне запроса.

Как это работает

Более длинная цепочка рассуждений: Модель выдаёт сотни или тысячи внутренних токенов рассуждений перед видимым ответом. Больше размышлений -> лучше ответы.

Несколько сэмплов (self-consistency): Генерируется N разных ответов, выбирается тот, к которому модель приходит чаще всего. Просто и эффективно в математике.

Поиск по дереву / лучевой поиск: Параллельное исследование нескольких ветвей рассуждений, отсечение плохих, продолжение перспективных.

Process reward models: Вторая модель оценивает каждый шаг рассуждения и направляет основную модель к лучшим путям. Используется в process supervision у OpenAI.

Поиск с проверяющим: Генерируется множество кандидатов, запускается внешний верификатор (юнит-тесты, математический чекер, LLM-судья), возвращается лучший.

Best-of-N + переранжирование: Более простой вариант. Генерируется 16-64 кандидата, переранжируются с помощью reward-модели, возвращается верхний.

Компромисс

Каждая техника test-time compute покупает точность ценой задержки и стоимости:

Задержка: Ответ, который без рассуждений занимает 500 мс, с тяжёлым test-time compute может занять 5-30 секунд.

Стоимость: Токены рассуждений стоят столько же, сколько любые другие выходные токены. Ответ o1 с 10 000 токенов размышлений стоит примерно в 30-50 раз дороже простого ответа GPT-4o.

Убывающая отдача: Кривая "точность против вычислений" выходит на плато. Переход с 1000 до 10 000 токенов рассуждений помогает больше, чем с 10 000 до 100 000.

Не всегда полезно: Простые фактические запросы и дружеская болтовня не выигрывают от рассуждений. Принуждение o1 на запросе "какая погода" тратит деньги впустую.

Когда использовать

Математика и формальная логика: Test-time compute помогает огромно. Reasoning-модели превосходят базовые на 20-40 пунктов на GSM8K, MATH, AIME.

Генерация кода с тестами: Генерируй, запускай тесты, итерируй. Поиск с проверяющим блистает.

Многошаговое планирование: Решения агентов, сложные инструкции, оптимизация с множеством ограничений.

Единичные высокоставочные запросы: Медицина, право, финансы - где заплатить 5 секунд и $0,30 за верный ответ дёшево по сравнению с ценой ошибки.

Когда не использовать

Чат-UX с бюджетом до 1 секунды: Задержка обрушивает пользовательский опыт.

Объёмные нагрузки: Раздувание токенов в 20-50 раз делает любой высоконагруженный эндпоинт нерентабельным.

Простой поиск или суммаризация: Ответы за один проход годятся; более долгое размышление не помогает.

Свободное творческое письмо: Больше размышлений делает результаты скованными.

Reasoning-модели против обычных моделей

АспектОбычные (GPT-4o, Claude 3.5)Reasoning (o1, R1, Claude Opus 4.6 thinking)
Скорость ответаБыстраяМедленная
Стоимость токеновНизкаяВысокая
Математика / логикаСноснаяОтличная
Творческое письмоСильноеИногда скованное
Чат-UXИдеаленИзбыточно
Лучшее применениеБольшинство запросовСложные запросы

Маршрутизация моделей - отправка простых запросов в быструю модель, а сложных в reasoning-модель - это стандартный продакшен-паттерн.

Частые ошибки

Использование reasoning-моделей везде: Быстро раздувает стоимость и задержку, не улучшая большинство ответов.

Отсутствие лимита на токены размышлений: Неограниченная трасса рассуждений может съесть тысячи долларов на одном запросе.

Игнорирование кеширования: Трассы рассуждений часто повторяются. Кеширование промптов способно существенно снизить стоимость.

Пропуск оценки: Команды полагают, что рассуждения = лучше. Для их конкретного домена это может быть не так - проверьте на бенчмарке, прежде чем фиксироваться.

Путаница токенов размышлений с выводом: Пользователи не должны видеть трассу рассуждений, если не попросят. Это внутренний монолог.

Источники: