GEO

Cómputo en Tiempo de Inferencia

El cómputo en tiempo de inferencia (también llamado test-time compute) es la práctica de dejar que un LLM "piense" más tiempo durante la inferencia (generando más tokens de razonamiento, ejecutando múltiples cadenas o muestreando muchos candidatos y eligiendo el mejor) para mejorar la calidad de la respuesta sin reentrenar el modelo. Popularizado por o1 de OpenAI y DeepSeek-R1 en 2024 a 2025, trasladó el razonamiento de un problema de entrenamiento a un control de ejecución.

El cómputo en tiempo de inferencia (también llamado test-time compute) es la práctica de dejar que un LLM "piense" más tiempo durante la inferencia (generando más tokens de razonamiento, ejecutando múltiples cadenas o muestreando muchos candidatos y eligiendo el mejor) para mejorar la calidad de la respuesta sin reentrenar el modelo. Popularizado por o1 de OpenAI y DeepSeek-R1 en 2024 a 2025, trasladó el razonamiento de un problema de entrenamiento a un control de ejecución.

Por qué es importante

Durante la mayor parte de la era de los LLM, la única forma de hacer un modelo más inteligente era entrenar uno más grande con más datos. El cómputo en tiempo de inferencia rompió esa dependencia. El o1 de OpenAI demostró que el mismo modelo base, al darle de 10 a 30 veces más tokens para razonar antes de responder, iguala o supera a modelos sin razonamiento mucho más grandes en pruebas de matemáticas, programación y lógica. Esto replantea los presupuestos de inferencia: en lugar de "usa el modelo más grande que puedas permitirte", los equipos ahora se preguntan "¿cuánto razonamiento quiero pagar en esta consulta?". La economía del razonamiento cambió, y también el diseño de producto, porque la calidad del razonamiento ahora es ajustable a nivel de solicitud.

Cómo funciona

Cadena de pensamiento más larga: El modelo produce cientos o miles de tokens de razonamiento interno antes de la respuesta visible. Más reflexión → mejores respuestas.

Múltiples muestras (autoconsistencia): Genera N respuestas diferentes, elige la que el modelo alcanza con más frecuencia. Simple y eficaz en matemáticas.

Búsqueda en árbol / búsqueda en haz: Explora múltiples ramas de razonamiento en paralelo, poda las malas, extiende las prometedoras.

Modelos de recompensa de proceso: Un segundo modelo puntúa cada paso de razonamiento y dirige al modelo principal hacia mejores caminos. Se usa en la supervisión de proceso de OpenAI.

Búsqueda guiada por verificador: Genera muchos candidatos, ejecuta un verificador externo (pruebas unitarias, verificador matemático, LLM como juez), devuelve el mejor.

Best-of-N + reranking: Variante más simple. Genera de 16 a 64 candidatos, reordénalos con un modelo de recompensa, devuelve el mejor.

La compensación

Cada técnica de cómputo en tiempo de inferencia compra precisión con latencia y costo:

Latencia: Una respuesta que toma 500 ms sin razonamiento puede tomar de 5 a 30 segundos con un cómputo en tiempo de inferencia intenso.

Costo: Los tokens de razonamiento cuestan tanto como cualquier otro token de salida. Una respuesta de o1 con 10.000 tokens de pensamiento cuesta ~30 a 50 veces una respuesta simple de GPT-4o.

Rendimientos decrecientes: La curva de precisión frente a cómputo se aplana. Pasar de 1.000 a 10.000 tokens de razonamiento ayuda más que de 10.000 a 100.000.

No siempre útil: Las búsquedas factuales simples y la charla amistosa no se benefician del razonamiento. Forzar o1 en "cómo está el clima" desperdicia dinero.

Cuándo usarlo

Matemáticas y lógica formal: El cómputo en tiempo de inferencia ayuda enormemente. Los modelos de razonamiento superan a los modelos base por 20 a 40 puntos en GSM8K, MATH y AIME.

Generación de código con pruebas: Generar, ejecutar pruebas, iterar. La búsqueda guiada por verificador brilla.

Planificación de varios pasos: Decisiones de agentes, instrucciones complejas, optimización con múltiples restricciones.

Consultas individuales de alto riesgo: Medicina, derecho, finanzas, donde pagar 5 segundos y 0,30 USD por una respuesta correcta es barato comparado con el costo de equivocarse.

Cuándo no usarlo

UX de chat con presupuestos de menos de 1 segundo: La latencia hunde la experiencia del usuario.

Cargas de trabajo de volumen: Una inflación de 20 a 50 veces en los tokens hace que cualquier endpoint de alto volumen sea poco económico.

Recuperación o resumen simples: Las respuestas de un solo paso están bien; pensar más tiempo no ayuda.

Escritura creativa abierta: Más deliberación hace que las salidas se sientan rígidas.

Modelos de razonamiento vs modelos regulares

AspectoRegular (GPT-4o, Claude 3.5)Razonamiento (o1, R1, Claude Opus 4.6 thinking)
Velocidad de respuestaRápidaLenta
Costo de tokensBajoAlto
Matemáticas / lógicaAceptableExcelente
Escritura creativaFuerteA veces forzada
UX de chatIdealExcesivo
Mejor usoLa mayoría de las solicitudesConsultas difíciles

El enrutamiento de modelos, enviar las consultas simples a un modelo rápido y las difíciles a un modelo de razonamiento, es el patrón estándar de producción.

Errores comunes

Usar modelos de razonamiento en todas partes: Infla rápidamente el costo y la latencia sin mejorar la mayoría de las respuestas.

Sin límite de presupuesto para los tokens de pensamiento: Una traza de razonamiento sin límites puede consumir miles de dólares en una sola consulta.

Ignorar el almacenamiento en caché: Las trazas de razonamiento suelen ser repetitivas. El almacenamiento en caché de prompts puede reducir el costo de forma sustancial.

Saltarse la evaluación: Los equipos asumen que razonamiento = mejor. Para su dominio específico, puede que no lo sea; haz pruebas comparativas antes de comprometerte.

Confundir los tokens de pensamiento con la salida: Los usuarios no deberían ver la traza de razonamiento a menos que la pidan. Es un monólogo interno.

Sources: