¿Qué es el enrutamiento de modelos? | Glosario GEO

El enrutamiento de modelos es la práctica de dirigir dinámicamente cada solicitud de una aplicación de IA al LLM mejor adaptado a sus características: dificultad, restricciones de coste, necesidades de latencia. En lugar de pasar cada solicitud por un único modelo de gama alta, el enrutamiento envía "las solicitudes simples a modelos pequeños y rápidos y el razonamiento complejo a los grandes y caros", optimizando el coste y la calidad a la vez.

Por qué es importante

Para 2026, el ecosistema de LLM tiene más de 20 modelos comerciales y de código abierto, cada uno con diferentes fortalezas, precios y latencia. Ejecutar todo en GPT-5.5 o Claude Opus 4.8 dispara el coste; ejecutar todo en modelos pequeños hunde la calidad en las tareas difíciles. Especialistas en enrutamiento como Martian y Not Diamond informan de que un enrutamiento bien ajustado reduce el coste promedio entre un 50% y un 80% frente a usar solo GPT-5.5, conservando la calidad de las respuestas.

Criterios de enrutamiento

Dificultad de la solicitud: clasificación y resumen → Haiku o GPT-5-nano. Programación o razonamiento complejo → Opus o GPT-5.5.

Requisitos de latencia: las interfaces de chat necesitan modelos pequeños de baja latencia; los trabajos por lotes pueden tolerar modelos grandes más lentos.

Presupuesto de coste: los usuarios del nivel gratuito en modelos de bajo coste, los usuarios de pago en modelos premium.

Longitud del contexto: el resumen de documentos largos → modelos de 1M de tokens (Claude, Gemini).

Especialización por dominio: tareas de código → modelos con ajuste fino de código. Contenido en coreano → modelos sólidos en coreano.

Postura de seguridad: juicio sobre contenido sensible → modelos con barreras de protección estrictas. Escritura creativa → modelos más laxos.

Enfoques de enrutamiento

Basado en reglas: lógica if-else explícita como "longitud > 1.000 caracteres → Opus, si no Haiku". Simple y predecible, pero inflexible.

Basado en clasificador: un LLM pequeño analiza cada solicitud y clasifica la dificultad o el tema, y luego enruta. Preciso, pero el paso de clasificación añade latencia y coste.

Similitud de embeddings: almacena vectores de solicitudes pasadas exitosas y fallidas, encuentra el ejemplo pasado más cercano y enruta en consecuencia.

Aprendizaje por refuerzo: un enrutador entrenado con la calidad de las respuestas o la retroalimentación del usuario como recompensa. El más avanzado, pero operativamente complejo.

Cascada: prueba primero un modelo barato; escala a uno más grande si la confianza es baja. Paga por "dos generaciones" para ganar tanto en calidad como en coste promedio.

Retos operativos

Catálogo de capacidades de los modelos: sin pruebas reales sobre tus propias tareas, las reglas de enrutamiento se vuelven subjetivas.

Canal de evaluación justo: necesitas una infraestructura de pruebas A/B que compare varios modelos con las mismas solicitudes.

Estrategia de respaldo: diseña para la resiliencia cuando el modelo elegido está caído o lento.

Registro y reproducibilidad: anota qué solicitud se enrutó a qué modelo para poder depurar y mejorar.

Transparencia con el usuario: según el producto, muestra "esta respuesta se generó con el modelo X" para generar confianza.

Implicaciones para GEO

Los propios motores de búsqueda con IA usan enrutamiento de modelos. Las preguntas factuales simples van a modelos pequeños; las tareas de investigación complejas van a los grandes. Para ser citado en ambas vías, el contenido debe ser compatible con entradas de modelos diversos. El Markdown limpio, los encabezados claros, los datos estructurados y las oraciones de respuesta declarativas hacen que el contenido sea fácil de analizar y citar sin importar qué modelo lo procese.

Sources:

Enrutamiento de modelos

Por qué es importante

Criterios de enrutamiento

Enfoques de enrutamiento

Retos operativos

Implicaciones para GEO