Modelo de visión y lenguaje (VLM)
Un modelo de visión y lenguaje (VLM) es un sistema de IA multimodal que toma tanto imágenes como texto de entrada y produce salida de texto, lo que permite que un solo modelo lea capturas de pantalla, describa fotos, transcriba documentos, responda preguntas sobre gráficos y siga instrucciones que combinan "lo que ves" con "lo que dices". GPT-4V, Gemini, Claude 3+, Llama 3.2 Vision y Qwen-VL son los ejemplos más utilizados en 2026.
Un modelo de visión y lenguaje (VLM) es un sistema de IA multimodal que toma tanto imágenes como texto de entrada y produce salida de texto, lo que permite que un solo modelo lea capturas de pantalla, describa fotos, transcriba documentos, responda preguntas sobre gráficos y siga instrucciones que combinan "lo que ves" con "lo que dices". GPT-4V, Gemini, Claude 3+, Llama 3.2 Vision y Qwen-VL son los ejemplos más utilizados en 2026.
Por qué importa
Antes de los VLM, "la visión" y "el lenguaje" eran dos áreas separadas del aprendizaje automático. Los clasificadores de imágenes te decían qué había en una imagen; los LLM respondían preguntas de texto. Conectarlos requería canalizaciones frágiles (primero generar una descripción, luego razonar). Los VLM colapsan ambas tareas en una sola pasada hacia adelante: el modelo "ve" píxeles y "piensa" en lenguaje al mismo tiempo. Esto desbloquea flujos de trabajo que antes eran imposibles o tremendamente poco prácticos: depuración con capturas de pantalla, OCR y comprensión de documentos, automatización de pantalla, navegación de interfaces accesibles, búsqueda basada en imágenes y moderación de contenido visual. Para quienes desarrollan, los VLM sustituyen decenas de API de visión de un solo propósito por una única capacidad general.
Cómo funcionan los VLM (simplificado)
1. Codificador de imágenes: un modelo de visión (a menudo un Transformer de visión / ViT o un codificador de estilo CLIP) convierte la imagen en una secuencia de embeddings de parches, normalmente de unos pocos cientos a unos pocos miles de "tokens visuales".
2. Capa de proyección: una pequeña capa aprendida asigna los tokens visuales al mismo espacio de embedding que los tokens de texto, para que el LLM pueda procesarlos.
3. Modelo de lenguaje: un LLM estándar consume los tokens visuales seguidos de los tokens de texto y genera una respuesta de texto. Desde la perspectiva del LLM, la imagen es solo un prefijo especial de tokens.
4. Entrenamiento de extremo a extremo: todo el sistema se entrena de forma conjunta con pares (imagen, texto): conjuntos de datos de imagen y descripción, datos de seguimiento de instrucciones con imágenes, datos de OCR, preguntas y respuestas sobre gráficos, etc.
Qué pueden hacer los VLM
OCR y comprensión: leer un recibo fotografiado y extraer las partidas como JSON.
Preguntas y respuestas sobre gráficos: "¿Cuáles fueron los ingresos del Q3?" respondido a partir de la captura de pantalla de una diapositiva.
Comprensión de documentos: leer un PDF y responder preguntas sobre él sin un paso de OCR aparte.
Comprensión de pantalla: tomar una captura de pantalla de una aplicación y describir lo que aparece en ella, la base de los agentes de "uso de computadora" como el de Claude.
Depuración visual: pegar una captura de pantalla de un error y preguntar "¿qué está mal?".
Escritura basada en imágenes: generar leyendas, texto alternativo, publicaciones en redes sociales o descripciones de productos a partir de una foto.
Accesibilidad: describir imágenes para personas con discapacidad visual.
Razonamiento visual: "¿Cuántas personas llevan camisetas rojas?" "¿Qué gráfico muestra un mayor crecimiento?".
OCR multilingüe: leer texto en coreano, japonés o árabe en imágenes con las que el OCR clásico tiene dificultades.
VLM destacados
GPT-4V / GPT-4o / GPT-5 vision (OpenAI): el primer gran VLM de código cerrado a escala; estableció el formato.
Gemini 1.5 / 2.0 / 3.0 (Google): potente en entradas multimodales de contexto largo; puede ingerir horas de video.
Claude 3+ / Claude 4 vision (Anthropic): potente en la comprensión de documentos y gráficos; impulsa el uso de computadora de Claude.
Llama 3.2 Vision (Meta): el primer gran VLM de pesos abiertos; se ejecuta localmente en muchos casos de uso.
Qwen2-VL / Qwen3-VL (Alibaba): VLM multilingüe potente, especialmente en documentos en chino y coreano.
Pixtral (Mistral): VLM europeo de código abierto.
Molmo (AI2): VLM abierto con capacidad de señalamiento fundamentado.
Limitaciones
Límites de resolución: la mayoría de los VLM reducen la resolución de las imágenes. El texto diminuto o los detalles finos se pierden.
Conteo y razonamiento espacial: aún sorprendentemente débiles. "¿Cuántos coches hay en esta imagen?" suele fallar por 1 o 2.
Detalles alucinados: los VLM a veces inventan objetos o texto que no están en la imagen, sobre todo cuando el prompt los sugiere.
Coste: los tokens visuales cuestan más que los de texto; una sola imagen de alta resolución puede equivaler a miles de tokens de texto.
Latencia: la entrada de imágenes añade una latencia considerable sobre el procesamiento de texto.
Privacidad: enviar capturas de pantalla a VLM en la nube plantea preocupaciones reales para el uso empresarial.
Patrones de uso habituales
Captura de pantalla → JSON: combina el VLM con salida estructurada para convertir interfaces en datos estructurados.
Sustituto de OCR: prescinde de Tesseract / Google Vision y pregunta directamente a un VLM. A menudo es más rápido y preciso.
RAG basado en imágenes: indexa fragmentos visuales junto al texto para documentos con gráficos o diagramas.
Agentes de uso de computadora: el VLM observa la pantalla, decide la siguiente acción y llama a una herramienta para hacer clic o escribir.
Evaluaciones visuales: usa un VLM para juzgar si una interfaz generada se ve correcta.
Errores comunes
Usar un VLM cuando no hace falta: para documentos estructurados conocidos, el OCR clásico y un analizador suelen ser más baratos y fiables.
Alta resolución sin pensar: enviar capturas de pantalla en 4K cuando bastaría con 1024 px desperdicia tokens.
Confiar en los conteos del VLM: verifica siempre las tareas de conteo con una comprobación determinista.
Ignorar la privacidad: las capturas de pantalla de clientes enviadas a VLM en la nube pueden incluir datos personales.
Omitir las evaluaciones: las salidas visuales necesitan su propia estrategia de evaluación. Las evaluaciones solo de texto pasan por alto los modos de fallo específicos de la visión.
Sources: