Qu'est-ce qu'un Vision-Language Model (VLM) ? | Glossaire GEO

Un Vision-Language Model (VLM) est un système d'IA multimodal qui prend à la fois des images et du texte en entrée et produit une sortie textuelle, ce qui permet à un seul modèle de lire des captures d'écran, de décrire des photos, de transcrire des documents, de répondre à des questions sur des graphiques et de suivre des instructions combinant « ce que vous voyez » et « ce que vous dites ». GPT-4V, Gemini, Claude 3+, Llama 3.2 Vision et Qwen-VL sont les exemples les plus utilisés en 2026.

Pourquoi c'est important

Avant les VLM, la « vision » et le « langage » étaient deux pistes de machine learning distinctes. Les classifieurs d'images indiquaient ce que contenait une image, les LLM répondaient à des questions textuelles. Les relier exigeait des pipelines fragiles (légender d'abord, puis raisonner). Les VLM fusionnent les deux en une seule passe avant : le modèle « voit » les pixels et « pense » en langage en même temps. Cela débloque des workflows auparavant impossibles ou extrêmement peu pratiques : débogage par capture d'écran, OCR et compréhension de documents, automatisation d'écran, navigation accessible dans l'interface, recherche par image et modération visuelle de contenu. Pour les développeurs, les VLM remplacent des dizaines d'API de vision à usage unique par une seule capacité générale.

Comment fonctionnent les VLM (version simplifiée)

1. Encodeur d'image : un modèle de vision (souvent un Vision Transformer / ViT ou un encodeur de type CLIP) convertit l'image en une séquence d'embeddings de patchs, généralement de quelques centaines à quelques milliers de « tokens visuels ».

2. Couche de projection : une petite couche apprise fait correspondre les tokens visuels au même espace d'embedding que les tokens de texte, afin que le LLM puisse les traiter.

3. Modèle de langage : un LLM standard consomme les tokens visuels suivis des tokens de texte et génère une réponse textuelle. Du point de vue du LLM, l'image n'est qu'un préfixe spécial de tokens.

4. Entraînement de bout en bout : l'ensemble du système est entraîné conjointement sur des paires (image, texte), jeux de données image-légende, données de suivi d'instructions avec images, données OCR, QA sur graphiques, etc.

Ce que les VLM savent faire

OCR et compréhension : lire un reçu photographié et extraire les lignes en JSON.

QA sur graphiques et diagrammes : « Quel était le chiffre d'affaires du T3 ? » répondu à partir d'une capture d'écran de diapositive.

Compréhension de documents : lire un PDF et répondre à des questions sans étape OCR séparée.

Compréhension d'écran : prendre une capture d'écran d'une application et décrire ce qui s'y trouve, le fondement des agents « computer use » comme celui de Claude.

Débogage visuel : coller une capture d'écran d'une erreur et demander « qu'est-ce qui ne va pas ? »

Rédaction ancrée dans l'image : générer des légendes, du texte alternatif, des publications sociales ou des descriptions de produits à partir d'une photo.

Accessibilité : décrire des images pour les personnes malvoyantes.

Raisonnement visuel : « Combien de personnes portent un t-shirt rouge ? » « Quel graphique montre la croissance la plus forte ? »

OCR multilingue : lire du texte en coréen, japonais ou arabe dans des images avec lesquelles l'OCR classique peine.

VLM notables

GPT-4V / GPT-4o / GPT-5 vision (OpenAI) : le premier grand VLM propriétaire à grande échelle, qui a établi le format.

Gemini 1.5 / 2.0 / 3.0 (Google) : performant sur les entrées multimodales à long contexte, capable d'ingérer des heures de vidéo.

Claude 3+ / Claude 4 vision (Anthropic) : performant sur la compréhension de documents et de graphiques, alimente le computer use de Claude.

Llama 3.2 Vision (Meta) : le premier grand VLM à poids ouverts, s'exécute localement pour de nombreux cas d'usage.

Qwen2-VL / Qwen3-VL (Alibaba) : VLM multilingue performant, en particulier sur les documents chinois et coréens.

Pixtral (Mistral) : VLM européen open source.

Molmo (AI2) : VLM ouvert doté d'une capacité de pointage ancré.

Limites

Limites de résolution : la plupart des VLM sous-échantillonnent les images. Le texte minuscule ou les détails fins se perdent.

Comptage et raisonnement spatial : encore étonnamment faibles. « Combien de voitures sur cette image ? » se trompe souvent de 1 à 2.

Détails hallucinés : les VLM inventent parfois des objets ou du texte absents de l'image, surtout lorsque le prompt les suggère.

Coût : les tokens visuels coûtent plus cher que les tokens de texte, une seule image haute résolution peut équivaloir à des milliers de tokens de texte.

Latence : l'entrée d'image ajoute une latence importante par-dessus le traitement du texte.

Confidentialité : envoyer des captures d'écran à des VLM dans le cloud soulève de réelles préoccupations pour un usage en entreprise.

Schémas d'usage courants

Capture d'écran vers JSON : combinez un VLM avec une sortie structurée pour transformer des interfaces en données structurées.

Remplacement de l'OCR : laissez de côté Tesseract / Google Vision et interrogez directement un VLM. Souvent plus rapide et plus précis.

RAG ancré dans l'image : indexez des fragments visuels aux côtés du texte pour les documents comportant des graphiques ou des diagrammes.

Agents computer use : le VLM observe l'écran, décide de l'action suivante, invoque un outil pour cliquer ou taper.

Évaluations visuelles : utilisez un VLM pour juger si une interface générée a la bonne apparence.

Erreurs courantes

Utiliser un VLM quand ce n'est pas nécessaire : pour des documents structurés connus, un OCR classique + un parseur est souvent moins cher et plus fiable.

La haute résolution sans réflexion : envoyer des captures d'écran en 4K quand 1024 px suffiraient gaspille des tokens.

Faire confiance aux comptages du VLM : vérifiez toujours les tâches de comptage par un contrôle déterministe.

Ignorer la confidentialité : les captures d'écran de clients envoyées à des VLM dans le cloud peuvent contenir des données personnelles.

Sauter les évaluations : les sorties visuelles exigent leur propre stratégie d'évaluation. Les évaluations purement textuelles passent à côté des modes de défaillance propres à la vision.

Sources: