Was ist ein Vision-Language Model (VLM)? | GEO-Glossar

Ein Vision-Language Model (VLM) ist ein multimodales KI-System, das sowohl Bilder als auch Text als Eingabe entgegennimmt und Text als Ausgabe erzeugt. Ein einziges Modell kann so Screenshots lesen, Fotos beschreiben, Dokumente transkribieren, Fragen zu Diagrammen beantworten und Anweisungen befolgen, die "was Sie sehen" mit "was Sie sagen" verbinden. GPT-4V, Gemini, Claude 3+, Llama 3.2 Vision und Qwen-VL sind die im Jahr 2026 am weitesten verbreiteten Beispiele.

Warum es wichtig ist

Vor den VLMs waren "Vision" und "Language" getrennte ML-Bereiche. Bildklassifikatoren sagten Ihnen, was auf einem Bild zu sehen war; LLMs beantworteten Textfragen. Beides zu verbinden erforderte fragile Pipelines (erst beschriften, dann schlussfolgern). VLMs führen beides in einem einzigen Vorwärtsdurchlauf zusammen, das Modell "sieht" Pixel und "denkt" zugleich in Sprache. Das erschließt Arbeitsabläufe, die zuvor unmöglich oder völlig unpraktikabel waren: Screenshot-Debugging, Dokument-OCR plus Verständnis, Bildschirmautomatisierung, barrierefreie UI-Navigation, bildbasierte Suche und visuelle Inhaltsmoderation. Für Entwickler ersetzen VLMs Dutzende von Spezial-Vision-APIs durch eine einzige allgemeine Fähigkeit.

Wie VLMs funktionieren (vereinfacht)

1. Bild-Encoder: Ein Vision-Modell (häufig ein Vision Transformer / ViT oder ein Encoder im CLIP-Stil) wandelt das Bild in eine Sequenz von Patch-Embeddings um, typischerweise einige Hundert bis einige Tausend "visuelle Token".

2. Projektionsschicht: Eine kleine gelernte Schicht bildet die visuellen Token in denselben Embedding-Raum ab wie die Text-Token, damit das LLM sie verarbeiten kann.

3. Sprachmodell: Ein Standard-LLM verarbeitet die visuellen Token gefolgt von Text-Token und erzeugt eine Textantwort. Aus Sicht des LLM ist das Bild lediglich ein spezielles Präfix aus Token.

4. End-to-End-Training: Das gesamte System wird gemeinsam auf (Bild, Text)-Paaren trainiert, also auf Bild-Beschriftungs-Datensätzen, anweisungsbefolgenden Daten mit Bildern, OCR-Daten, Diagramm-QA und Weiterem.

Was VLMs leisten können

OCR plus Verständnis: Eine fotografierte Quittung lesen und die Posten als JSON extrahieren.

Diagramm- und Grafik-QA: "Wie hoch war der Umsatz im dritten Quartal?", beantwortet anhand eines Screenshots einer Folie.

Dokumentverständnis: Ein PDF lesen und Fragen dazu beantworten, ohne einen separaten OCR-Schritt.

Bildschirmverständnis: Einen Screenshot einer App aufnehmen und beschreiben, was auf dem Bildschirm zu sehen ist, die Grundlage von "Computer Use"-Agenten wie dem von Claude.

Visuelles Debugging: Einen Screenshot eines Fehlers einfügen und fragen "Was ist falsch?".

Bildgestütztes Schreiben: Bildunterschriften, Alt-Text, Social-Media-Beiträge oder Produktbeschreibungen aus einem Foto erzeugen.

Barrierefreiheit: Bilder für sehbehinderte Nutzer beschreiben.

Visuelles Schlussfolgern: "Wie viele Personen tragen rote Hemden?" "Welche Grafik zeigt stärkeres Wachstum?"

Mehrsprachige OCR: Koreanischen, japanischen, arabischen Text in Bildern lesen, mit denen klassische OCR kämpft.

Bemerkenswerte VLMs

GPT-4V / GPT-4o / GPT-5 vision (OpenAI): Das erste große closed-source VLM im großen Maßstab; es etablierte das Format.

Gemini 1.5 / 2.0 / 3.0 (Google): Stark bei multimodalen Eingaben mit langem Kontext; kann stundenlanges Video verarbeiten.

Claude 3+ / Claude 4 vision (Anthropic): Stark beim Dokument- und Diagrammverständnis; treibt Claudes Computer Use an.

Llama 3.2 Vision (Meta): Das erste große VLM mit offenen Gewichten; läuft für viele Anwendungsfälle lokal.

Qwen2-VL / Qwen3-VL (Alibaba): Starkes mehrsprachiges VLM, besonders bei chinesischen und koreanischen Dokumenten.

Pixtral (Mistral): Open-Source-VLM aus Europa.

Molmo (AI2): Offenes VLM mit fundierter Zeigefähigkeit.

Grenzen

Auflösungsgrenzen: Die meisten VLMs reduzieren die Bildauflösung. Winziger Text oder feine Details gehen verloren.

Zählen und räumliches Schlussfolgern: Nach wie vor überraschend schwach. "Wie viele Autos sind auf diesem Bild?" liegt oft um 1 bis 2 daneben.

Halluzinierte Details: VLMs erfinden manchmal Objekte oder Text, die nicht im Bild sind, besonders wenn der Prompt sie nahelegt.

Kosten: Visuelle Token kosten mehr als Text-Token; ein einzelnes hochaufgelöstes Bild kann Tausenden von Text-Token entsprechen.

Latenz: Bildeingaben fügen oberhalb der Textverarbeitung erhebliche Latenz hinzu.

Datenschutz: Das Senden von Screenshots an Cloud-VLMs wirft für den Unternehmenseinsatz echte Bedenken auf.

Gängige Nutzungsmuster

Screenshot → JSON: Kombinieren Sie ein VLM mit Structured Output, um UIs in strukturierte Daten zu verwandeln.

OCR-Ersatz: Überspringen Sie Tesseract / Google Vision und fragen Sie direkt ein VLM. Oft schneller und genauer.

Bildgestütztes RAG: Indexieren Sie visuelle Chunks neben Text für Dokumente mit Diagrammen oder Schaubildern.

Computer-Use-Agenten: Ein VLM beobachtet den Bildschirm, entscheidet über die nächste Aktion und ruft ein Tool zum Klicken/Tippen auf.

Visuelle Evals: Nutzen Sie ein VLM, um zu beurteilen, ob eine generierte UI richtig aussieht.

Häufige Fehler

Ein VLM einsetzen, wo keines nötig ist: Bei bekannten strukturierten Dokumenten sind klassische OCR plus Parser oft günstiger und zuverlässiger.

Hohe Auflösung ohne Überlegung: 4K-Screenshots zu senden, wo 1024 px genügen würden, verschwendet Token.

VLM-Zählungen vertrauen: Überprüfen Sie Zählaufgaben stets mit einer deterministischen Kontrolle.

Datenschutz ignorieren: An Cloud-VLMs gesendete Kunden-Screenshots können personenbezogene Daten enthalten.

Evals überspringen: Visuelle Ausgaben benötigen ihre eigene Bewertungsstrategie. Reine Text-Evals übersehen vision-spezifische Fehlerarten.

Sources: