GEO

Multimodale Suche

Die multimodale Suche ermöglicht es Nutzern, mehrere Eingabearten, also Text, Bilder, Sprache und Video, in einer einzigen Interaktion zu kombinieren. Statt nur Schlüsselwörter einzutippen, können Nutzer ihre Kamera auf ein Produkt richten und dabei fragen "Wo kann ich das in der Nähe kaufen?".

Die multimodale Suche ermöglicht es Nutzern, mehrere Eingabearten, also Text, Bilder, Sprache und Video, in einer einzigen Interaktion zu kombinieren. Statt nur Schlüsselwörter einzutippen, können Nutzer ihre Kamera auf ein Produkt richten und dabei fragen "Wo kann ich das in der Nähe kaufen?".

Warum das wichtig ist

Im März 2026 hat Google Search Live weltweit in über 200 Ländern eingeführt, angetrieben vom Modell Gemini 3.1 Flash Live. Die multimodale Echtzeitsuche per Smartphone-Kamera und Sprache ist nun verbreitet. 27 % der Mobilnutzer suchen bereits per Sprache, und Google Lens verarbeitet über 12 Milliarden visuelle Anfragen pro Monat. Websites, die eine multimodale Optimierung umsetzen, berichten von einer um 30 bis 50 % höheren Suchsichtbarkeit im Vergleich zu rein textbasierten Ansätzen. Sich allein auf schlüsselwortbasiertes SEO zu verlassen, bedeutet, Traffic aus bild-, sprach- und videogetriebener Entdeckung zu verpassen.

Arten multimodaler Anfragen

TypBeispiel
Text + BildEin Produktfoto hochladen und fragen "Gibt es günstigere Alternativen?"
Sprache + KameraAuf ein defektes Rohr zeigen und fragen "Wie heißt dieses Teil?"
Sprache + Standort"Wo kann ich diese Schuhe in der Nähe kaufen?"
Dokument + SpracheEin PDF hochladen und fragen "Fasse Seite 3 zusammen"
Video + TextEinen Clip teilen und fragen "Wo wurde diese Szene gedreht?"

Optimierungsstrategien

Bildoptimierung

  • Verwenden Sie aussagekräftige Dateinamen (z. B. red-leather-ergonomic-chair.webp)
  • Schreiben Sie spezifischen Alt-Text mit höchstens 125 Zeichen
  • Komprimieren Sie zu WebP für 25 bis 35 % Größenersparnis
  • Platzieren Sie zentrale Bilder oberhalb der Faltlinie; mindestens 1200×1200px Auflösung

Sprachsuche

  • Zielen Sie auf gesprächsähnliche Long-Tail-Keywords (6 bis 10 Wörter)
  • Optimieren Sie für Featured Snippets mit Antworten von 40 bis 60 Wörtern
  • Implementieren Sie FAQ-Schema-Markup

Video-SEO

  • Fügen Sie ausführliche Transkripte ein (über 200 Wörter in den Beschreibungen)
  • Ergänzen Sie ein VideoObject-JSON-LD-Schema
  • Nutzen Sie Video-Sitemaps für eine schnellere Indexierung

Strukturierte Daten

  • Wenden Sie Article-, FAQ-, HowTo-, Product- und VideoObject-Schemata an
  • Bilden Sie Entitätsbeziehungen mit sameAs-Eigenschaften ab
  • Halten Sie das Schema mit Inhaltsänderungen synchron

Wie es das klassische SEO verändert

AspektTextbasiertes SEOMultimodales SEO
Zentrale SignaleKeyword-Dichte, BacklinksSemantische Tiefe, Medienvielfalt, strukturierte Daten
InhaltsformatPrimär TextText + Bilder + Video + Infografiken
ErfolgskennzahlenCTR, Keyword-RankingsKI-Zitatrate, Rich Snippets, Auswahl als Sprachantwort
Schema-MarkupOptionalErforderlich

Quellen: