GEO

Búsqueda multimodal

La búsqueda multimodal permite a los usuarios combinar varios tipos de entrada (texto, imágenes, voz y video) en una sola interacción. En lugar de escribir solo palabras clave, los usuarios pueden apuntar la cámara hacia un producto mientras preguntan "¿Dónde puedo comprar esto cerca?".

La búsqueda multimodal permite a los usuarios combinar varios tipos de entrada (texto, imágenes, voz y video) en una sola interacción. En lugar de escribir solo palabras clave, los usuarios pueden apuntar la cámara hacia un producto mientras preguntan "¿Dónde puedo comprar esto cerca?".

Por qué es importante

En marzo de 2026, Google lanzó Search Live a nivel mundial en más de 200 países, impulsado por el modelo Gemini 3.1 Flash Live. La búsqueda multimodal en tiempo real con las cámaras de los smartphones y la voz ya es algo generalizado. El 27% de los usuarios móviles ya busca por voz, y Google Lens procesa más de 12.000 millones de consultas visuales al mes. Los sitios que implementan optimización multimodal informan de una visibilidad de búsqueda entre un 30% y un 50% mayor en comparación con los enfoques de solo texto. Depender únicamente del SEO basado en palabras clave significa perder tráfico del descubrimiento impulsado por imágenes, voz y video.

Tipos de consultas multimodales

TipoEjemplo
Texto + ImagenSube la foto de un producto y pregunta "¿Hay alternativas más baratas?"
Voz + CámaraApunta a una tubería rota y pregunta "¿Cómo se llama esta pieza?"
Voz + Ubicación"¿Dónde puedo comprar estos zapatos cerca?"
Documento + VozSube un PDF y pregunta "Resume la página 3"
Video + TextoComparte un clip y pregunta "¿Dónde se filmó esta escena?"

Estrategias de optimización

Optimización de imágenes

  • Usa nombres de archivo descriptivos (p. ej., red-leather-ergonomic-chair.webp)
  • Escribe un texto alternativo específico de hasta 125 caracteres
  • Comprime a WebP para ahorrar entre un 25% y un 35% de tamaño
  • Coloca las imágenes clave por encima del pliegue; resolución mínima de 1200×1200 px

Búsqueda por voz

  • Apunta a palabras clave de cola larga conversacionales (de 6 a 10 palabras)
  • Optimiza para los fragmentos destacados con respuestas de 40 a 60 palabras
  • Implementa el marcado de esquema de FAQ

SEO de video

  • Incluye transcripciones detalladas (más de 200 palabras en las descripciones)
  • Añade el esquema VideoObject en JSON-LD
  • Usa sitemaps de video para una indexación más rápida

Datos estructurados

  • Aplica los esquemas Article, FAQ, HowTo, Product y VideoObject
  • Mapea las relaciones entre entidades con las propiedades sameAs
  • Mantén el esquema sincronizado con los cambios de contenido

Cómo cambia el SEO tradicional

AspectoSEO basado en textoSEO multimodal
Señales claveDensidad de palabras clave, backlinksProfundidad semántica, diversidad de medios, datos estructurados
Formato de contenidoPrincipalmente textoTexto + imágenes + video + infografías
Métricas de éxitoCTR, posiciones de palabras claveTasa de citación por IA, fragmentos enriquecidos, selección de respuestas por voz
Marcado de esquemaOpcionalObligatorio

Sources: