Búsqueda multimodal
La búsqueda multimodal permite a los usuarios combinar varios tipos de entrada (texto, imágenes, voz y video) en una sola interacción. En lugar de escribir solo palabras clave, los usuarios pueden apuntar la cámara hacia un producto mientras preguntan "¿Dónde puedo comprar esto cerca?".
La búsqueda multimodal permite a los usuarios combinar varios tipos de entrada (texto, imágenes, voz y video) en una sola interacción. En lugar de escribir solo palabras clave, los usuarios pueden apuntar la cámara hacia un producto mientras preguntan "¿Dónde puedo comprar esto cerca?".
Por qué es importante
En marzo de 2026, Google lanzó Search Live a nivel mundial en más de 200 países, impulsado por el modelo Gemini 3.1 Flash Live. La búsqueda multimodal en tiempo real con las cámaras de los smartphones y la voz ya es algo generalizado. El 27% de los usuarios móviles ya busca por voz, y Google Lens procesa más de 12.000 millones de consultas visuales al mes. Los sitios que implementan optimización multimodal informan de una visibilidad de búsqueda entre un 30% y un 50% mayor en comparación con los enfoques de solo texto. Depender únicamente del SEO basado en palabras clave significa perder tráfico del descubrimiento impulsado por imágenes, voz y video.
Tipos de consultas multimodales
| Tipo | Ejemplo |
|---|---|
| Texto + Imagen | Sube la foto de un producto y pregunta "¿Hay alternativas más baratas?" |
| Voz + Cámara | Apunta a una tubería rota y pregunta "¿Cómo se llama esta pieza?" |
| Voz + Ubicación | "¿Dónde puedo comprar estos zapatos cerca?" |
| Documento + Voz | Sube un PDF y pregunta "Resume la página 3" |
| Video + Texto | Comparte un clip y pregunta "¿Dónde se filmó esta escena?" |
Estrategias de optimización
Optimización de imágenes
- Usa nombres de archivo descriptivos (p. ej.,
red-leather-ergonomic-chair.webp) - Escribe un texto alternativo específico de hasta 125 caracteres
- Comprime a WebP para ahorrar entre un 25% y un 35% de tamaño
- Coloca las imágenes clave por encima del pliegue; resolución mínima de 1200×1200 px
Búsqueda por voz
- Apunta a palabras clave de cola larga conversacionales (de 6 a 10 palabras)
- Optimiza para los fragmentos destacados con respuestas de 40 a 60 palabras
- Implementa el marcado de esquema de FAQ
SEO de video
- Incluye transcripciones detalladas (más de 200 palabras en las descripciones)
- Añade el esquema VideoObject en JSON-LD
- Usa sitemaps de video para una indexación más rápida
Datos estructurados
- Aplica los esquemas Article, FAQ, HowTo, Product y VideoObject
- Mapea las relaciones entre entidades con las propiedades
sameAs - Mantén el esquema sincronizado con los cambios de contenido
Cómo cambia el SEO tradicional
| Aspecto | SEO basado en texto | SEO multimodal |
|---|---|---|
| Señales clave | Densidad de palabras clave, backlinks | Profundidad semántica, diversidad de medios, datos estructurados |
| Formato de contenido | Principalmente texto | Texto + imágenes + video + infografías |
| Métricas de éxito | CTR, posiciones de palabras clave | Tasa de citación por IA, fragmentos enriquecidos, selección de respuestas por voz |
| Marcado de esquema | Opcional | Obligatorio |
Sources: