GEO

多模态搜索

多模态搜索允许用户在一次交互中组合多种输入类型,包括文本、图像、语音和视频。用户不必只敲入关键词,而可以一边把摄像头对准某件商品,一边问"附近哪里能买到这个?"

多模态搜索允许用户在一次交互中组合多种输入类型,包括文本、图像、语音和视频。用户不必只敲入关键词,而可以一边把摄像头对准某件商品,一边问"附近哪里能买到这个?"

为什么重要

2026 年 3 月,Google 在全球 200 多个国家推出了 Search Live,由 Gemini 3.1 Flash Live 模型驱动。借助智能手机摄像头和语音的实时多模态搜索如今已成为主流。27% 的移动用户已经在用语音搜索,而 Google Lens 每月处理超过 120 亿次视觉查询。实施了多模态优化的网站报告称,与纯文本方法相比,其搜索可见性高出 30% 至 50%。仅依赖基于关键词的 SEO,就意味着错失来自图像、语音和视频驱动的发现流量。

多模态查询的类型

类型示例
文本 + 图像上传一张商品照片并问"有更便宜的替代品吗?"
语音 + 摄像头对准一根破损的管道并问"这个零件叫什么?"
语音 + 位置"附近哪里能买到这双鞋?"
文档 + 语音上传一份 PDF 并问"总结一下第 3 页"
视频 + 文本分享一段片段并问"这个场景是在哪里拍的?"

优化策略

图像优化

  • 使用描述性文件名(例如 red-leather-ergonomic-chair.webp
  • 在 125 个字符以内撰写具体的 alt 文本
  • 压缩为 WebP,节省 25% 至 35% 的体积
  • 把关键图像放在首屏;分辨率至少 1200×1200 像素

语音搜索

  • 瞄准口语化的长尾关键词(6 至 10 个词)
  • 用 40 至 60 词的答案为精选摘要做优化
  • 实现 FAQ schema 标记

视频 SEO

  • 在描述中加入详细的文字稿(200 词以上)
  • 添加 VideoObject JSON-LD schema
  • 使用视频站点地图以加快索引

结构化数据

  • 应用 Article、FAQ、HowTo、Product 和 VideoObject 等 schema
  • sameAs 属性映射实体关系
  • 让 schema 与内容变更保持同步

它如何改变传统 SEO

方面基于文本的 SEO多模态 SEO
关键信号关键词密度、外链语义深度、媒介多样性、结构化数据
内容格式主要是文本文本 + 图像 + 视频 + 信息图
成功指标CTR、关键词排名AI 引用率、富摘要、语音答案选取
schema 标记可选必需

Sources: