多模态搜索
多模态搜索允许用户在一次交互中组合多种输入类型,包括文本、图像、语音和视频。用户不必只敲入关键词,而可以一边把摄像头对准某件商品,一边问"附近哪里能买到这个?"
多模态搜索允许用户在一次交互中组合多种输入类型,包括文本、图像、语音和视频。用户不必只敲入关键词,而可以一边把摄像头对准某件商品,一边问"附近哪里能买到这个?"
为什么重要
2026 年 3 月,Google 在全球 200 多个国家推出了 Search Live,由 Gemini 3.1 Flash Live 模型驱动。借助智能手机摄像头和语音的实时多模态搜索如今已成为主流。27% 的移动用户已经在用语音搜索,而 Google Lens 每月处理超过 120 亿次视觉查询。实施了多模态优化的网站报告称,与纯文本方法相比,其搜索可见性高出 30% 至 50%。仅依赖基于关键词的 SEO,就意味着错失来自图像、语音和视频驱动的发现流量。
多模态查询的类型
| 类型 | 示例 |
|---|---|
| 文本 + 图像 | 上传一张商品照片并问"有更便宜的替代品吗?" |
| 语音 + 摄像头 | 对准一根破损的管道并问"这个零件叫什么?" |
| 语音 + 位置 | "附近哪里能买到这双鞋?" |
| 文档 + 语音 | 上传一份 PDF 并问"总结一下第 3 页" |
| 视频 + 文本 | 分享一段片段并问"这个场景是在哪里拍的?" |
优化策略
图像优化
- 使用描述性文件名(例如
red-leather-ergonomic-chair.webp) - 在 125 个字符以内撰写具体的 alt 文本
- 压缩为 WebP,节省 25% 至 35% 的体积
- 把关键图像放在首屏;分辨率至少 1200×1200 像素
语音搜索
- 瞄准口语化的长尾关键词(6 至 10 个词)
- 用 40 至 60 词的答案为精选摘要做优化
- 实现 FAQ schema 标记
视频 SEO
- 在描述中加入详细的文字稿(200 词以上)
- 添加 VideoObject JSON-LD schema
- 使用视频站点地图以加快索引
结构化数据
- 应用 Article、FAQ、HowTo、Product 和 VideoObject 等 schema
- 用
sameAs属性映射实体关系 - 让 schema 与内容变更保持同步
它如何改变传统 SEO
| 方面 | 基于文本的 SEO | 多模态 SEO |
|---|---|---|
| 关键信号 | 关键词密度、外链 | 语义深度、媒介多样性、结构化数据 |
| 内容格式 | 主要是文本 | 文本 + 图像 + 视频 + 信息图 |
| 成功指标 | CTR、关键词排名 | AI 引用率、富摘要、语音答案选取 |
| schema 标记 | 可选 | 必需 |
Sources: