什么是多模态搜索？| GEO 术语表

多模态搜索允许用户在一次交互中组合多种输入类型，包括文本、图像、语音和视频。用户不必只敲入关键词，而可以一边把摄像头对准某件商品，一边问"附近哪里能买到这个？"

为什么重要

2026 年 3 月，Google 在全球 200 多个国家推出了 Search Live，由 Gemini 3.1 Flash Live 模型驱动。借助智能手机摄像头和语音的实时多模态搜索如今已成为主流。27% 的移动用户已经在用语音搜索，而 Google Lens 每月处理超过 200 亿次视觉查询。实施了多模态优化的网站报告称，与纯文本方法相比，其搜索可见性高出 30% 至 50%。仅依赖基于关键词的 SEO，就意味着错失来自图像、语音和视频驱动的发现流量。

多模态查询的类型

类型	示例
文本 + 图像	上传一张商品照片并问"有更便宜的替代品吗？"
语音 + 摄像头	对准一根破损的管道并问"这个零件叫什么？"
语音 + 位置	"附近哪里能买到这双鞋？"
文档 + 语音	上传一份 PDF 并问"总结一下第 3 页"
视频 + 文本	分享一段片段并问"这个场景是在哪里拍的？"

优化策略

图像优化

使用描述性文件名（例如 red-leather-ergonomic-chair.webp）
在 125 个字符以内撰写具体的 alt 文本
压缩为 WebP，节省 25% 至 35% 的体积
把关键图像放在首屏；分辨率至少 1200×1200 像素

语音搜索

瞄准口语化的长尾关键词（6 至 10 个词）
用 40 至 60 词的答案为精选摘要做优化
实现 FAQ schema 标记

视频 SEO

在描述中加入详细的文字稿（200 词以上）
添加 VideoObject JSON-LD schema
使用视频站点地图以加快索引

结构化数据

应用 Article、FAQ、HowTo、Product 和 VideoObject 等 schema
用 sameAs 属性映射实体关系
让 schema 与内容变更保持同步

它如何改变传统 SEO

方面	基于文本的 SEO	多模态 SEO
关键信号	关键词密度、外链	语义深度、媒介多样性、结构化数据
内容格式	主要是文本	文本 + 图像 + 视频 + 信息图
成功指标	CTR、关键词排名	AI 引用率、富摘要、语音答案选取
schema 标记	可选	必需

Sources: