マルチモーダル検索
マルチモーダル検索では、ユーザーが複数の入力タイプ(テキスト、画像、音声、動画)を1回のやり取りで組み合わせられます。キーワードだけを入力する代わりに、ユーザーは製品にカメラを向けながら「これを近くで買えるところは?」と尋ねることができます。
マルチモーダル検索では、ユーザーが複数の入力タイプ(テキスト、画像、音声、動画)を1回のやり取りで組み合わせられます。キーワードだけを入力する代わりに、ユーザーは製品にカメラを向けながら「これを近くで買えるところは?」と尋ねることができます。
なぜ重要なのか
2026年3月、GoogleはGemini 3.1 Flash Liveモデルを搭載したSearch Liveを200か国以上でグローバルに提供開始しました。スマートフォンのカメラと音声を使ったリアルタイムのマルチモーダル検索は、今や主流になっています。モバイルユーザーの27%がすでに音声で検索しており、Google Lensは月間120億件を超える視覚クエリを処理しています。マルチモーダル最適化を実装したサイトは、テキストのみのアプローチと比較して検索可視性が30〜50%高いと報告しています。キーワードベースのSEOだけに頼ることは、画像、音声、動画主導の発見からのトラフィックを逃すことを意味します。
マルチモーダルクエリの種類
| 種類 | 例 |
|---|---|
| テキスト+画像 | 製品の写真をアップロードして「もっと安い代替品はある?」と尋ねる |
| 音声+カメラ | 壊れたパイプを指して「この部品は何という名前?」と尋ねる |
| 音声+位置情報 | 「この靴を近くで買えるところは?」 |
| 文書+音声 | PDFをアップロードして「3ページ目を要約して」と尋ねる |
| 動画+テキスト | クリップを共有して「このシーンはどこで撮影されたもの?」と尋ねる |
最適化戦略
画像の最適化
- 説明的なファイル名を使う(例:
red-leather-ergonomic-chair.webp) - 125文字以内で具体的な代替テキストを書く
- WebPに圧縮して25〜35%のサイズ削減を図る
- 主要な画像はファーストビューに配置する。解像度は最低1200×1200px
音声検索
- 会話調のロングテールキーワード(6〜10語)を狙う
- 40〜60語の回答でフィーチャードスニペット向けに最適化する
- FAQスキーママークアップを実装する
動画SEO
- 詳細な書き起こし(説明欄に200語以上)を含める
- VideoObjectのJSON-LDスキーマを追加する
- より高速なインデックス登録のために動画サイトマップを使う
構造化データ
- Article、FAQ、HowTo、Product、VideoObjectのスキーマを適用する
sameAsプロパティでエンティティの関係をマッピングする- スキーマをコンテンツの変更と同期させ続ける
従来のSEOをどう変えるのか
| 観点 | テキストベースのSEO | マルチモーダルSEO |
|---|---|---|
| 主要なシグナル | キーワード密度、被リンク | 意味的な深さ、メディアの多様性、構造化データ |
| コンテンツ形式 | 主にテキスト | テキスト+画像+動画+インフォグラフィック |
| 成功指標 | CTR、キーワード順位 | AI引用率、リッチスニペット、音声回答での選択 |
| スキーママークアップ | 任意 | 必須 |
Sources: