マルチモーダル検索とは？ | GEO用語集

マルチモーダル検索では、ユーザーが複数の入力タイプ（テキスト、画像、音声、動画）を1回のやり取りで組み合わせられます。キーワードだけを入力する代わりに、ユーザーは製品にカメラを向けながら「これを近くで買えるところは？」と尋ねることができます。

なぜ重要なのか

2026年3月、GoogleはGemini 3.1 Flash Liveモデルを搭載したSearch Liveを200か国以上でグローバルに提供開始しました。スマートフォンのカメラと音声を使ったリアルタイムのマルチモーダル検索は、今や主流になっています。モバイルユーザーの27%がすでに音声で検索しており、Google Lensは月間200億件を超える視覚クエリを処理しています。マルチモーダル最適化を実装したサイトは、テキストのみのアプローチと比較して検索可視性が30〜50%高いと報告しています。キーワードベースのSEOだけに頼ることは、画像、音声、動画主導の発見からのトラフィックを逃すことを意味します。

マルチモーダルクエリの種類

種類	例
テキスト+画像	製品の写真をアップロードして「もっと安い代替品はある？」と尋ねる
音声+カメラ	壊れたパイプを指して「この部品は何という名前？」と尋ねる
音声+位置情報	「この靴を近くで買えるところは？」
文書+音声	PDFをアップロードして「3ページ目を要約して」と尋ねる
動画+テキスト	クリップを共有して「このシーンはどこで撮影されたもの？」と尋ねる

最適化戦略

画像の最適化

説明的なファイル名を使う（例: red-leather-ergonomic-chair.webp）
125文字以内で具体的な代替テキストを書く
WebPに圧縮して25〜35%のサイズ削減を図る
主要な画像はファーストビューに配置する。解像度は最低1200×1200px

音声検索

会話調のロングテールキーワード（6〜10語）を狙う
40〜60語の回答でフィーチャードスニペット向けに最適化する
FAQスキーママークアップを実装する

動画SEO

詳細な書き起こし（説明欄に200語以上）を含める
VideoObjectのJSON-LDスキーマを追加する
より高速なインデックス登録のために動画サイトマップを使う

構造化データ

Article、FAQ、HowTo、Product、VideoObjectのスキーマを適用する
sameAsプロパティでエンティティの関係をマッピングする
スキーマをコンテンツの変更と同期させ続ける

従来のSEOをどう変えるのか

観点	テキストベースのSEO	マルチモーダルSEO
主要なシグナル	キーワード密度、被リンク	意味的な深さ、メディアの多様性、構造化データ
コンテンツ形式	主にテキスト	テキスト+画像+動画+インフォグラフィック
成功指標	CTR、キーワード順位	AI引用率、リッチスニペット、音声回答での選択
スキーママークアップ	任意	必須

Sources: