GEO

マルチモーダル検索

マルチモーダル検索では、ユーザーが複数の入力タイプ(テキスト、画像、音声、動画)を1回のやり取りで組み合わせられます。キーワードだけを入力する代わりに、ユーザーは製品にカメラを向けながら「これを近くで買えるところは?」と尋ねることができます。

マルチモーダル検索では、ユーザーが複数の入力タイプ(テキスト、画像、音声、動画)を1回のやり取りで組み合わせられます。キーワードだけを入力する代わりに、ユーザーは製品にカメラを向けながら「これを近くで買えるところは?」と尋ねることができます。

なぜ重要なのか

2026年3月、GoogleはGemini 3.1 Flash Liveモデルを搭載したSearch Liveを200か国以上でグローバルに提供開始しました。スマートフォンのカメラと音声を使ったリアルタイムのマルチモーダル検索は、今や主流になっています。モバイルユーザーの27%がすでに音声で検索しており、Google Lensは月間120億件を超える視覚クエリを処理しています。マルチモーダル最適化を実装したサイトは、テキストのみのアプローチと比較して検索可視性が30〜50%高いと報告しています。キーワードベースのSEOだけに頼ることは、画像、音声、動画主導の発見からのトラフィックを逃すことを意味します。

マルチモーダルクエリの種類

種類
テキスト+画像製品の写真をアップロードして「もっと安い代替品はある?」と尋ねる
音声+カメラ壊れたパイプを指して「この部品は何という名前?」と尋ねる
音声+位置情報「この靴を近くで買えるところは?」
文書+音声PDFをアップロードして「3ページ目を要約して」と尋ねる
動画+テキストクリップを共有して「このシーンはどこで撮影されたもの?」と尋ねる

最適化戦略

画像の最適化

  • 説明的なファイル名を使う(例: red-leather-ergonomic-chair.webp
  • 125文字以内で具体的な代替テキストを書く
  • WebPに圧縮して25〜35%のサイズ削減を図る
  • 主要な画像はファーストビューに配置する。解像度は最低1200×1200px

音声検索

  • 会話調のロングテールキーワード(6〜10語)を狙う
  • 40〜60語の回答でフィーチャードスニペット向けに最適化する
  • FAQスキーママークアップを実装する

動画SEO

  • 詳細な書き起こし(説明欄に200語以上)を含める
  • VideoObjectのJSON-LDスキーマを追加する
  • より高速なインデックス登録のために動画サイトマップを使う

構造化データ

  • Article、FAQ、HowTo、Product、VideoObjectのスキーマを適用する
  • sameAsプロパティでエンティティの関係をマッピングする
  • スキーマをコンテンツの変更と同期させ続ける

従来のSEOをどう変えるのか

観点テキストベースのSEOマルチモーダルSEO
主要なシグナルキーワード密度、被リンク意味的な深さ、メディアの多様性、構造化データ
コンテンツ形式主にテキストテキスト+画像+動画+インフォグラフィック
成功指標CTR、キーワード順位AI引用率、リッチスニペット、音声回答での選択
スキーママークアップ任意必須

Sources: