GEO

멀티모달 검색 (Multimodal Search)

멀티모달 검색(Multimodal Search)은 텍스트, 이미지, 음성, 영상 등 여러 입력 방식을 결합하여 한 번에 검색하는 것을 뜻합니다. 키워드만 입력하는 기존 검색과 달리, 카메라로 제품을 비추면서 "이거 어디서 살 수 있어?"라고 말하는 식의 자연스러운 검색이 가능합니다.

멀티모달 검색(Multimodal Search)은 텍스트, 이미지, 음성, 영상 등 여러 입력 방식을 결합하여 한 번에 검색하는 것을 뜻합니다. 키워드만 입력하는 기존 검색과 달리, 카메라로 제품을 비추면서 "이거 어디서 살 수 있어?"라고 말하는 식의 자연스러운 검색이 가능합니다.

왜 중요한가

2026년 3월 Google은 Gemini 3.1 Flash Live 모델을 기반으로 한 Google Search Live를 전 세계 200여 개국에 출시했습니다. 스마트폰 카메라와 음성을 동시에 활용하는 실시간 멀티모달 검색이 이제 일상이 되었습니다. 모바일 사용자의 27%가 이미 음성 검색을 사용하고, Google Lens는 월 120억 건 이상의 비주얼 쿼리를 처리합니다. 멀티모달 최적화를 도입한 사이트는 텍스트 전용 대비 검색 가시성이 30~50% 향상된다는 보고가 있습니다. 기존 키워드 중심 SEO만으로는 이미지·음성·영상을 통해 유입되는 트래픽을 놓칠 수밖에 없습니다.

멀티모달 쿼리 유형

유형예시
텍스트 + 이미지제품 사진을 올리고 "이것보다 저렴한 대안은?"
음성 + 카메라고장난 배관을 비추며 "이 부품 이름이 뭐야?"
음성 + 위치"근처에서 이 신발 파는 곳"
문서 + 음성PDF를 올리고 "3페이지 요약해줘"
영상 + 텍스트영상 클립과 함께 "이 장면에 나오는 장소는?"

최적화 전략

이미지 최적화

  • 서술적 파일명 사용 (예: red-leather-ergonomic-chair.webp)
  • alt 텍스트를 125자 이내로 구체적 작성
  • WebP 포맷으로 25~35% 용량 절감
  • 핵심 이미지는 페이지 상단에 배치, 최소 해상도 1200×1200px

음성 검색 최적화

  • 6~10단어의 대화형 롱테일 키워드 타겟
  • 40~60단어의 간결한 답변으로 추천 스니펫 최적화
  • FAQ 스키마 마크업 적용

영상 SEO

  • 200자 이상의 상세 트랜스크립트 포함
  • VideoObject JSON-LD 스키마 구현
  • 비디오 사이트맵으로 색인 속도 향상

구조화된 데이터

  • Article, FAQ, HowTo, Product, VideoObject 등 복합 스키마 적용
  • sameAs 속성으로 엔티티 관계 매핑
  • 콘텐츠 변경 시 스키마도 동기 업데이트

기존 SEO와 달라지는 점

구분텍스트 중심 SEO멀티모달 SEO
핵심 신호키워드 밀도, 백링크시맨틱 깊이, 미디어 다양성, 구조화 데이터
콘텐츠 형식텍스트 위주텍스트 + 이미지 + 영상 + 인포그래픽 통합
성과 지표클릭률, 키워드 순위AI 인용 빈도, 리치 스니펫, 음성 응답 선정률
스키마 마크업선택 사항필수 요소

Sources:

관련 인블로그 게시물

inblog에서 활용하기

inblog는 이미지 alt 텍스트 자동 제안, JSON-LD 구조화 데이터 생성, 그리고 SEO 메타데이터 관리를 기본 제공합니다. 포스트에 이미지·영상 등 멀티미디어를 적극 활용하고, inblog의 구조화 데이터 기능으로 각 콘텐츠 유형을 정확하게 마크업하면 Google Search Live와 AI 검색에서의 인용 확률을 높일 수 있습니다.