Multimodal Search(멀티모달 검색)이란? | GEO 용어집

멀티모달 검색(Multimodal Search)은 텍스트, 이미지, 음성, 영상 등 여러 입력 방식을 결합하여 한 번에 검색하는 것을 뜻합니다. 키워드만 입력하는 기존 검색과 달리, 카메라로 제품을 비추면서 "이거 어디서 살 수 있어?"라고 말하는 식의 자연스러운 검색이 가능합니다.

왜 중요한가

2026년 3월 Google은 Gemini 3.1 Flash Live 모델을 기반으로 한 Google Search Live를 전 세계 200여 개국에 출시했습니다. 스마트폰 카메라와 음성을 동시에 활용하는 실시간 멀티모달 검색이 이제 일상이 되었습니다. 모바일 사용자의 27%가 이미 음성 검색을 사용하고, Google Lens는 월 200억 건 이상의 비주얼 쿼리를 처리합니다. 멀티모달 최적화를 도입한 사이트는 텍스트 전용 대비 검색 가시성이 30~50% 향상된다는 보고가 있습니다. 기존 키워드 중심 SEO만으로는 이미지·음성·영상을 통해 유입되는 트래픽을 놓칠 수밖에 없습니다.

멀티모달 쿼리 유형

유형	예시
텍스트 + 이미지	제품 사진을 올리고 "이것보다 저렴한 대안은?"
음성 + 카메라	고장난 배관을 비추며 "이 부품 이름이 뭐야?"
음성 + 위치	"근처에서 이 신발 파는 곳"
문서 + 음성	PDF를 올리고 "3페이지 요약해줘"
영상 + 텍스트	영상 클립과 함께 "이 장면에 나오는 장소는?"

최적화 전략

이미지 최적화

서술적 파일명 사용 (예: red-leather-ergonomic-chair.webp)
alt 텍스트를 125자 이내로 구체적 작성
WebP 포맷으로 25~35% 용량 절감
핵심 이미지는 페이지 상단에 배치, 최소 해상도 1200×1200px

음성 검색 최적화

6~10단어의 대화형 롱테일 키워드 타겟
40~60단어의 간결한 답변으로 추천 스니펫 최적화
FAQ 스키마 마크업 적용

영상 SEO

200자 이상의 상세 트랜스크립트 포함
VideoObject JSON-LD 스키마 구현
비디오 사이트맵으로 색인 속도 향상

구조화된 데이터

Article, FAQ, HowTo, Product, VideoObject 등 복합 스키마 적용
sameAs 속성으로 엔티티 관계 매핑
콘텐츠 변경 시 스키마도 동기 업데이트

기존 SEO와 달라지는 점

구분	텍스트 중심 SEO	멀티모달 SEO
핵심 신호	키워드 밀도, 백링크	시맨틱 깊이, 미디어 다양성, 구조화 데이터
콘텐츠 형식	텍스트 위주	텍스트 + 이미지 + 영상 + 인포그래픽 통합
성과 지표	클릭률, 키워드 순위	AI 인용 빈도, 리치 스니펫, 음성 응답 선정률
스키마 마크업	선택 사항	필수 요소

Sources:

멀티모달 검색 (Multimodal Search)

왜 중요한가

멀티모달 쿼리 유형

최적화 전략

기존 SEO와 달라지는 점

관련 인블로그 게시물