SEO

인덱서빌리티

인덱서빌리티(Indexability)는 검색엔진이 크롤링한 페이지를 분석하여 인덱스(색인 데이터베이스)에 저장하고 검색 결과에 노출할 수 있는 상태를 뜻합니다. 크롤러빌리티가 "검색엔진이 이 페이지에 접근할 수 있는가"를 묻는다면, 인덱서빌리티는 "접근한 페이지가 색인될 자격이 있는가"를 묻는 개념입니다.

인덱서빌리티(Indexability)는 검색엔진이 크롤링한 페이지를 분석하여 인덱스(색인 데이터베이스)에 저장하고 검색 결과에 노출할 수 있는 상태를 뜻합니다. 크롤러빌리티가 "검색엔진이 이 페이지에 접근할 수 있는가"를 묻는다면, 인덱서빌리티는 "접근한 페이지가 색인될 자격이 있는가"를 묻는 개념입니다.

왜 중요한가

크롤링되었다고 해서 색인이 보장되는 것은 아닙니다. Google 공식 문서도 "색인 생성은 보장되지 않으며, Google이 처리하는 모든 페이지가 색인되는 것은 아니다"라고 명시합니다. 색인되지 않은 페이지는 아무리 콘텐츠가 좋아도 검색 결과에 나타날 수 없으므로, 인덱서빌리티는 검색 노출과 랭킹의 필요조건입니다.

특히 사이트 규모가 커질수록 "크롤링됨 - 현재 색인되지 않음" 상태로 방치되는 페이지가 늘어나기 쉽습니다. 크롤러빌리티 문제는 봇의 접근 자체가 막히므로 비교적 발견하기 쉬운 반면, 인덱서빌리티 문제는 페이지가 정상적으로 열리는데도 검색에서만 보이지 않기 때문에 모르고 지나치는 경우가 많습니다.

크롤러빌리티와의 차이

구분크롤러빌리티인덱서빌리티
질문검색엔진이 페이지에 접근해 읽을 수 있는가?읽은 페이지를 인덱스에 저장하고 노출할 수 있는가?
차단 요인robots.txt 차단, 서버 오류, 깨진 링크noindex, 캐노니컬, 4xx·5xx 상태 코드, 저품질 콘텐츠
관계선행 조건크롤링 성공 후 평가됨

두 개념은 순차 관계입니다. 크롤링되지 않은 페이지는 색인 평가 대상조차 되지 못하고, 크롤링에 성공한 페이지만 인덱서빌리티 단계로 넘어갑니다.

인덱서빌리티를 결정하는 요소

  1. noindex 디렉티브: 페이지에 noindex 메타 태그나 X-Robots-Tag 헤더가 있으면 검색엔진은 해당 페이지를 색인에서 제외합니다.
  2. 캐노니컬 신호: 캐노니컬 URL이 다른 페이지를 가리키면 해당 페이지는 "대체 페이지"로 분류되어 색인 대상에서 빠집니다. Google은 유사한 페이지를 묶어 클러스터마다 대표 한 페이지만 색인합니다.
  3. HTTP 상태 코드: 200 응답을 반환하는 페이지만 색인될 수 있습니다. 404·410·5xx 오류, 소프트 404, 리디렉션되는 URL은 색인에서 제외됩니다.
  4. robots.txt와의 관계: robots.txt 차단은 크롤링을 막을 뿐 색인을 직접 막지 못합니다. 오히려 차단된 페이지는 noindex 태그를 읽을 수 없게 되어, 외부 링크만으로 URL이 색인되는 부작용이 생길 수 있습니다.
  5. 콘텐츠 품질: 기술적으로 색인 가능한 페이지라도 콘텐츠가 얇거나 중복이면 Google이 색인하지 않을 수 있습니다. "크롤링됨 - 현재 색인되지 않음"의 흔한 원인입니다.

점검 방법

Google Search Console의 페이지 색인 생성(Page Indexing) 보고서를 보면 색인되지 않은 페이지가 사유별로 분류됩니다. "noindex 태그로 인해 제외됨", "적절한 표준 태그가 포함된 대체 페이지", "크롤링됨 - 현재 색인되지 않음" 등 사유에 따라 의도된 제외인지 문제인지 판단할 수 있습니다. 개별 URL은 URL 검사 도구로 색인 상태와 Google이 선택한 캐노니컬을 확인합니다.

Sources:

inblog에서 활용하기

inblog는 발행된 포스트가 색인 자격을 갖추도록 기본기를 자동 처리합니다. 정상 200 응답, 포스트별 canonical 태그, 사이트맵 자동 생성이 기본 제공되며, 색인에서 빼고 싶은 포스트는 noindex 설정으로 제외할 수 있습니다. 발행 후에는 Search Console의 페이지 색인 보고서에서 실제 색인 여부를 주기적으로 확인하는 습관을 권합니다.