SEO

인덱스 블로트

인덱스 블로트(Index Bloat)는 저품질·중복·가치 없는 페이지가 구글 검색 인덱스에 과도하게 등록되어, 사이트 전체의 품질 평가를 끌어내리는 상태를 말합니다. 블로그·이커머스·엔터프라이즈 사이트에서 URL이 의도치 않게 수천·수만 개로 증식하면서 발생하며, 기술 SEO의 가장 은밀한 랭킹 저해 요인 중 하나입니다.

인덱스 블로트(Index Bloat)는 저품질·중복·가치 없는 페이지가 구글 검색 인덱스에 과도하게 등록되어, 사이트 전체의 품질 평가를 끌어내리는 상태를 말합니다. 블로그·이커머스·엔터프라이즈 사이트에서 URL이 의도치 않게 수천·수만 개로 증식하면서 발생하며, 기술 SEO의 가장 은밀한 랭킹 저해 요인 중 하나입니다.

왜 중요한가

구글은 사이트 전체의 평균 품질을 랭킹 신호로 사용합니다. 100편의 좋은 포스트와 5,000개의 의미 없는 URL이 함께 인덱싱되면, 구글 관점에서 '이 사이트의 평균 품질은 낮다'가 되어 핵심 포스트까지 랭킹이 하락합니다. 2024년 Helpful Content Update 이후 이 효과는 더욱 뚜렷해졌습니다. 또한 크롤 예산이 가치 없는 URL에 낭비되어 새 포스트의 크롤링·인덱싱이 지연되는 부작용도 큽니다.

인덱스 블로트의 일반적 원인

필터·정렬 파라미터: ?sort=price_asc, ?color=red&size=m처럼 패싯 내비게이션이 만들어낸 수많은 URL 조합이 전부 인덱싱되는 경우.

내부 검색 결과 페이지: /search?q=keyword 형태의 내부 검색 결과가 구글에 노출된 경우. 구글은 공식적으로 내부 검색 결과를 인덱싱하지 말라고 권고합니다.

태그·카테고리 과잉: 태그 하나당 2~3개 포스트만 있는 얕은 태그 페이지가 수백 개 생성되는 경우.

페이지네이션 중복: /blog?page=2, /blog?page=3이 독립 인덱싱되면서 얇은 콘텐츠 목록이 쌓이는 경우.

UTM·트래킹 파라미터: ?utm_source=...가 붙은 URL이 별도 페이지로 인식되는 경우.

자동 생성 페이지: 사용자·제품·지역별로 템플릿 기반 페이지가 대량 생성되어 고유성이 낮은 경우.

이전 도메인 구조 잔재: 사이트 리뉴얼 이후 구 URL이 301 리다이렉트 없이 남아 있는 경우.

개발·스테이징 URL 노출: staging.이나 dev. 하위 도메인이 noindex 없이 공개된 경우.

진단 방법

Search Console Coverage 리포트: '인덱싱됨' 수와 실제 핵심 페이지 수의 차이를 본다. 10배 이상 차이 나면 블로트 의심.

site:도메인 검색: site:example.com으로 실제 인덱싱된 URL의 개수와 유형을 샘플링합니다.

Screaming Frog 크롤: 자사 사이트를 크롤링해 실제 존재하는 URL 수를 파악하고 인덱스 수와 비교합니다.

Log File Analysis: 구글봇 로그에서 크롤 예산이 어떤 URL 패턴에 낭비되는지 분석합니다.

해결 방법

noindex 적용: 인덱싱이 불필요한 페이지(검색 결과, 얕은 태그, 페이지네이션 후반부)에 <meta name="robots" content="noindex">를 추가합니다. 중요 — noindex가 작동하려면 robots.txt에서 크롤을 허용해야 합니다.

Canonical 통합: 파라미터 URL의 canonical을 대표 URL로 지정해 중복을 정리합니다.

robots.txt Disallow: 반복 패턴(예: ?sort=, ?utm=)은 robots.txt로 크롤링 자체를 차단합니다.

301 리다이렉트: 더 이상 의미 없는 페이지는 관련 있는 상위 페이지로 301 리다이렉트합니다.

Content Pruning: 가치 없는 포스트를 삭제·병합합니다. 콘텐츠 감사 결과의 'Delete' 라벨을 실행합니다.

파라미터 정규화: 서버 레벨에서 파라미터 순서를 통일하고 대소문자를 소문자로 강제해 중복 URL 생성을 원천 차단합니다.

실행 시 주의사항

점진적 접근: 한 번에 수천 개의 페이지를 deindex하면 구글이 사이트 구조 변화로 인식해 전체 권한이 흔들릴 수 있습니다. 카테고리별·월별로 나눠 진행합니다.

Search Console 재크롤 요청: 주요 변경 사항은 URL Inspection으로 재크롤을 요청해 반영을 가속화합니다.

백링크 확인: 삭제하려는 페이지에 외부 백링크가 걸려 있다면 301 리다이렉트로 권한을 보존합니다.

Sources:

관련 인블로그 게시물

inblog에서 활용하기

inblog는 블로그 포스트 외의 파생 URL(카테고리, 태그, 페이지네이션)에 대해 적절한 canonical과 noindex 정책을 기본 적용하므로 블로그 운영자가 인덱스 블로트를 직접 관리하지 않아도 됩니다. 포스트가 수백 편으로 늘어나도 구글이 '핵심 포스트만' 인덱싱하는 구조가 기본값으로 유지됩니다.