SEO

크롤 버짓

크롤 버짓(Crawl Budget)은 검색 엔진이 일정 기간 동안 특정 웹사이트에서 크롤링(발견)할 수 있는 URL의 수를 의미합니다. 검색 엔진은 수십억 개의 웹사이트에 유한한 자원을 배분해야 하므로, 사이트별로 크롤링 자원에 한도를 둡니다.

크롤 버짓(Crawl Budget)은 검색 엔진이 일정 기간 동안 특정 웹사이트에서 크롤링(발견)할 수 있는 URL의 수를 의미합니다. 검색 엔진은 수십억 개의 웹사이트에 유한한 자원을 배분해야 하므로, 사이트별로 크롤링 자원에 한도를 둡니다.

왜 중요한가

검색 엔진은 페이지를 크롤링하고 인덱싱한 다음에야 검색 결과에 표시할 수 있습니다. 크롤 버짓이 부족하면 중요한 페이지가 발견되지 않거나, 업데이트된 내용이 검색 결과에 반영되지 않을 수 있습니다.

대부분의 소규모 사이트에서는 크롤 버짓이 문제가 되지 않습니다. 구글은 일반적으로 효율적으로 크롤링을 처리합니다. 그러나 다음과 같은 경우에는 크롤 버짓 관리가 중요해집니다.

  • 대규모 사이트: 1만 페이지 이상의 사이트에서는 크롤러가 모든 페이지를 방문하지 못할 수 있습니다. Botify의 분석(6.2B 구글봇 요청, 4.13억 페이지 대상)에 따르면, 대규모 사이트 페이지의 77%가 검색 트래픽을 전혀 받지 못하고 있습니다.
  • 빈번하게 변경되는 콘텐츠: 뉴스 사이트나 이커머스처럼 콘텐츠가 자주 바뀌는 사이트
  • 기술적 크롤링 문제가 있는 사이트: 리다이렉트 체인, 깨진 링크, 중복 콘텐츠 등이 많은 사이트

구성 요소

크롤 버짓은 **크롤 수요(Crawl Demand)**와 크롤 용량 한도(Crawl Capacity Limit) 두 가지로 결정됩니다.

크롤 수요는 구글이 해당 사이트를 얼마나 자주 크롤링하고 싶어하는지를 나타냅니다. 세 가지 요소가 영향을 미칩니다.

  • 인지된 인벤토리: 구글은 robots.txt 등으로 차단하지 않는 한 알려진 모든 페이지를 크롤링하려 합니다.
  • 인기도: 양질의 백링크와 높은 트래픽을 가진 사이트는 더 자주 크롤링됩니다.
  • 콘텐츠 변경 빈도: 정기적으로 업데이트되는 사이트(뉴스 사이트 등)는 정적 페이지보다 더 자주 크롤링됩니다.

크롤 용량 한도는 구글이 서버에 과부하를 주지 않도록 설정하는 상한선입니다. 사이트 응답 속도가 빠르면 크롤링 빈도가 높아지고, 서버 에러가 많으면 크롤링 빈도가 줄어듭니다.

최적화 방법

  1. 사이트 속도 개선: 서버 응답 시간이 빨라지면 같은 시간에 더 많은 페이지를 크롤링할 수 있습니다.
  2. 내부 링크 전략 수립: 중요한 페이지로의 내부 링크를 강화하여 크롤러가 우선적으로 발견하도록 유도합니다.
  3. XML 사이트맵 관리: 중복되거나 중요하지 않은 URL을 제외하고, 최신 상태를 유지합니다.
  4. robots.txt 활용: 크롤링이 불필요한 페이지(관리 페이지, 필터 페이지 등)를 차단하여 크롤 버짓 낭비를 방지합니다.
  5. 리다이렉트 체인 제거: 여러 단계의 리다이렉트는 크롤 버짓을 불필요하게 소모합니다. 최종 목적지로 직접 리다이렉트하도록 정리합니다.
  6. 깨진 내부 링크 수정: 404 에러를 반환하는 내부 링크는 크롤러의 자원을 낭비합니다.
  7. 중복 콘텐츠 정리: 동일하거나 유사한 페이지가 많으면 크롤 버짓 전체가 낭비될 수 있습니다. 정규화(Canonical) 태그를 활용합니다.

모니터링

Google Search Console의 크롤 통계(Crawl Stats) 리포트에서 90일간의 총 크롤링 요청 수, 다운로드 크기, 응답 시간을 확인할 수 있습니다. 크롤링 빈도가 급격히 감소하거나 서버 에러 비율이 높아지면 크롤 버짓에 문제가 있다는 신호입니다.

Sources:

관련 인블로그 게시물

inblog에서 활용하기

inblog는 사이트맵 자동 생성과 robots.txt 설정을 기본 제공하여, 블로그 페이지가 크롤 버짓을 효율적으로 활용하도록 돕습니다. 블로그 포스트가 늘어나면 카테고리 페이지, 태그 페이지 등 파생 URL도 증가하므로, 중복 콘텐츠를 정규화하고 불필요한 페이지를 robots.txt로 차단하여 크롤러가 핵심 콘텐츠에 집중하도록 관리하는 것이 중요합니다.