SEO

크롤링

크롤링(Crawling)이란 Googlebot과 같은 검색엔진 봇(크롤러)이 웹 상의 페이지를 자동으로 방문하여 콘텐츠를 발견하고 수집하는 과정입니다. 크롤링된 페이지는 이후 색인(Indexing) 단계를 거쳐 검색 결과에 노출될 수 있습니다.

크롤링(Crawling)이란 Googlebot과 같은 검색엔진 봇(크롤러)이 웹 상의 페이지를 자동으로 방문하여 콘텐츠를 발견하고 수집하는 과정입니다. 크롤링된 페이지는 이후 색인(Indexing) 단계를 거쳐 검색 결과에 노출될 수 있습니다.

왜 중요한가

검색엔진에 의해 크롤링되지 않은 페이지는 색인에 포함될 수 없으며, 결과적으로 검색 결과에 나타나지 않습니다. 아무리 좋은 콘텐츠를 작성하더라도 크롤러가 해당 페이지에 접근하지 못하면 SEO 효과는 사실상 0입니다. 특히 2025년 기준 Cloudflare 보고에 따르면, GPTBot 트래픽이 전년 대비 305%, Googlebot 트래픽이 96% 증가하였습니다. AI 크롤러와 검색엔진 크롤러가 동시에 서버 자원을 소모하는 환경에서, 크롤링 관리의 중요성은 더욱 커지고 있습니다.

크롤링 예산이란

크롤링 예산(Crawl Budget)은 Google이 특정 사이트를 크롤링하는 데 할당하는 시간과 리소스의 총량입니다. 이 예산은 두 가지 요소로 결정됩니다.

  1. 크롤링 용량 제한(Crawl Rate Limit): Googlebot이 서버에 과부하를 주지 않도록 설정하는 최대 동시 연결 수와 요청 간 지연 시간입니다. 서버 응답 속도(TTFB)가 200ms 이하로 빠르면 제한이 올라가고, 서버가 느려지거나 5xx 오류를 반환하면 제한이 내려갑니다.
  2. 크롤링 수요(Crawl Demand): 해당 사이트의 콘텐츠가 얼마나 인기 있고 최신인지에 따라 Google이 크롤링을 원하는 정도입니다. 자주 업데이트되고 트래픽이 많은 페이지일수록 수요가 높아집니다.

일반적으로 페이지 수가 10,000개 미만이고 새 콘텐츠가 며칠 내에 색인되는 사이트라면 크롤링 예산을 크게 걱정할 필요가 없습니다. 그러나 페이지 수가 수만 개 이상이거나, 콘텐츠 생성 속도가 Google의 색인 속도보다 빠른 대규모 사이트에서는 크롤링 예산 최적화가 필수적입니다.

크롤링 최적화 방법

  1. 사이트맵(Sitemap) 최신화: 2026년 현재, 정적 사이트맵만으로는 부족합니다. 블로그나 이커머스처럼 콘텐츠가 자주 변경되는 사이트는 사이트맵을 매일 또는 실시간으로 업데이트해야 합니다.
  2. robots.txt 최적화: 크롤러가 방문할 필요 없는 관리자 페이지, 검색 결과 페이지, 필터 조합 URL 등을 robots.txt로 차단하여 크롤링 예산 낭비를 방지합니다.
  3. 서버 응답 속도 개선: TTFB를 200ms 이하로 유지하면 Googlebot이 크롤링 속도를 자동으로 높입니다. CDN 도입, 캐싱 전략 최적화, 서버 스펙 업그레이드 등이 효과적입니다.
  4. 중복 콘텐츠 정리: URL 파라미터, 페이지네이션, HTTP/HTTPS 혼용 등으로 발생하는 중복 페이지에 rel="canonical" 태그를 설정하여 크롤러가 대표 URL에 집중하도록 합니다.
  5. 내부 링크 구조 개선: 중요한 페이지가 사이트 최상위에서 3클릭 이내로 도달할 수 있도록 내부 링크를 설계하면, 크롤러가 핵심 콘텐츠를 우선적으로 발견합니다.
  6. AI 크롤러 관리: GPTBot, CCBot 등 AI 크롤러가 대역폭의 최대 40%를 소모할 수 있습니다. 불필요한 AI 크롤러는 robots.txt에서 차단하여 Googlebot에 더 많은 서버 자원을 확보하는 것이 좋습니다.

크롤링 오류 대처

Google Search Console의 크롤링 통계 보고서에서 크롤링 상태를 확인할 수 있습니다. 주요 오류 유형과 대처법은 다음과 같습니다.

  • 5xx 서버 오류: 서버 안정성 문제입니다. 서버 로그를 확인하고, 트래픽 급증 시 오토스케일링을 적용합니다. 이 오류가 지속되면 Googlebot이 크롤링 빈도를 자동으로 낮춥니다.
  • 404 Not Found: 삭제된 페이지나 잘못된 URL입니다. 콘텐츠가 이동한 경우 301 리다이렉트를 설정하고, 완전히 삭제된 경우 사이트맵에서 해당 URL을 제거합니다.
  • 리다이렉트 체인: 리다이렉트가 3회 이상 연쇄되면 크롤러가 포기할 수 있습니다. 최종 URL로 직접 301 리다이렉트하도록 수정합니다.
  • robots.txt에 의한 차단: 의도치 않게 중요한 페이지가 차단되어 있지 않은지 정기적으로 점검합니다. Search Console의 URL 검사 도구로 개별 페이지의 크롤링 가능 여부를 확인할 수 있습니다.

관련 인블로그 게시물

inblog에서 활용하기

inblog는 SSR 기반이라 Googlebot이 JavaScript 렌더링 없이도 콘텐츠를 완전히 크롤링할 수 있습니다.