AI 크롤러
AI 크롤러는 LLM 제공자 — OpenAI의 GPTBot, Anthropic의 ClaudeBot, Perplexity의 PerplexityBot, Common Crawl의 CCBot, Google의 Google-Extended — 가 운영하는 봇으로, 대형 언어 모델 학습이나 AI 검색 답변의 실시간 그라운딩을 위해 웹 페이지를 수집합니다. 검색 크롤러와 비슷하게 동작하지만 목적이 다릅니다: SERP가 아니라 AI 답변 계층을 먹이는 것.
AI 크롤러는 LLM 제공자 — OpenAI의 GPTBot, Anthropic의 ClaudeBot, Perplexity의 PerplexityBot, Common Crawl의 CCBot, Google의 Google-Extended — 가 운영하는 봇으로, 대형 언어 모델 학습이나 AI 검색 답변의 실시간 그라운딩을 위해 웹 페이지를 수집합니다. 검색 크롤러와 비슷하게 동작하지만 목적이 다릅니다: SERP가 아니라 AI 답변 계층을 먹이는 것.
왜 중요한가
20242025년에 AI 크롤러 트래픽은 '반올림 오차'에서 많은 콘텐츠 사이트 전체 봇 트래픽의 1020%로 성장했습니다. Cloudflare의 2025년 데이터는 GPTBot과 Google-Extended가 오픈 웹에 매일 수천만 요청씩 날린다고 보고합니다. 퍼블리셔에게 AI 크롤러는 두 가지 결정을 요구합니다: 허용할 것인가(보상 없이 모델을 훈련시킬 수 있음), 허용한다면 어떻게 SEO가 과거 Googlebot용으로 최적화했던 방식대로 최적화할 것인가. 차단하면 AI 답변에서 브랜드가 사라지고, 구조 없이 허용하면 AI가 날것 HTML을 어떻게 해석하는지에 맡겨집니다.
주요 AI 크롤러
GPTBot(OpenAI): ChatGPT 학습·지식 갱신용. User-agent: GPTBot. robots.txt로 사이트 전체 차단 가능. JavaScript 렌더링 안 함.
ClaudeBot / Claude-Web(Anthropic): Claude 학습·검색용. User-agent: ClaudeBot·Claude-Web·anthropic-ai. robots.txt 준수.
PerplexityBot(Perplexity): Perplexity 검색의 실시간 답변 생성용. User-agent: PerplexityBot. 2024년 robots.txt 우회 논란 후 현재는 명시적 준수.
Google-Extended(Google): Gemini 학습·Vertex AI 제품 사용에서 사이트를 옵트아웃시키는 토큰. 일반 Googlebot은 차단하지 않음. 중요한 구분 — Googlebot 차단은 검색 트래픽을 죽이고, Google-Extended 차단은 AI 학습에서만 빠지는 것.
CCBot(Common Crawl): AI 기업 소유는 아니지만, Common Crawl 출력이 LLM 훈련의 가장 흔한 코퍼스입니다. CCBot 차단은 대부분 모델 훈련 파이프라인에서 자신을 제거합니다.
Applebot-Extended·Meta-ExternalAgent·Bytespider: Apple·Meta·ByteDance의 새로운 AI 시대 크롤러.
학습 크롤러 vs 검색 크롤러
학습 크롤러는 콘텐츠를 한 번(또는 주기적으로) 인제스트해 모델 가중치에 굽습니다. 차단하면 미래 모델 훈련에 기여하지 않음 — 장기적으로 브랜드 친숙도 손실.
검색 크롤러는 쿼리 시점에 페이지를 가져와 특정 답변에 그라운드합니다. 차단하면 실시간 AI 인용에 등장할 수 없음 — 즉각적인 AI 가시성 손실.
둘 다 하는 봇도 있고 하나만 하는 봇도 있습니다. 정책을 정하기 전에 어느 쪽인지 확인해야 합니다.
접근 제어 방법
robots.txt:
User-agent: GPTBot
Disallow: /
User-agent: Google-Extended
Disallow: /
HTTP 헤더: X-Robots-Tag: noai, noimageai는 일부 크롤러에게 AI 훈련에 쓰지 말라고 알리지만, 강제는 일관되지 않습니다.
방화벽 / WAF: Cloudflare·Fastly·AWS WAF가 robots.txt 준수에 의존하지 않고 엣지에서 강제하는 원클릭 AI 크롤러 차단을 제공합니다.
유료 벽·인증: 가장 확실한 차단. 로그인 뒤의 콘텐츠는 기본적으로 크롤러 접근 불가.
AI 크롤러를 차단해야 할까
차단 찬성: 원본 보도·분석·유료 콘텐츠가 보상 없이 훈련되는 것이 싫음. 주요 퍼블리셔(NYT·Reuters·CNN)는 많은 AI 크롤러를 차단하면서 별도로 소송·라이선싱을 진행합니다.
차단 반대: AI 답변에서 브랜드가 사라집니다. 대부분의 콘텐츠 사이트 — 특히 SaaS·SMB·마케팅 블로그 — 에는 어차피 실현되지 않을 이론적 훈련 데이터 수익보다 AI 가시성이 더 가치 있습니다.
중간 노선: 학습 전용 크롤러(Google-Extended·훈련용 GPTBot)를 차단하면서 검색 크롤러(PerplexityBot·ChatGPT Search)를 허용합니다. 고품질 콘텐츠를 발행해 장기 훈련에 먹이지 않고도 인용됩니다.
흔한 실수
Googlebot 차단으로 구글 AI 차단 착각: Googlebot은 검색 인덱싱, Google-Extended는 AI 훈련. 별개입니다.
자기 신고 user-agent만 신뢰: 일부 봇은 다른 봇을 사칭합니다. 고위험 차단은 robots.txt와 방화벽 규칙을 결합해야 합니다.
결정하지 않음: '전부 허용'으로 방치하는 것도 결정입니다. 서버 로그를 한 번 감사하고 정책을 고릅니다.
무심코 CCBot 차단: Common Crawl 기반 대부분 오픈소스 모델 훈련에서 자신을 제거한 것입니다.
Sources:
관련 인블로그 게시물
inblog에서 활용하기
inblog는 블로그 설정에서 AI 크롤러별 허용/차단을 개별로 관리할 수 있는 UI를 제공합니다. 기본값은 '검색 크롤러 허용 + 학습 전용 크롤러 선택적 차단'으로, 사용자가 훈련 데이터로는 쓰이지 않되 Perplexity·ChatGPT Search·Google AI Overview에는 인용될 수 있는 중간 노선을 쉽게 채택할 수 있도록 돕습니다.