AI 크롤러
AI 크롤러는 LLM 제공자 — OpenAI의 GPTBot, Anthropic의 ClaudeBot, Perplexity의 PerplexityBot, Common Crawl의 CCBot, Google의 Google-Extended — 가 운영하는 봇으로, 대형 언어 모델 학습이나 AI 검색 답변의 실시간 그라운딩을 위해 웹 페이지를 수집합니다. 검색 크롤러와 비슷하게 동작하지만 목적이 다릅니다: SERP가 아니라 AI 답변 계층을 먹이는 것.
AI 크롤러는 LLM 제공자 — OpenAI의 GPTBot, Anthropic의 ClaudeBot, Perplexity의 PerplexityBot, Common Crawl의 CCBot, Google의 Google-Extended — 가 운영하는 봇으로, 대형 언어 모델 학습이나 AI 검색 답변의 실시간 그라운딩을 위해 웹 페이지를 수집합니다. 검색 크롤러와 비슷하게 동작하지만 목적이 다릅니다: SERP가 아니라 AI 답변 계층을 먹이는 것.
왜 중요한가
20242025년에 AI 크롤러 트래픽은 '반올림 오차'에서 많은 콘텐츠 사이트 전체 봇 트래픽의 1020%로 성장했습니다. Cloudflare의 2025년 데이터는 GPTBot과 Google-Extended가 오픈 웹에 매일 수천만 요청씩 날린다고 보고합니다. 2026년 6월 Cloudflare 발표 기준 자동화 트래픽은 전체 HTTP 요청의 57.5%로 인간 트래픽을 추월했고, 크롤링 대비 리퍼럴 비율은 OpenAI 약 857:1, Anthropic 약 11,000:1 — 내주는 크롤링에 비해 돌아오는 방문은 극히 적다는 뜻입니다. 퍼블리셔에게 AI 크롤러는 두 가지 결정을 요구합니다: 허용할 것인가(보상 없이 모델을 훈련시킬 수 있음), 허용한다면 어떻게 SEO가 과거 Googlebot용으로 최적화했던 방식대로 최적화할 것인가. 차단하면 AI 답변에서 브랜드가 사라지고, 구조 없이 허용하면 AI가 날것 HTML을 어떻게 해석하는지에 맡겨집니다.
주요 AI 크롤러
GPTBot(OpenAI): ChatGPT 학습·지식 갱신용. User-agent: GPTBot. robots.txt로 사이트 전체 차단 가능. JavaScript 렌더링 안 함.
ClaudeBot / Claude-Web(Anthropic): Claude 학습·검색용. User-agent: ClaudeBot·Claude-Web·anthropic-ai. robots.txt 준수.
PerplexityBot(Perplexity): Perplexity 검색의 실시간 답변 생성용. User-agent: PerplexityBot. 2024년 robots.txt 우회 논란 후 현재는 명시적 준수.
Google-Extended(Google): Gemini 학습·Vertex AI 제품 사용에서 사이트를 옵트아웃시키는 토큰. 일반 Googlebot은 차단하지 않음. 중요한 구분 — Googlebot 차단은 검색 트래픽을 죽이고, Google-Extended 차단은 AI 학습에서만 빠지는 것.
CCBot(Common Crawl): AI 기업 소유는 아니지만, Common Crawl 출력이 LLM 훈련의 가장 흔한 코퍼스입니다. CCBot 차단은 대부분 모델 훈련 파이프라인에서 자신을 제거합니다.
Applebot-Extended·Meta-ExternalAgent·Bytespider: Apple·Meta·ByteDance의 새로운 AI 시대 크롤러.
학습 크롤러 vs 검색 크롤러
학습 크롤러는 콘텐츠를 한 번(또는 주기적으로) 인제스트해 모델 가중치에 굽습니다. 차단하면 미래 모델 훈련에 기여하지 않음 — 장기적으로 브랜드 친숙도 손실.
검색 크롤러는 쿼리 시점에 페이지를 가져와 특정 답변에 그라운드합니다. 차단하면 실시간 AI 인용에 등장할 수 없음 — 즉각적인 AI 가시성 손실.
둘 다 하는 봇도 있고 하나만 하는 봇도 있습니다. 정책을 정하기 전에 어느 쪽인지 확인해야 합니다.
접근 제어 방법
robots.txt:
User-agent: GPTBot
Disallow: /
User-agent: Google-Extended
Disallow: /
HTTP 헤더: X-Robots-Tag: noai, noimageai는 일부 크롤러에게 AI 훈련에 쓰지 말라고 알리지만, 강제는 일관되지 않습니다.
방화벽 / WAF: Cloudflare·Fastly·AWS WAF가 robots.txt 준수에 의존하지 않고 엣지에서 강제하는 원클릭 AI 크롤러 차단을 제공합니다. Cloudflare는 2025년 7월부터 신규 도메인에서 AI 크롤러를 기본 차단하고, 크롤링 건당 과금하는 Pay Per Crawl(HTTP 402 기반) 마켓플레이스 베타를 출시했습니다. 2025년 9월에는 robots.txt를 확장해 search·ai-input·ai-train 용도별 선호를 선언하는 Content Signals Policy도 공개했습니다.
유료 벽·인증: 가장 확실한 차단. 로그인 뒤의 콘텐츠는 기본적으로 크롤러 접근 불가.
AI 크롤러를 차단해야 할까
차단 찬성: 원본 보도·분석·유료 콘텐츠가 보상 없이 훈련되는 것이 싫음. 주요 퍼블리셔(NYT·Reuters·CNN)는 많은 AI 크롤러를 차단하면서 별도로 소송·라이선싱을 진행합니다.
차단 반대: AI 답변에서 브랜드가 사라집니다. 대부분의 콘텐츠 사이트 — 특히 SaaS·SMB·마케팅 블로그 — 에는 어차피 실현되지 않을 이론적 훈련 데이터 수익보다 AI 가시성이 더 가치 있습니다.
중간 노선: 학습 전용 크롤러(Google-Extended·훈련용 GPTBot)를 차단하면서 검색 크롤러(PerplexityBot·ChatGPT Search)를 허용합니다. 고품질 콘텐츠를 발행해 장기 훈련에 먹이지 않고도 인용됩니다.
흔한 실수
Googlebot 차단으로 구글 AI 차단 착각: Googlebot은 검색 인덱싱, Google-Extended는 AI 훈련. 별개입니다.
자기 신고 user-agent만 신뢰: 일부 봇은 다른 봇을 사칭합니다. 고위험 차단은 robots.txt와 방화벽 규칙을 결합해야 합니다.
결정하지 않음: '전부 허용'으로 방치하는 것도 결정입니다. 서버 로그를 한 번 감사하고 정책을 고릅니다.
무심코 CCBot 차단: Common Crawl 기반 대부분 오픈소스 모델 훈련에서 자신을 제거한 것입니다.
Sources:
관련 인블로그 게시물
inblog에서 활용하기
inblog는 블로그 설정에서 AI 크롤러별 허용/차단을 개별로 관리할 수 있는 UI를 제공합니다. 기본값은 '검색 크롤러 허용 + 학습 전용 크롤러 선택적 차단'으로, 사용자가 훈련 데이터로는 쓰이지 않되 Perplexity·ChatGPT Search·Google AI Overview에는 인용될 수 있는 중간 노선을 쉽게 채택할 수 있도록 돕습니다.