GEO

AI 크롤링

AI Crawling이란 GPTBot, ClaudeBot, PerplexityBot 등 AI 기업이 운영하는 자동화된 봇이 웹사이트의 콘텐츠를 방문·수집하는 과정을 의미합니다. 수집된 데이터는 대규모 언어 모델(LLM) 학습, AI 검색 결과 생성, 실시간 질의응답 등 다양한 목적에 활용됩니다.

AI Crawling이란 GPTBot, ClaudeBot, PerplexityBot 등 AI 기업이 운영하는 자동화된 봇이 웹사이트의 콘텐츠를 방문·수집하는 과정을 의미합니다. 수집된 데이터는 대규모 언어 모델(LLM) 학습, AI 검색 결과 생성, 실시간 질의응답 등 다양한 목적에 활용됩니다.

왜 중요한가

2025~2026년 기준 AI 크롤러 트래픽은 전체 봇 트래픽에서 급격히 증가하고 있으며, 학습 목적의 크롤링이 전체 AI 봇 활동의 약 80%를 차지합니다. 콘텐츠 제작자 입장에서 AI Crawling은 두 가지 측면에서 중요합니다. 첫째, 자신의 콘텐츠가 AI 모델 학습 데이터로 무단 사용되는 것을 통제할 수 있어야 합니다. 둘째, AI 검색(Perplexity, ChatGPT Search, Gemini 등)에서 자사 콘텐츠가 인용·노출되려면 해당 검색용 크롤러의 접근을 허용해야 합니다. 즉, AI Crawling 관리는 콘텐츠 보호와 AI 가시성(LLM Visibility) 확보 사이의 균형을 잡는 전략적 과제입니다.

주요 AI 크롤러 목록

2026년 기준 주요 AI 크롤러와 운영사, 용도는 다음과 같습니다.

User-Agent운영사주요 용도
GPTBotOpenAI모델 학습 데이터 수집
OAI-SearchBotOpenAIChatGPT 검색 결과 생성
ChatGPT-UserOpenAI사용자 대화 중 실시간 페이지 조회
ClaudeBotAnthropic모델 학습 데이터 수집
Claude-SearchBotAnthropicClaude 검색 결과 인덱싱
Claude-UserAnthropic사용자 질문 시 실시간 페이지 조회
Google-ExtendedGoogleGemini 모델 학습 제어 토큰
PerplexityBotPerplexityAI 검색용 웹 크롤링
CCBotCommon Crawl오픈 웹 아카이브(다수 AI 모델 학습에 활용)
BytespiderByteDanceTikTok 검색 및 AI 기능
meta-externalagentMetaMeta AI 기능 지원
Applebot-ExtendedAppleApple Intelligence 학습
AmazonbotAmazonAlexa 및 Amazon AI 서비스

Googlebot은 전체 AI 관련 봇 요청의 38.7%, GPTBot 12.8%, meta-externalagent 11.6%, ClaudeBot 11.4%를 차지하며 이 네 크롤러가 전체의 약 74%를 점유합니다.

허용/차단 설정 방법

AI 크롤러 접근은 robots.txt 파일을 통해 제어합니다. 대부분의 주요 AI 크롤러(GPTBot, ClaudeBot, PerplexityBot 등)는 공식적으로 robots.txt 지시를 준수한다고 명시하고 있습니다.

모든 AI 학습 크롤러 차단 예시:

User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: Bytespider
Disallow: /

학습은 차단하되 AI 검색 노출은 허용하는 예시:

# 학습용 크롤러 차단
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: CCBot
Disallow: /

# 검색/실시간 조회용 크롤러 허용
User-agent: ChatGPT-User
Allow: /

User-agent: Claude-SearchBot
Allow: /

User-agent: PerplexityBot
Allow: /

참고로 Google-Extended는 전통적인 크롤러가 아닌 제어 토큰(control token)이므로 서버 로그에 직접 나타나지 않습니다. Googlebot 자체를 차단하지 않으면서 Gemini 학습만 제한하는 용도로 사용됩니다.

전략적 고려사항

학습 차단 vs. AI 검색 노출의 트레이드오프: 모든 AI 크롤러를 일괄 차단하면 콘텐츠 보호는 되지만, AI 검색 결과에서 자사 콘텐츠가 인용되지 않습니다. 학습용 봇과 검색용 봇을 구분하여 선택적으로 허용하는 것이 2026년 현재 가장 권장되는 전략입니다.

정기적인 점검이 필수입니다: AI 기업들은 수시로 새로운 크롤러 User-Agent를 도입합니다. Anthropic이 기존 anthropic-aiClaude-WebClaudeBot으로 통합했을 때, 기존 규칙을 업데이트하지 않은 사이트는 의도치 않게 접근이 허용된 사례가 있습니다. 최소 분기 1회 이상 robots.txt를 검토해야 합니다.

Cloudflare Pay-per-Crawl: 2025년 7월 Cloudflare는 AI 봇의 크롤링에 대해 건당 $0.01~$0.05의 마이크로페이먼트를 받을 수 있는 Pay-per-Crawl 기능을 출시했습니다. 콘텐츠 수익화의 새로운 선택지로 주목받고 있습니다.

서버 로그 모니터링: robots.txt를 설정한 후에도 실제로 크롤러가 지시를 준수하는지 서버 로그를 통해 확인하는 것이 중요합니다. 일부 소규모 AI 크롤러는 robots.txt를 무시하는 경우도 보고되고 있으며, 이 경우 방화벽 수준의 차단이 필요합니다.

Sources:

관련 인블로그 게시물

inblog에서 활용하기

inblog는 robots.txt에서 검색엔진 크롤러의 접근을 기본 허용하고 있으며, AI 크롤러별 차단/허용은 대시보드의 robots.txt 설정에서 직접 관리할 수 있습니다.