GEO

콘텐츠 시그널

콘텐츠 시그널(Content Signals)은 robots.txt를 확장해, 크롤러가 가져간 콘텐츠를 검색(search)·AI 답변(ai-input)·AI 학습(ai-train) 중 어떤 용도로 쓰는 것을 선호하는지 기계가 읽을 수 있는 형식으로 선언하는 정책 표준입니다. Cloudflare가 2025년 9월 24일 발표했습니다.

콘텐츠 시그널(Content Signals)은 robots.txt를 확장해, 크롤러가 가져간 콘텐츠를 검색(search)·AI 답변(ai-input)·AI 학습(ai-train) 중 어떤 용도로 쓰는 것을 선호하는지 기계가 읽을 수 있는 형식으로 선언하는 정책 표준입니다. Cloudflare가 2025년 9월 24일 발표했습니다.

왜 중요한가

기존 robots.txt는 '어떤 크롤러가 어떤 경로에 접근할 수 있는가'만 표현할 수 있을 뿐, 가져간 콘텐츠가 어떻게 쓰이는지는 다루지 못합니다. 문제는 하나의 크롤러가 여러 용도를 겸한다는 점입니다. 예컨대 구글은 검색 인덱싱과 AI 기능에 같은 크롤러를 쓰기 때문에, AI 크롤러를 통째로 차단하는 방식으로는 '검색 노출은 유지하면서 AI 학습만 거부'하는 선택이 불가능했습니다. 콘텐츠 시그널은 접근 주체가 아니라 사용 용도 단위로 선호를 선언하게 해 이 공백을 메웁니다. AI 시대에 콘텐츠 소유자가 통제권을 어떻게 되찾을 것인가라는 논의의 한 축을 차지하는 표준입니다.

시그널 3종과 작성 방법

  • search: 검색 인덱스 구축과 검색 결과 제공. AI 생성 요약은 포함하지 않습니다.
  • ai-input: 콘텐츠를 AI 모델에 입력해 실시간 답변 생성에 활용하는 것(그라운딩, RAG 등).
  • ai-train: AI 모델의 학습 또는 파인튜닝에 사용하는 것.

robots.txt 안에 콤마로 구분한 yes/no 형식으로 작성합니다.

Content-Signal: search=yes, ai-input=yes, ai-train=no
User-Agent: *
Allow: /

시그널을 생략하면 해당 용도에 대해 선호를 표명하지 않은 것으로 간주됩니다. Cloudflare는 관리형 robots.txt를 쓰는 380만 개 이상의 도메인에 search=yes, ai-train=no를 기본값으로 적용했고, ai-input은 운영자가 직접 정하도록 비워뒀습니다.

한계와 GEO 관점

콘텐츠 시그널은 선호의 선언이지 기술적 차단 수단이 아니므로, 이를 무시하는 크롤러를 막아주지는 못합니다. 다만 기계가독 형식의 명시적 의사표시라는 점에서 향후 콘텐츠 사용을 둘러싼 분쟁에서 근거가 될 수 있고, Cloudflare도 봇 차단·페이 퍼 크롤 같은 강제 수단과 함께 쓰는 것을 전제로 설계했습니다. GEO 관점에서 핵심은 ai-input이 양날의 검이라는 점입니다. AI 답변에 인용되는 것이 목표라면, ai-input을 거부하는 순간 AI 크롤링을 거쳐 답변에 인용될 기회 자체가 사라집니다. 그래서 브랜드 가시성이 목적인 사이트는 search=yes, ai-input=yes를 유지하고 ai-train만 선택적으로 거부하는 구성이 일반적입니다.

Sources:

inblog에서 활용하기

inblog로 발행하는 블로그는 대부분 검색과 AI 답변 양쪽에서의 노출이 목적이므로, 콘텐츠 시그널을 적용한다면 search와 ai-input을 열어두는 구성이 자연스럽습니다. inblog의 자체 애널리틱스로 AI 채널발 유입을 확인하면 ai-input을 허용한 선택이 실제 유입으로 이어지는지 데이터로 검증할 수 있고, GSC 연동으로 검색 노출까지 한 화면에서 관리할 수 있습니다.