Cloudflare, AI 봇 트래픽 관리 옵션 강화
AI 훈련 및 콘텐츠 무단 사용 문제에 대한 웹사이트 소유주의 통제권 강화 필요성이 대두됨
AI 봇 행동 기반 분류 체계 도입으로 검색(Search), 에이전트(Agent), 훈련(Training) 세 가지 유형으로 관리 옵션 제공
9월 15일부터 신규 도메인 대상 기본 설정 적용 예정, 광고 페이지는 훈련/에이전트 봇 차단, 검색 봇은 허용
엔터프라이즈 고객 대상 BotBase 기능 출시로 봇 가시성 및 관리 기능 강화
AI 트래픽 분류 체계의 변화
기존 'AI 봇 차단' 옵션에서 벗어나, 봇의 행동(Behavior)과 콘텐츠 사용 방식(Content Use)에 기반한 세분화된 분류 체계를 도입함.
검색(Search): 검색 결과 제공을 위한 콘텐츠 수집 및 인덱싱 행위
에이전트(Agent): 실시간 사용자 요청 처리(챗봇, 브라우저 자동화 등) 행위
훈련(Training): AI 모델 학습을 위한 콘텐츠 영구 흡수 행위
이 분류는 투명성(Transparency) 증대를 목표로 하며, 봇 운영자가 목적별로 크롤러를 분리하도록 권장함. 특히 여러 목적을 가진 봇은 모든 목적에 따라 관리됨.
새로운 기본 설정 및 영향 분석
2026년 9월 15일부터 신규 도메인에 대해 훈련(Training) 및 에이전트(Agent) 봇은 광고 페이지에서 기본 차단됨. 이는 광고 수익 모델의 핵심인 사용자 주목도(Human Attention)를 보호하기 위함임.
검색(Search) 봇은 방문자 유입을 촉진하므로 기본 허용됨.
다목적 봇(Multi-purpose Crawler)의 경우, 가장 제한적인 규칙에 따라 허용/차단 여부가 결정됨. 예를 들어, 검색과 훈련 목적을 모두 가진 봇은 훈련 목적 차단 시 함께 차단됨.
이는 웹사이트 소유주에게 세밀한 제어 권한(Granular Control)을 제공하며, 기존 설정을 유지하려는 경우 사전 변경이 필요함.
BotBase: 엔터프라이즈 봇 관리 가시성 강화
엔터프라이즈 고객을 위해 BotBase라는 새로운 데이터베이스를 출시하여 봇 가시성(Visibility)을 대폭 향상시킴.
알려진 모든 봇(Known Bots) 및 에이전트(Agents) 추적 및 검색 기능 제공
봇의 분류(Classification), 행동(Behavior), 콘텐츠 사용 방식(Content Use) 등 상세 정보 제공
향후 봇 운영자를 위한 직접 제어 센터(Control Center) 기능 확장 예정
이를 통해 고객은 특정 봇의 트래픽을 정밀하게 타겟팅하고, 보안 규칙에 활용할 수 있는 탐지 ID(Detection ID) 복사 등이 가능해짐.
콘텐츠 사용 방식(Content Use) 제어
봇이 크롤링한 콘텐츠를 어떻게 저장하고 재사용하는지에 대한 '콘텐츠 사용(Content Use)' 수준별 제어 기능을 도입함.
immediate: 상호작용은 허용하나, 저장 및 재사용 불가
reference (기본값): 인덱싱, 발췌, 링크 백 허용
full: 요약 및 전체 복제 허용
이 설정은 봇 분류 체계와 결합하여 '검색, SEO, 광고 검증 봇은 허용하되, 참조 수준까지만 허용'과 같은 복합 규칙 설정이 가능함. 이는 개별 봇 관리 대신 의미 있는 그룹 단위(Sensible Groupings)로 규칙을 관리할 수 있게 함.
전이적 신뢰(Transitive Trust) 모델 제안
봇 운영 주체가 복잡해지는 환경에 대응하기 위해 RFC 7239의 Forwarded 헤더 확장을 활용한 전이적 신뢰 모델을 제안함.
'Allow this operator' 선호도 유지: 중간 프록시(Proxy) 레이어를 거치더라도 최초 운영자의 허용 의사가 유지됨.
Forwarded 헤더 활용: `Forwarded: for="openai";use="reference"` 형식으로 운영자 정보와 콘텐츠 사용 방식을 함께 전달.
이는 신뢰할 수 있는 봇에게 더 많은 접근 권한을 부여하고, 신뢰를 잃을 경우 웹사이트 접근이 제한되는 인센티브 모델을 구축함. 다만, 프라이버시를 중시하는 소규모 트래픽에는 적용이 어려울 수 있음.