Cloudflare, AI 학습을 위한 똑똑한 리다이렉트 기능 출시!
AI 모델 학습을 위해 구식 콘텐츠에 접근하는 크롤러(Crawler) 문제를 해결하기 위해 Redirects for AI Training 출시
Cloudflare의 AI Crawl Control을 통해 AI 크롤러를 식별하고, HTML의 canonical tag를 활용하여 최신 콘텐츠로 리다이렉션(Redirection) 수행
기존의 경고 배너(Warning Banner)나 robots.txt(robots.txt) 방식의 한계를 극복하고, 301 리다이렉트(301 Redirect)를 통해 AI 학습 데이터의 정확성 확보
Radar AI Insights를 통해 AI 크롤러의 HTTP 응답 상태 코드(Response Status Code) 분석 기능 제공
모든 유료 Cloudflare 플랜에서 원클릭(One-click) 설정으로 사용 가능하며, AI 학습 데이터의 품질 향상 기대
AI 학습 크롤러(Crawler)의 문제점
본문에 따르면 AI 모델 학습을 위한 크롤러(Crawler)는 구식 콘텐츠(Deprecated Content)를 지속적으로 수집하여 AI 환각(Hallucination)을 유발할 수 있다. 기존의 경고 배너(Warning Banner)나 robots.txt(robots.txt)는 AI 크롤러에게 효과적인 지침을 제공하지 못하고, 오히려 학습 데이터의 오염(Data Contamination)을 가속화한다.
robots.txt: 크롤러별 설정의 어려움 및 유지보수(Maintenance) 부담 증가
경고 배너: AI 모델이 텍스트의 일부로 인식하여 무시될 가능성(Ignoring Probability) 존재
결과적으로 AI 모델의 정확성을 저해하는 구식 정보를 막기 위해, 명확한 지시(Clear Instruction)를 제공하는 새로운 방식이 필요하다.
Redirects for AI Training 작동 원리
Redirects for AI Training은 Cloudflare의 cf.verified_bot_category 필드와 HTML의 태그를 활용하여 AI 크롤러를 위한 리다이렉션을 구현한다. AI Crawl Control을 통해 AI 크롤러를 식별하고, 태그가 있는 경우 301 리다이렉트(301 Redirect)를 통해 최신 콘텐츠로 이동시킨다.
AI Crawler Category: GPTBot, ClaudeBot, Bytespider 등 AI 모델 학습용 봇(AI Model Training Bots) 식별
301 리다이렉트: 구식 페이지에 대한 요청을 최신 페이지로 영구적으로 이동(Permanent Move)
Human Traffic 및 검색 엔진(Search Engine)에는 영향 없음
이러한 방식으로 AI 학습 데이터의 정확성을 높이고, AI 모델의 성능 향상(Performance Improvement)을 기대할 수 있다.
기존 방식(robots.txt)과의 비교
Redirects for AI Training은 기존의 리다이렉션 규칙(Redirect Rules) 방식보다 확장성(Scalability) 및 유지보수성(Maintainability) 측면에서 유리하다. 기존 방식은 수동적인 설정 변경이 필요하며, AI 크롤러의 User-Agent를 일일이 추적해야 하는 번거로움이 있다.
Redirect Rules: User-Agent 기반의 수동 설정(Manual Configuration), 새로운 구식 페이지(Deprecated Page)마다 규칙 추가 필요
Canonical Tag: 콘텐츠 변경 시 자동 동기화(Automatic Synchronization), 유지보수 비용 절감(Maintenance Cost Reduction)
Plan Limitation: 과도한 규칙 사용 시 Cloudflare 플랜 제한(Plan Limitation) 발생 가능성
결과적으로 Redirects for AI Training은 자동화된 리다이렉션(Automated Redirection)을 통해 효율적인 콘텐츠 관리를 지원한다.
Radar AI Insights를 통한 분석
Cloudflare Radar의 AI Insights 페이지는 AI 크롤러 트래픽에 대한 HTTP 응답 상태 코드(Response Status Code) 분석 기능을 제공한다. 이를 통해 AI 크롤러가 웹 페이지에 어떻게 반응하는지 파악하고, 콘텐츠 정책의 효과를 측정할 수 있다.
2xx (성공): 콘텐츠가 성공적으로 제공됨
3xx (리다이렉션): 다른 URL로 리다이렉션됨
4xx (클라이언트 오류): 페이지를 찾을 수 없거나 접근 거부
5xx (서버 오류): 서버 문제 발생
이러한 분석을 통해 AI 크롤러의 행동 패턴을 이해하고, 콘텐츠 전략(Content Strategy) 개선에 활용할 수 있다.
실제 적용 사례 및 기대 효과
Cloudflare는 자사의 개발자 문서(developers.cloudflare.com)에 Redirects for AI Training을 적용하여 효과를 검증했다. 그 결과, AI 학습 크롤러가 구식 콘텐츠에 접근하는 빈도가 100% 감소했으며, AI 모델의 답변 정확도 향상을 기대할 수 있게 되었다.
GPTBot, Anthropic, Meta 등 주요 AI 크롤러(Major AI Crawlers)의 구식 페이지 접근 차단
Wrangler CLI 관련 질문에 대한 정확한 답변 제공 가능성 증대
AI 모델의 학습 데이터 품질 향상 및 AI 환각(Hallucination) 감소 기대
결론적으로 Redirects for AI Training은 AI 모델의 성능 향상에 기여하고, 웹 콘텐츠의 신뢰성(Reliability)을 높이는 데 도움을 줄 것이다.