AI 스크레이퍼(Scraper)의 습격, 웹사이트는 어떻게 대응해야 할까?

by DD
4개월 전
조회수 48

AI 스크레이퍼(Scraper)의 무분별한 데이터 수집으로 인해 웹사이트 운영자들이 과도한 트래픽(Excessive Traffic)서버 비용 증가(Increased Server Costs)에 직면함

메타브레인즈(Metabrainz)와 같은 공공 데이터 제공자들은 AI 봇의 비효율적인 데이터 수집 방식에 불만을 표출(Expressing Dissatisfaction)하며, 데이터 접근 방식 개선을 촉구함

웹 호스팅 중단, 무한 크롤링(Crawling) 등 AI 스크레이퍼(Scraper)의 부정적 영향(Negative Impact)에 대한 구체적인 사례가 공유됨

AI 스크레이퍼(Scraper)의 문제점: 과도한 트래픽과 비용 증가

커뮤니티에서는 AI 스크레이퍼(Scraper)가 웹사이트에 과도한 요청을 보내면서 서버 과부하(Server Overload)를 유발하고, 이는 곧 웹 호스팅 중단(Website Suspension)으로 이어진다는 점을 지적한다. 특히, AI 기업들은 무제한적인 자원을 바탕으로 웹사이트를 스크랩하여 소규모 운영자들에게 경제적 부담(Financial Burden)을 가중시킨다. 실제 사례로, 한 사용자는 AI 봇의 과도한 요청으로 인해 웹 호스팅 계정이 정지된 경험을 공유했다.

데이터 제공자의 고충: 비효율적인 데이터 수집

논의에서는 AI 봇이 데이터 제공자의 API 사용 정책(API Usage Policy)을 준수하지 않고, 비효율적인 방식으로 데이터를 수집하는 문제를 제기한다. 메타브레인즈(Metabrainz)와 같은 공공 데이터 제공자는 AI 봇이 데이터를 한 번에 가져가는 대신, 여러 번에 걸쳐 요청을 보내는 행태에 불만을 표출했다. 이는 데이터 제공자의 서버 자원 낭비로 이어지며, 데이터 접근 방식에 대한 조정 필요성(Need for Adjustment)을 강조한다.

대응 방안: 차단, 제한, 그리고 새로운 솔루션

커뮤니티에서는 AI 스크레이퍼(Scraper)에 대응하기 위한 다양한 기술적 해결책이 제시되었다. User-Agent 차단(User-Agent Blocking), Rate Limiting(요청 제한), 그리고 Cloudflare와 같은 서비스의 활용이 언급되었다. 특히, Cloudflare는 AI 스크레이퍼(Scraper)를 탐지하여 가짜 페이지(Tarpit)로 리디렉션하는 기능을 제공한다. 이러한 기술적 대응과 더불어, AI 봇의 데이터 접근 방식 개선(Data Access Improvement)에 대한 논의가 필요하다는 의견도 제시되었다.

We can't have nice things because of AI scrapers