웹 스크래퍼(Web Scraper)를 속이는 스팸 페이지 생성 도구 Supercazzola 업데이트!
Supercazzola는 웹 스크래퍼(Web Scraper)를 속이기 위해 가짜 HTML 페이지를 생성하는 도구임
마르코프 체인(Markov Chain) 기반의 텍스트 생성, Xorshift DRNG를 활용한 페이지 내용 구성
고유 식별자(Unique Identifier)와 깊이 값(Depth Value)을 링크에 삽입하여 스크래핑 봇(Scraping Bot)을 추적
Reverse Proxy를 활용한 HTTPS 지원 및 봇(Bot) 모니터링, robots.txt를 통한 정상적인 스크래퍼(Scraper) 배제 권장
마르코프 체인(Markov Chain) 기반의 스팸 페이지 생성
Supercazzola는 오프라인에서 텍스트 파일을 처리하여 마르코프 체인(Markov Chain)을 구축하고, 이를 바이너리 이미지로 컴파일한다. 메인 데몬(Daemon)인 spamgend(8)는 이 이미지를 로드하여 요청 시 의사 난수(Pseudo-Random) HTML 페이지를 생성한다. 각 페이지는 다른 의사 난수 페이지로 연결되는 링크를 포함하여 영원한 쓰레기 땋기(Eternal Garbage Braid, EGB)를 형성한다.
스크래핑 봇(Scraping Bot) 탐지 및 추적 전략
spamgend(8)는 고유 식별자(Unique Identifier)를 생성된 페이지 링크에 삽입하여 개별 스크래핑 봇(Scraping Bot)을 식별한다. 요청 경로에 식별자가 없으면 요청하는 피어(Peer)의 IP 주소를 해싱하여 새로운 식별자를 생성한다. 또한, 각 페이지는 아웃바운드 링크에 깊이 값(Depth Value)을 포함하여 스크래핑 작업의 깊이를 추적한다. 이러한 기술을 통해 스크래핑 봇(Scraping Bot)의 활동을 효과적으로 모니터링할 수 있다.
Reverse Proxy를 활용한 HTTPS 지원 및 봇(Bot) 모니터링
Supercazzola는 reverse proxy를 통해 HTTPS를 지원하며, reverse proxy access log를 통해 봇(Bot) 모니터링 데이터를 활용할 수 있다. 이를 통해 식별된 스크래퍼(Scraper)에 대한 방화벽(Firewall) 차단 또는 리다이렉션(Redirection)과 같은 광범위한 대처가 가능하다. 또한, robots.txt를 통해 정상적인 스크래퍼(Scraper)를 배제하여 웹 크롤링(Web Crawling) 규칙을 준수하도록 권장한다.
커뮤니티의 긍정적 반응 및 활용 사례
커뮤니티에서는 Supercazzola의 설치 및 사용의 용이성에 대해 긍정적인 평가를 내리고 있다. 특히, 블로그에 적용하여 스팸 봇(Spam Bot) 트래픽을 효과적으로 차단한 사례가 공유되었다. 또한, 개발자는 봇(Bot) 모니터링 및 악성 트래픽(Malicious Traffic)에 대한 아이디어를 공유하며, Supercazzola의 지속적인 업데이트에 대한 기대감을 나타냈다.