Playwright로 구축된, 다양한 플랫폼의 데이터 수집 자동화

by DD
4개월 전
조회수 31

MediaCrawler는 자체 미디어 플랫폼의 데이터를 수집하는 크롤러(Crawler)

Playwright를 사용하여 자동화된 데이터 수집을 수행하며, 로그인 상태 유지 기능을 제공

다양한 플랫폼(소셜 미디어)의 공개 정보를 수집하여 데이터 분석에 활용 가능

WebUI를 통해 시각적인 인터페이스를 제공하여 사용 편의성을 높임

MediaCrawlerPro 버전을 통해 추가 기능 및 아키텍처 개선을 제공

Playwright 기반의 자동화된 데이터 수집

MediaCrawler는 Playwright를 핵심 기술로 사용하여 웹 브라우저 자동화(Web Browser Automation)를 구현한다. 로그인 상태 유지(Login State Persistence)를 통해 복잡한 인증 절차를 우회하고, JS 표현식(JS Expression)을 활용하여 동적으로 생성되는 서명 매개변수(Signature Parameters)를 획득한다. 이러한 접근 방식은 JS 역공학(Reverse Engineering)의 필요성을 줄여 개발의 효율성을 높인다.

다양한 데이터 저장 방식 지원

MediaCrawler는 CSV, JSON, Excel, SQLite, MySQL 등 다양한 형식으로 수집된 데이터를 저장한다. 이는 사용자가 데이터 활용 목적(Data Utilization Purpose)에 따라 적합한 저장 방식을 선택할 수 있도록 유연성을 제공한다. 데이터 격리 아키텍처(Data Isolation Architecture)를 통해 각 저장 방식 간의 간섭을 최소화하고, 데이터 무결성(Data Integrity)을 보장한다.

WebUI를 통한 시각적 인터페이스 제공

MediaCrawler는 WebUI를 통해 시각적인 인터페이스(Visual Interface)를 제공하여 사용자가 명령줄 인터페이스(CLI) 없이도 크롤링 작업을 수행할 수 있도록 지원한다. WebUI는 크롤링 매개변수 설정(Crawling Parameter Configuration), 실시간 로그 확인(Real-time Log Monitoring), 데이터 미리보기 및 내보내기(Data Preview and Export) 기능을 제공하여 사용자 경험을 향상시킨다.

MediaCrawlerPro 버전의 추가 기능

MediaCrawlerPro는 단절된 크롤링 재개(Resuming Interrupted Crawling), 다중 계정 및 IP 프록시 풀 지원(Multi-account and IP Proxy Pool Support), Playwright 종속성 제거(Playwright Dependency Removal) 등의 기능을 제공한다. 또한, 코드 리팩토링(Code Refactoring)을 통해 가독성과 유지보수성을 향상시키고, 기업 수준의 코드 품질(Enterprise-grade Code Quality)을 제공하여 대규모 크롤링 프로젝트에 적합하도록 설계되었다.

NanmiCoder / MediaCrawler