미국 해고 데이터를 한눈에, WARN Firehose 서비스
WARN Firehose는 미국 내 대규모 해고 공고 데이터를 통합하여 제공하며, 1988년부터의 데이터를 포함함
REST API를 통해 데이터 접근 가능하며, 저널리스트, 퀀트 펀드, 리크루터 등 다양한 사용자층을 타겟함
데이터 품질 및 UI 문제, 특히 미래 날짜 표기 오류(Future Date Error)와 회사 정보 로딩 실패(Company Data Loading Failure)에 대한 지적이 제기됨
WARN Act의 예외 조항(Exemption Clause)으로 인해 모든 해고 정보가 포함되지 않을 수 있다는 점이 언급됨
데이터 수집 및 정규화 과정
WARN Firehose는 50개 주(State)의 서로 다른 형식의 해고 공고 데이터를 매일 스크래핑(Scraping)하여 수집한다. 수집된 데이터는 SQLite 데이터베이스에 저장되며, API를 통해 접근 가능하다. 자동화된 파이프라인(Automated Pipeline)을 통해 데이터의 최신성을 유지하며, CSV, JSON, Parquet 등 다양한 형식으로 데이터를 제공한다. 하지만, 데이터 품질에 대한 의문이 제기되었으며, UI 오류로 인해 데이터의 신뢰성에 대한 우려가 발생했다.
API 디자인 및 기능
WARN Firehose는 REST API를 제공하여 개발자들이 데이터를 활용할 수 있도록 지원한다. API는 필터링, 정렬, 페이지네이션 기능을 지원하며, OpenAPI 문서를 통해 사용 편의성을 높였다. 무료 티어(Free Tier)에서는 하루 100번의 API 호출이 가능하며, 유료 플랜을 통해 전체 데이터 및 대량 데이터 내보내기 기능을 제공한다. API 설계(API Design)에 대한 피드백을 수렴하여 지속적인 개선을 추구한다.
데이터의 활용 사례 및 한계점
WARN Firehose는 저널리스트, 퀀트 펀드, 리크루터, 연구자 등 다양한 사용자에게 활용될 수 있다. 특히, 퀀트 펀드는 해고 공고를 대체 데이터(Alternative Data)로 활용하여 시장 변화를 예측할 수 있다. 하지만, WARN Act의 예외 조항으로 인해 모든 해고 정보가 포함되지 않을 수 있으며, 데이터의 완전성(Data Completeness)에 대한 한계가 존재한다. 또한, UI 오류로 인해 데이터의 신뢰성에 대한 의문이 제기되었다.
기술 스택 및 배포 환경
WARN Firehose는 Python과 FastAPI를 사용하여 백엔드(Backend)를 구축하고, SQLite를 데이터베이스로 사용한다. 데이터 수집을 위해 50개 주(State)의 웹사이트를 스크래핑하며, SEO를 위해 정적 HTML 페이지를 생성한다. AI 분석에는 Claude Haiku를 활용하며, EC2에 배포되어 운영된다. EC2 기반의 배포(EC2 Deployment)는 서비스의 확장성과 안정성을 확보하는 데 기여한다.