100만 페이지 엡스타인 파일 분석 자동화 도구 공개!

100만 페이지 이상의 엡스타인(Epstein) 관련 법원 문서를 분석하기 위한 자동화된 파이프라인(Automated Pipeline) 구축

OCR, 개체명 인식(Named Entity Recognition), 얼굴 인식(Face Detection) 등 다양한 NLP 및 컴퓨터 비전 기술 활용

Next.js 기반 웹 인터페이스(Web Interface)를 통해 문서 검색, 시각화 기능 제공

레드 액션(Redaction) 불일치를 찾아내어 문서의 무결성(Integrity)을 검증

커뮤니티에서는 오픈 소스(Open Source)로 공개된 분석 도구에 대한 높은 관심 표명

자동화된 문서 처리 파이프라인 설계

게시물은 100만 페이지가 넘는 엡스타인(Epstein) 관련 문서를 분석하기 위해 18단계의 NLP/컴퓨터 비전 파이프라인(NLP/Computer Vision Pipeline)을 구축했다고 설명한다. 이 파이프라인은 OCR(Optical Character Recognition)을 통해 PDF를 추출하고, 개체명 인식(Named Entity Recognition)을 통해 16만 개 이상의 개체를 식별한다. 또한, 얼굴 인식(Face Detection) 기술을 활용하여 문서 내 인물들을 자동으로 식별하고, 레드 액션(Redaction) 불일치를 찾아 문서의 무결성을 검증한다.

개체명 인식(Named Entity Recognition) 및 별칭 처리

개발자는 개체명 인식(Named Entity Recognition)을 통해 1500만 개 이상의 언급을 추출하고, 'Jeffrey Epstein', 'JEFFREY EPSTEN', 'Jeffrey Epstein*'과 같은 다양한 별칭을 하나의 표준 항목으로 매핑했다. 이는 방대한 양의 데이터를 효율적으로 분석하기 위한 핵심 기술이다. spaCy와 같은 라이브러리를 사용하여 개체명 인식 모델을 구축하고, OpenAI API를 활용하여 추가적인 정보 추출 및 분석을 수행했을 것으로 예상된다.

얼굴 인식(Face Detection) 및 클러스터링 기술

게시물은 문서 이미지 및 비디오에서 2만 개 이상의 얼굴을 감지하고, 이를 8,500개 이상의 그룹으로 클러스터링하여 자동화된 얼굴 인식(Face Detection) 시스템을 구축했음을 보여준다. 특히, InsightFace와 같은 기술을 활용하여 얼굴을 식별하고, 위키피디아(Wikipedia) 프로필 사진과 매칭하여 인물 정보를 정확하게 파악했다. 이러한 기술은 정보 시각화(Information Visualization) 및 관계 분석(Relationship Analysis)에 기여한다.

Next.js 기반 웹 인터페이스 구축

개발자는 Next.js를 사용하여 문서 검색, 시각화, 분석 기능을 제공하는 웹 인터페이스를 구축했다. 이 인터페이스는 검색 기능(Search Functionality), 문서 뷰어(Document Viewer), 개체 목록(Entity List), 관계 네트워크(Relationship Network), 타임라인(Timeline), 얼굴 클러스터(Face Clusters) 등 다양한 시각화 도구를 제공한다. Tailwind CSS를 사용하여 사용자 인터페이스를 디자인하고, S3를 사용하여 데이터를 저장했을 것으로 예상된다.

레드 액션(Redaction) 불일치 탐지 및 문서 무결성 검증

게시물은 2,200만 쌍의 중복 문서에서 레드 액션(Redaction) 불일치를 찾아내어 문서의 무결성을 검증하는 과정을 설명한다. 이는 문서의 신뢰성을 확보하기 위한 중요한 단계이다. PyMuPDF와 같은 라이브러리를 사용하여 PDF 문서를 분석하고, 문자열 비교(String Comparison)를 통해 레드 액션 처리의 오류를 탐지했을 것으로 예상된다. 이러한 기술은 데이터 무결성(Data Integrity)을 보장하는 데 기여한다.