엡스타인(Epstein) PDF 복원, 기술적 난관과 해결책은?

by DD
3개월 전
조회수 32

미국 법무부(DoJ)의 엡스타인(Epstein) 관련 자료 공개 과정에서 부실한 OCR(Optical Character Recognition) 품질로 인해 PDF 파일 복원에 어려움이 발생함

Base64 인코딩된 바이너리 첨부 파일을 복원하기 위해 다양한 OCR 도구(Tesseract, Amazon Textract)를 사용했지만, Courier New 폰트 문제로 인해 실패함

Courier New 폰트의 낮은 가독성과 OCR 도구의 부정확성으로 인해 1과 l의 구분이 어려워 복원에 난항을 겪음

저자는 전통적인 ML(Machine Learning) 기반 솔루션의 필요성을 제기하며, 문제 해결을 위한 커뮤니티의 참여를 독려함

부실한 OCR 품질과 데이터 손실

게시글에서는 엡스타인(Epstein) 관련 PDF 파일의 OCR(Optical Character Recognition) 품질 저하로 인해 데이터 손실(Data Loss)이 발생했음을 지적한다. 특히, OCR 과정에서 문자 인식 오류, 추가 문자 삽입, 문자 누락 등의 문제가 발생하여 Base64 인코딩된 바이너리 데이터(Binary Data)의 복원을 어렵게 만들었다. 이러한 문제는 법적 증거 자료의 무결성을 훼손하고, 정보 접근성을 저해하는 결과를 초래한다.

Courier New 폰트의 문제점

저자는 엡스타인(Epstein) PDF에 사용된 Courier New 폰트의 낮은 가독성이 OCR의 정확도를 떨어뜨리는 주요 원인이라고 분석한다. Courier New 폰트(Font)는 1과 l의 구분이 어렵고, 글자 획의 굵기가 얇아 OCR 도구가 문자를 정확하게 인식하기 어렵다. 이러한 폰트 문제는 OCR 결과의 오류를 증가시키고, 데이터 복구(Data Recovery)를 더욱 어렵게 만든다.

다양한 OCR 도구의 한계

게시글은 Tesseract, Adobe Acrobat Pro, Amazon Textract 등 다양한 OCR 도구를 사용한 결과를 비교 분석한다. Tesseract(OCR Tool)는 Courier New 폰트의 문제로 인해 부정확한 결과를 보였으며, Adobe Acrobat Pro 역시 만족스러운 결과를 얻지 못했다. Amazon Textract는 상대적으로 나은 결과를 보였지만, 여전히 일관성 없는 인식 오류를 나타냈다. 이러한 결과는 OCR 도구의 성능 한계를 보여준다.

ML 기반 솔루션의 필요성

저자는 현재의 OCR 도구로는 엡스타인(Epstein) PDF의 완전한 복원이 어렵다고 판단하고, ML(Machine Learning) 기반 솔루션의 필요성을 제기한다. 특히, 폰트 특성, 압축 방식 등을 고려한 맞춤형 ML 모델을 통해 OCR 정확도를 향상시킬 수 있다고 주장한다. 이는 데이터 복구(Data Recovery)의 정확도를 높이고, 법적 증거 자료의 신뢰성을 확보하는 데 기여할 수 있다.

Recreating Epstein PDFs from raw encoded attachments