AI와 OCR 기술로 부활한 1927-1945년 미국 산림청 일지
개인의 역사 기록(Historical Records)을 AI와 OCR 기술을 활용하여 디지털화한 프로젝트 소개
수기 인식(Handwriting Recognition)을 위해 Mistral OCR을, 요약 및 색인(Summarization and Indexing)을 위해 Claude를 활용
Postgres 데이터베이스(Postgres Database) 구축 및 자동 스캔(Auto Scan)을 위한 Python 스크립트(Python Script) 활용
미국 일기 프로젝트(American Diary Project)와 같은 유사 프로젝트에 대한 커뮤니티의 관심 증가
AI 기반의 수기 텍스트 변환(Handwriting Transcription)
프로젝트는 Mistral OCR을 활용하여 1927년부터 1945년까지의 일기 내용을 텍스트로 변환했다. 특히, 7488페이지에 달하는 방대한 분량을 처리하기 위해 자동 스캔(Auto Scan) 및 데이터베이스 구축(Database Construction)을 위한 Python 스크립트를 직접 개발했다. 수기 텍스트(Handwritten Text)의 특성상 정확도 확보가 어려웠지만, AI 기술을 통해 상당 부분 해결했다.
데이터베이스 설계 및 구축
일지 내용을 체계적으로 관리하기 위해 Postgres 데이터베이스(Postgres Database)를 구축했다. 댓글에서는 SANE 기능을 활용하여 스캔 이미지의 자동 자르기 및 보정을 수행하고, Python 스크립트를 통해 자동 스캔 및 데이터베이스에 저장하는 과정을 자동화했다고 언급했다. 이러한 데이터 격리 아키텍처(Data Isolation Architecture)는 방대한 양의 데이터를 효율적으로 관리하고 검색하는 데 기여했다.
AI 기반의 요약 및 색인 생성
프로젝트는 Anthropic Claude를 사용하여 일지 내용의 요약 및 색인 생성을 자동화했다. Claude는 월별 요약, 인물 및 장소 정보 추출을 수행하여 검색 가능한 데이터(Searchable Data)를 구축하는 데 기여했다. 이러한 AI 기반의 정보 추출(Information Extraction)은 방대한 기록에서 필요한 정보를 빠르게 찾을 수 있도록 돕는다.
오픈소스 기술 및 클라우드 호스팅
프로젝트는 오픈소스 기술(Open Source Technology)과 클라우드 호스팅(Cloud Hosting)을 활용하여 비용 효율성을 높였다. DreamHost를 통해 웹사이트를 호스팅하고, Flask 앱(Flask App)을 기반으로 정적 HTML 페이지를 생성하여 배포했다. 이러한 접근 방식은 프로젝트의 접근성을 높이고, 장기적인 유지보수를 용이하게 한다.