영수증 자동 기록 서비스 'Clawshier' 개발 후기: OpenAI vs Ollama

by DD
1개월 전
조회수 14

영수증 이미지 인식지출 기록 자동화를 목표로 하는 오픈소스 프로젝트 'Clawshier' 개발

OpenAIOllama를 활용한 이미지 인식 시도, OpenAI는 60% 성공률, Ollama는 성능 문제로 사용 불가

이미지 인식 단계에서 5~12초 소요, 지출 항목, 총액, 세금 등 추출

날짜 형식 혼동 문제 발생, OpenAI 크레딧 비용 발생, 로컬 모델(Local Model) 사용 필요성 제기

OpenAI와 Ollama를 활용한 이미지 인식 비교

본문에 따르면 'Clawshier'는 OpenAI를 기본 이미지 인식 제공자로 사용하며, Ollama를 대안으로 시도했다. OpenAI는 60%의 성공률을 보이며, 지출 항목, 총액, 세금 등을 비교적 정확하게 추출했다. 반면, Ollamallama3.2-vision:11b 모델 사용 시 무한 루프, AI 환각(Hallucination), 긴 처리 시간 등의 문제로 인해 실용성이 떨어졌다. Ryzen Strix Halo와 같은 고사양 하드웨어(High-spec Hardware)가 있다면 llama3.2-vision:90b 모델을 시도해 볼 수 있다.

영수증 이미지 인식 기술의 한계

글에 따르면 영수증 이미지 인식의 가장 큰 난관은 이미지 품질(Image Quality)텍스트 해독(Text Decoding)의 어려움이다. 특히, 열전사 영수증(Thermal Receipt)의 경우, 조명 상태에 따라 인식률이 크게 저하될 수 있다. 또한, 영수증에 사용되는 약어(Acronym)특수 문자(Special Characters)는 이미지 인식 모델의 성능을 저하시키는 주요 원인으로 작용한다. 저자는 PaddleOCR 또는 Tesseract와 같은 다른 OCR(Optical Character Recognition) 기술을 활용하여 이러한 문제를 해결할 수 있다고 제안한다.

지출 기록 자동화 시스템 아키텍처

본 시스템은 영수증 이미지 캡처, 이미지 인식, 데이터 추출, 스프레드시트 업데이트의 4단계 파이프라인(Pipeline)으로 구성된다. 이미지 인식 단계OpenAI API 호출을 통해 수행되며, 추출된 데이터는 스프레드시트(Spreadsheet)에 기록된다. 데이터 격리 아키텍처(Data Isolation Architecture)는 언급되지 않았지만, OpenAI API를 사용함으로써 개인 정보 보호(Privacy) 및 보안(Security)에 대한 고려가 필요하다. 또한, 날짜 형식(Date Format)의 혼동을 해결하기 위한 추가적인 전처리 과정이 필요하다.

프로젝트 개선 및 향후 과제

저자는 OpenAI 크레딧 비용(OpenAI Credit Cost)을 절감하기 위해 로컬 모델(Local Model) 사용의 필요성을 강조한다. PaddleOCR 또는 Tesseract와 같은 오픈소스 OCR 엔진을 활용하면 데이터 미저장 정책(Zero-Retention Policy)을 구현하고, 개인 정보 보호(Privacy)를 강화할 수 있다. 또한, DX(Developer Experience) 개선을 통해 개발 생산성을 향상시킬 수 있다. 궁극적으로, 이미지 인식 정확도 향상비용 절감을 위한 노력이 필요하다.

Clawshier OpenClaw Skill