브라우저에서 이미지 업로드 후 3D 모델 생성, 개인 정보 보호에 기여
Apple SHARP 모델을 브라우저에서 실행하여, 이미지 기반의 3D Gaussian splat 생성 기능을 제공함
ONNX Runtime Web을 활용하여 서버 없이 모든 처리를 클라이언트 측에서 수행, 개인 정보 보호에 기여
모델 크기(2.4GB)로 인한 초기 로딩 속도 저하 및 브라우저 호환성 문제 발생 가능성 존재
단일 이미지 기반으로 인한 3D 재구성의 한계와 성능 최적화에 대한 논의가 진행됨
브라우저 기반 3D 모델 생성의 기술적 구현
본 프로젝트는 Apple SHARP 모델을 브라우저 환경에서 구동하기 위해 ONNX Runtime Web을 사용한다. 특히, WebGPU EP(Execution Provider)를 통해 GPU 가속을 활용하여, 클라이언트 측에서 3D Gaussian splat 생성을 가능하게 한다. 개발자는 React 및 TypeScript를 사용하여 UI를 구축하고, Bun을 통해 종속성을 관리하며, Vite를 사용하여 개발 서버를 실행한다. 이러한 기술 스택은 서버 없이 이미지 업로드, 3D 모델 생성, 미리보기 및 다운로드 기능을 제공하여 데이터 미저장 정책(Zero-Retention Policy)을 구현한다.
모델 크기 및 성능 최적화의 과제
프로젝트에서 사용되는 SHARP 모델은 약 2.4GB의 큰 용량을 차지하며, 이로 인해 초기 로딩 시간이 길어지는 문제가 발생한다. 또한, 브라우저의 WebGPU/WASM 지원 여부 및 사용자의 하드웨어 성능에 따라 성능 차이가 발생할 수 있다. 개발자는 Chrome 또는 Edge 브라우저 사용을 권장하며, 메모리 사용량을 줄이기 위해 다른 탭을 닫거나, 모델 초기화 시간을 고려해야 한다. 이러한 성능 문제는 3D 모델 생성의 실용성을 제한하는 주요 요인으로 작용한다.
단일 이미지 기반 3D 재구성의 한계
본 프로젝트는 단일 이미지를 기반으로 3D Gaussian splat을 생성하므로, 3D 재구성의 정확성에 한계가 있다. AI 환각(Hallucination)으로 인해 실제와 다른 3D 형상이 생성될 수 있으며, 이는 특히 복잡한 장면에서 두드러진다. 여러 장의 이미지를 사용하여 3D 모델을 생성하는 다른 기술과 비교하여, 단일 이미지 기반 방식은 3D 모델링의 정확성과 디테일 측면에서 트레이드오프(Trade-offs)를 가진다.
커뮤니티의 기술적 평가 및 활용 사례
커뮤니티에서는 ONNX Runtime Web을 활용한 유사 프로젝트 개발 사례가 공유되었으며, AI 기반 이미지 처리의 가능성을 높게 평가했다. 특히, 개인 정보 보호를 중시하는 환경에서 클라이언트 측 처리가 가지는 장점에 주목했다. 하지만, ONNX Runtime Web의 한계점과 WebGPU 관련 문제, 그리고 3D 모델 생성의 정확성에 대한 개선 필요성이 제기되었다. 또한, VR 환경에서의 활용 가능성에 대한 긍정적인 평가도 있었다.