논문에서 PPT, 그림, 비디오까지, AI로 한 번에!

by DD
4개월 전
조회수 18

Paper2Any는 논문 PDF, 이미지, 텍스트를 기반으로 다양한 멀티모달 콘텐츠를 생성하는 도구임

모델 다이어그램, 기술 로드맵, 실험 플롯, 슬라이드 데크 등을 자동 생성하여 연구 생산성을 향상시킴

Paper2Figure, Paper2PPT, PDF2PPT 등 세부 기능을 제공하며, AI 기반 레이아웃 최적화 기능도 포함

Conda 환경을 사용하여 설치하며, Linux 및 Windows 환경을 지원

멀티모달 콘텐츠 생성 파이프라인

Paper2Any는 논문 PDF, 이미지, 텍스트를 입력으로 받아들여 AI 기반의 다양한 콘텐츠를 생성한다. 특히, Paper2Figure는 모델 아키텍처 다이어그램, 기술 로드맵, 실험 플롯을 생성하며, Paper2PPT는 슬라이드 데크를 생성한다. PDF2PPT는 레이아웃을 유지하며 PDF를 PPT로 변환하는 기능을 제공하며, AI 기반 PPT 레이아웃 최적화 기능도 포함되어 있다.

DataFlow-Agent 아키텍처

본 프로젝트는 DataFlow-Agent라는 새로운 저장소로 아키텍처를 분리하여, 데이터 흐름 연산자 오케스트레이션 및 제작에 초점을 맞춘다. 이는 일반적인 목적의 멀티 에이전트 데이터 흐름 처리 프레임워크와 연산자 개발 툴킷을 제공한다. DataFlow-Agent는 Paper2Any의 핵심 기능을 담당하며, 모듈식 설계(Modular Design)를 통해 확장성을 확보했다.

설치 및 환경 설정

Paper2Any는 Conda 환경을 사용하여 종속성을 관리하며, Linux 및 Windows 환경을 지원한다. 설치 과정은 환경 생성, 종속성 설치, 편집 모드 설치, 환경 변수 설정, Supabase 설정으로 구성된다. 특히, LaTeX 엔진(Tectonic)Inkscape 설치가 필수적이며, Windows 환경에서는 vLLM을 통한 로컬 추론 가속화도 지원한다.

API 및 모델 서비스

Paper2Any는 RESTful API (/api/v1/) 구조를 통해 백엔드 인터페이스를 제공하며, 동적 모델 선택을 지원한다. 로컬 환경에서는 MinerU, SAM, OCR 모델 서비스를 시작하여 고성능 처리를 가능하게 한다. MinerU는 PDF 파싱에 사용되며, SAM은 이미지 분할에, OCR은 텍스트 인식을 담당한다. API 키(API Key)Supabase 설정을 통해 프론트엔드와 백엔드를 연결한다.

OpenDCAI / Paper2Any