LLM으로 텍스트에서 구조화된 정보 추출

LangExtract는 사용자가 정의한 지침에 따라 LLM을 사용하여 비정형 텍스트에서 구조화된 정보를 추출하는 Python 라이브러리이다.

임상 노트나 보고서와 같은 자료를 처리하여 핵심 세부 정보를 식별하고 구성하며, 추출된 데이터가 원본 텍스트에 정확히 일치하도록 한다.

Gemini와 같은 지원되는 모델에서 제어된 생성을 활용하여 강력하고 구조화된 결과를 보장하며, 대규모 문서 처리에도 최적화되어 있다.

정확한 정보 추출을 위한 아키텍처

LangExtract는 Few-shot learning 방식을 활용하여 사용자가 제공한 소수의 예시를 기반으로 모델의 동작을 제어한다. 구체적으로, 텍스트 청크 분할, 병렬 처리, 다중 패스를 통해 대규모 문서에서 정확한 정보 추출을 가능하게 한다. 따라서, 오류 감소 및 정확도 향상을 위해, 텍스트의 맥락을 유지하면서 정보를 추출한다.

다양한 LLM 지원 및 유연성

LangExtract는 Google Gemini와 같은 클라우드 기반 LLM부터 Ollama를 통한 로컬 오픈 소스 모델까지 다양한 모델을 지원한다. 반면, OpenAI 모델을 사용하기 위해서는 추가적인 종속성 설치와 설정이 필요하다. 따라서, 사용자는 자신의 필요에 따라 API Key 설정 또는 로컬 환경 구성을 선택할 수 있으며, 맞춤형 모델을 추가할 수 있는 유연성을 제공한다.

실제 사용 사례 및 확장성

LangExtract는 Romeo and Juliet 전체 텍스트 추출, 의약품 정보 추출, 방사선 보고서 구조화 등 다양한 실제 사용 사례를 제공한다. 구체적으로, Vertex AI Batch API를 활용하여 대규모 작업의 비용을 절감할 수 있다. 따라서, 의료 분야를 포함한 다양한 도메인에서 구조화된 정보 추출을 위한 강력한 도구로 활용될 수 있다.