AI 기반 교육과정 등록 자동화로 69% 시간 절감!

by DD
1개월 전
조회수 8

부트텐트는 Amazon Bedrock과 AWS Step Functions 기반의 자동화 파이프라인을 구축하여 교육과정 등록 시간을 69.0% 절감하고, 필드 정확도 88.7%를 달성함

핵심 기술은 오픈소스 VLM(Qwen3-VL-8B)과 Amazon Bedrock의 Anthropic Claude 모델을 결합한 하이브리드 Vision OCR 전략으로, 한국어 OCR 품질과 비용을 동시에 확보함

7단계 파이프라인(Fetch, Retrieve, Vision, Extract, Ingest, Update, Notify)을 통해 교육기관 담당자의 입력 부담을 최소화하고, 등록 품질을 향상시킴

Validator Agent를 도입하여 추출 결과의 정확성을 검증하고, 오류 검출률 98.0%를 달성하여 시스템의 신뢰성을 높임

하이브리드 Vision OCR 아키텍처 설계

부트텐트는 오픈소스 VLM(Qwen3-VL-8B)Amazon Bedrock의 Claude 4.5 Haiku를 결합한 하이브리드 OCR 전략을 채택하여, OCR 품질과 비용 효율성을 동시에 확보했다.

해상도 제한 극복: Amazon Bedrock의 이미지 크기 제한(8,000x8,000px)을 극복하기 위해, 자체 호스팅 VLM을 활용

비용 절감: 이미지 처리량이 많아질수록 유리한 고정 비용 구조를 선택하여, Haiku 대비 약 40% 비용 절감

Fallback 구조: vLLM 호출 실패 시 Bedrock으로 자동 전환하는 Fallback 구조를 구현하여, 시스템의 안정성(System Stability)을 확보

이러한 하이브리드 접근 방식은 OCR 정확도와 비용 효율성을 모두 고려해야 하는 상황에서 유용하다.

7단계 파이프라인의 기술적 구현

부트텐트는 교육과정 등록 자동화를 위해 7단계 파이프라인을 구축했다. 각 단계는 특정 기술과 역할을 수행하며, 전체 시스템의 효율성을 높인다.

Retrieve 단계: Playwright를 활용하여 동적 페이지를 렌더링하고, HTML을 마크다운으로 변환하여 정보 추출(Information Extraction) 준비

Vision 단계: 하이브리드 OCR 전략을 통해 이미지 내 텍스트를 추출하고, Qwen3-VL-8B와 Claude 4.5 Haiku를 비교하여 OCR 정확도(OCR Accuracy)를 향상

Extract 단계: Claude Sonnet 4.5를 사용하여 55개 필드의 구조화된 JSON을 추출하고, 프롬프트 엔지니어링을 통해 추출 품질(Extraction Quality)을 개선

이러한 파이프라인 구조는 각 단계를 독립적으로 관리하고, 시스템의 확장성을 높이는 데 기여한다.

프롬프트 엔지니어링 및 구조화 추출

부트텐트는 Anthropic의 Claude 프롬프팅 모범 사례를 기반으로, 구조화된 JSON 추출을 위한 프롬프트 엔지니어링을 수행했다.

XML 태그 기반 프롬프트 구조화: 역할 정의, 추출 규칙, 스키마, 검증 체크리스트를 명확하게 구분하여 모델의 이해도를 향상(Improved Understanding)

스키마 정의 및 코드 참조 테이블: 55개 필드의 JSON 템플릿과 15종의 코드 참조 테이블을 제공하여, 모델이 정해진 형식(Defined Format)으로 출력하도록 유도

Hallucination 방지 규칙: 출력 근거 제한, 값 처리 규칙을 통해 모델의 AI 환각(Hallucination)을 최소화

이러한 프롬프트 엔지니어링 기법은 모델의 정확성과 신뢰도를 높이는 데 기여한다.

Validator Agent를 활용한 품질 보증

부트텐트는 Extract 단계에서 생성된 구조화 데이터의 정확성을 검증하기 위해 Validator Agent를 도입했다. Validator Agent는 OCR 결과와 추출된 JSON을 비교하여, 데이터의 품질을 보장한다.

스키마 검증: 필수 필드 존재 여부, 타입 일관성 등을 검사하여 데이터의 구조적 무결성(Structural Integrity) 확보

OCR 근거 기반 사실 검증: OCR 원문과 JSON 값을 직접 대조하여, 데이터의 정확성(Accuracy) 검증

누락 필드 탐지: OCR 원문에 존재하지만 JSON에 반영되지 않은 항목을 찾아내어, 데이터의 완전성(Completeness) 확보

Validator Agent는 데이터 품질을 향상시키고, 수동 검수 시간을 절감하는 데 기여한다.

결과 및 성과 분석

부트텐트는 자동화 시스템 도입을 통해 교육과정 등록 프로세스의 효율성을 크게 향상시켰다.

시간 절감: 기존 방식 대비 평균 69.0%의 시간 절감 효과를 달성하여, 담당자의 업무 부담을 줄임

필드 정확도 향상: 골든 데이터셋 기준 88.7%의 필드 정확도를 달성하여, 데이터 품질을 개선

오류 검출: Validator Agent를 통해 49건의 실제 오류 중 48건을 검출하여, 오류 검출률 98.0%를 기록

이러한 성과는 자동화 시스템의 성공적인 도입을 보여주며, 부트텐트의 운영 목표 달성에 기여한다.

부트텐트의 생성형 AI 기반 교육과정 등록 자동화 시스템 구성하기