인프런, AI 자막 생성 시스템 구축으로 비용 절감 및 성능 향상!

by DD
2년 전
조회수 5

WhisperX를 활용하여 자막 생성 속도 70배 향상을 달성하고, GPU 인스턴스를 활용한 인프라를 구축함

AWS BatchSpot Instance를 적극 활용하여 자막 생성 비용 10배 절감 효과를 얻음

자막 가독성 개선을 위해 WhisperX의 음절 단위 시간 정보를 활용한 Python 스크립트를 개발함

WhisperX 기반 자막 생성 파이프라인

WhisperX를 활용하여 음성 데이터를 음절 단위로 분할하고, 각 음절의 시간 정보를 추출한다. Python 스크립트는 이 정보를 기반으로 자막의 줄 바꿈을 결정하며, 형태소 분석을 통해 문장 경계를 파악하여 가독성을 높인다. 따라서 자막 품질 향상자동화된 자막 생성을 동시에 달성한다.

GPU 인스턴스 및 Spot Instance 활용

자막 생성 과정에서 GPU 인스턴스(g5.xlarge)를 활용하여 WhisperX의 실행 속도를 대폭 향상시켰다. Spot Instance를 적극적으로 활용하여 비용 절감을 이루었으며, AWS Batch를 통해 작업의 자동화확장성을 확보했다. 결과적으로 자막 생성 비용 10배 절감이라는 놀라운 성과를 거두었다.

자막 가독성 개선을 위한 노력

WhisperX의 결과물을 바탕으로 자막 가독성을 개선하기 위해 다양한 방법을 시도했다. 음절 단위 시간 정보를 활용하여 줄 바꿈 규칙을 적용하고, 형태소 분석을 통해 문장 경계를 정확하게 파악했다. 따라서 자막의 품질을 높여 사용자 경험을 향상시켰으며, 자막 수정 요청 기능의 효율성을 높였다.

인프런이 자동으로 자막을 생성하기까지 (AI/인프라 편)