Whisper보다 4배 빠른 음성 텍스트 변환

by DD
5개월 전
조회수 50

OpenAI Whisper 모델을 기반으로, CTranslate2를 사용하여 음성 텍스트 변환을 수행함

OpenAI Whisper 대비 최대 4배 빠른 속도와 낮은 메모리 사용량 제공

GPU 및 CPU에서 8-bit 양자화를 지원하여 효율성 극대화

CTranslate2를 활용한 고속 추론

Faster Whisper는 CTranslate2를 핵심 엔진으로 사용하여 Transformer 모델의 추론 속도를 획기적으로 개선했다. 구체적으로, CTranslate2는 CUDAcuDNN과 같은 GPU 가속 기술을 활용하여 병렬 처리를 최적화한다. 따라서, OpenAI Whisper보다 최대 4배 빠른 속도를 제공하며, 메모리 사용량도 줄여준다.

다양한 하드웨어 환경 지원

Faster Whisper는 FP16 및 INT8 양자화를 지원하여 다양한 하드웨어 환경에서 최적의 성능을 제공한다. 반면, CUDA 12 이상 환경에서는 cuBLAS 및 cuDNN 라이브러리 설치가 필요하다. 따라서, CPU 환경에서는 INT8 양자화를 통해 메모리 사용량을 줄이고, GPU 환경에서는 FP16 또는 INT8 양자화를 선택하여 속도와 메모리 효율성을 모두 잡을 수 있다.

실제 사용 환경에서의 고려 사항

Faster Whisper는 배치 처리를 지원하여 여러 오디오 파일을 동시에 처리할 수 있다. 구체적으로, batch_size 옵션을 통해 배치 크기를 조절하여 GPU 메모리 사용량을 최적화할 수 있다. 따라서, 대량의 음성 데이터를 처리해야 하는 경우, 배치 처리를 활용하여 전체 처리 시간을 단축하고, VAD 필터를 사용하여 무음 구간을 제거하여 정확도를 높일 수 있다.

SYSTRAN / faster-whisper