Whisper보다 4배 빠른 음성 텍스트 변환

OpenAI Whisper 모델을 기반으로, CTranslate2를 사용하여 음성 텍스트 변환을 수행함

OpenAI Whisper 대비 최대 4배 빠른 속도와 낮은 메모리 사용량 제공

GPU 및 CPU에서 8-bit 양자화를 지원하여 효율성 극대화

CTranslate2를 활용한 고속 추론

Faster Whisper는 CTranslate2를 핵심 엔진으로 사용하여 Transformer 모델의 추론 속도를 획기적으로 개선했다. 구체적으로, CTranslate2는 CUDA 및 cuDNN과 같은 GPU 가속 기술을 활용하여 병렬 처리를 최적화한다. 따라서, OpenAI Whisper보다 최대 4배 빠른 속도를 제공하며, 메모리 사용량도 줄여준다.

다양한 하드웨어 환경 지원

Faster Whisper는 FP16 및 INT8 양자화를 지원하여 다양한 하드웨어 환경에서 최적의 성능을 제공한다. 반면, CUDA 12 이상 환경에서는 cuBLAS 및 cuDNN 라이브러리 설치가 필요하다. 따라서, CPU 환경에서는 INT8 양자화를 통해 메모리 사용량을 줄이고, GPU 환경에서는 FP16 또는 INT8 양자화를 선택하여 속도와 메모리 효율성을 모두 잡을 수 있다.

실제 사용 환경에서의 고려 사항

Faster Whisper는 배치 처리를 지원하여 여러 오디오 파일을 동시에 처리할 수 있다. 구체적으로, batch_size 옵션을 통해 배치 크기를 조절하여 GPU 메모리 사용량을 최적화할 수 있다. 따라서, 대량의 음성 데이터를 처리해야 하는 경우, 배치 처리를 활용하여 전체 처리 시간을 단축하고, VAD 필터를 사용하여 무음 구간을 제거하여 정확도를 높일 수 있다.