내 목소리 그대로! TTS 모델 제작 실험

발표자는 자신의 목소리를 복제하는 TTS 모델을 만들기 위해 보이스 클로닝(Voice Cloning) 기술을 활용함

최신 GPU를 활용하여 보이스 클로닝 모델을 실험하고, TTS 모델 제작 과정을 상세히 설명함

음성 데이터 수집, 데이터셋 구성, 파인 튜닝, 추론 등 TTS 모델 제작 전반에 걸친 과정을 소개함

실제 제작한 TTS 모델을 시연하며, 다양한 문장을 자신의 목소리로 읽는 모습을 보여줌

TTS 모델 제작의 핵심: 보이스 클로닝

발표자는 자신의 목소리를 똑같이 따라 하는 TTS 모델을 만들기 위해 보이스 클로닝 모델을 활용한다고 설명한다. 보이스 클로닝은 특정 화자의 음성을 분석하여 해당 화자의 음성과 유사한 음성을 생성하는 기술이다. 발표자는 보이스 클로닝 모델을 찾기 위해 다양한 모델을 탐색하고, 7년 전에 구글(Google)에서 만든 모델을 예시로 제시한다. 이 모델은 음성을 입력하면 특징을 추출하고, 문자와 함께 토큰으로 변환하여 멜 스펙토그램(Mel-spectrogram) 형태로 음성을 생성한다.

최신 TTS 모델의 동향: 트랜스포머 기반

영상에서는 최근 TTS 모델의 주류가 트랜스포머(Transformer) 기반으로 변화하고 있다고 언급한다. 트랜스포머는 음성을 문자처럼 토큰으로 변환하여 처리하며, 이를 통해 음성의 퀄리티를 향상시킬 수 있다. 발표자는 이러한 트랜스포머 기반 보이스 카피 모델을 활용하여 자신의 목소리를 복제하는 실험을 진행한다. 발표자는 실험 결과를 통해 퀄리티 좋은 목소리 복제가 가능함을 보여주며, 학습 시 토엔과 음질까지 학습하는 것이 중요하다고 강조한다.

TTS 모델 제작 과정: 데이터셋 구성 및 파인 튜닝

발표자는 TTS 모델을 제작하기 위한 구체적인 과정을 설명한다. 먼저, 음성 데이터를 수집하고, ASR(Automatic Speech Recognition) 기능을 사용하여 자막을 생성한다. 생성된 자막을 검토하고, 데이터셋을 구성한다. 그 후, 파인 튜닝 과정을 거쳐 모델을 학습시킨다. 발표자는 소 빗츠(So-vits) 모델과 GPT 모델을 차례로 학습시키며, 배치 사이즈(Batch Size) 설정 등 세부적인 팁을 제공한다. 또한, 추론용 웹 UI를 활용하여 모델의 성능을 테스트하는 과정을 시연한다.

TTS 모델 활용 팁: 파인 튜닝 및 추론

발표자는 TTS 모델을 효율적으로 활용하기 위한 팁을 제시한다. 먼저, 이미 만들어진 모델을 파인 튜닝하는 것이 시간과 비용을 절약하는 좋은 방법이라고 강조한다. 발표자는 Anif(애니프)에서 출시한 모델을 선택하여 파인 튜닝을 진행한다. 파인 튜닝을 위해서는 음성 파일을 준비하고, ASR 기능을 사용하여 자막을 생성해야 한다. 추론 단계에서는 레퍼런스 오디오 파일을 업로드하고, 원하는 문자를 입력하여 모델의 결과를 확인할 수 있다. 발표자는 다양한 버전을 테스트하여 퀄리티를 개선하는 것이 중요하다고 조언한다.