Gemma 4, 이제 Mac에서도 멀티모달 파인 튜닝 가능!

Apple Silicon 기반 Gemma 4 모델의 멀티모달 파인 튜닝(Multimodal Fine-tuning)을 위한 툴킷이 공개됨

텍스트, 이미지, 오디오 데이터셋을 활용한 파인 튜닝 지원 및 GCS/BigQuery 스트리밍 기능 제공

64GB RAM 환경에서도 메모리 부족(OOM) 문제 발생 가능성이 있으며, MLX 미지원으로 인한 아쉬움 표명

커뮤니티에서는 오디오 파인 튜닝에 대한 높은 기대와 함께 실제 사용 경험 공유 및 향후 활용 가능성에 대한 논의 진행

Apple Silicon 환경에서의 메모리 관리

개발자는 64GB RAM을 탑재한 Mac Studio에서도 메모리 부족(OOM) 문제를 겪는다고 언급하며, 긴 시퀀스(Longer Sequences) 파인 튜닝 시 메모리 관리가 중요함을 강조한다. 툴킷은 MPS(Metal Performance Shaders)를 활용하여 Apple Silicon을 지원하지만, 메모리 사용량 최적화를 위해 배치 크기(Batch Size) 조절, 경사 하강법(Gradient Checkpointing), 그리고 `PYTORCH_MPS_HIGH_WATERMARK_RATIO` 설정을 통한 메모리 할당량 제한 등의 방법이 제시된다. 특히, bf16 지원을 통해 성능을 향상시킬 수 있다.

MLX 미지원에 대한 아쉬움

게시자는 MLX를 사용하여 오디오 파인 튜닝을 구현하고 싶었지만, 현재 MLX가 해당 기능을 지원하지 않아 툴킷을 개발하게 되었다고 밝힌다. MLX는 Apple Silicon에 최적화된 머신러닝 프레임워크로, 메모리 효율성(Memory Efficiency)과 성능 향상을 기대할 수 있다. MLX 미지원은 툴킷 개발의 주요 동기 중 하나였으며, 향후 MLX 지원 여부에 따라 툴킷의 활용성이 달라질 수 있다.

다양한 데이터 소스 지원

툴킷은 GCS(Google Cloud Storage) 및 BigQuery에서 데이터를 스트리밍하여 대용량 데이터셋을 처리할 수 있도록 설계되었다. 이는 로컬 저장 공간의 제약 없이 테라바이트(Terabytes) 규모의 데이터를 활용한 파인 튜닝을 가능하게 한다. 또한, CSV 파일을 통한 텍스트, 이미지, 오디오 데이터셋 지원을 통해 다양한 멀티모달 분석(Multimodal Analysis)을 위한 유연성을 제공한다. 툴킷은 데이터 격리 아키텍처(Data Isolation Architecture)를 통해 안전하게 데이터를 처리한다.

커뮤니티의 기대와 활용 방안

커뮤니티에서는 오디오 파인 튜닝에 대한 높은 기대감을 표명하며, 특히 음악 보컬(Music Vocals) 파인 튜닝에 대한 관심을 보인다. 툴킷을 활용하여 도메인 특화 ASR(Automatic Speech Recognition), 이미지 캡셔닝(Image Captioning), VQA(Visual Question Answering) 등 다양한 분야에서 활용할 수 있을 것으로 예상된다. 또한, 개인 정보 보호(Data Privacy)를 위해 로컬 환경에서 모든 작업을 수행할 수 있다는 점이 강조된다.