M3 Pro에서 구동되는 실시간 AI, 음성/영상 입출력 지원!

M3 Pro에서 구동되는 온디바이스(On-device) 실시간 멀티모달 AI 시스템 공개

Gemma 4 E2B 모델을 활용하여 음성 및 시각 정보 처리, Kokoro TTS로 음성 출력

웹소켓(WebSocket) 기반 통신, FastAPI 서버를 통해 브라우저와 연결

Siri와 같은 음성 비서 기능 구현에 대한 기대와 오픈소스 모델 활용에 대한 긍정적 평가

온디바이스(On-device) AI 아키텍처 분석

본 시스템은 브라우저(Browser)에서 음성(Mic) 및 카메라(Camera) 입력을 받아 웹소켓(WebSocket)을 통해 FastAPI 서버로 전송한다. 서버는 Gemma 4 E2B 모델을 사용하여 음성 및 시각 정보를 이해하고, Kokoro TTS를 통해 음성을 생성한다. 특히, Silero VAD를 활용한 음성 활동 감지(Voice Activity Detection), Barge-in 기능, 문장 단위 TTS 스트리밍(Sentence-level TTS Streaming)을 통해 사용자 경험을 향상시켰다. 이는 온디바이스(On-device) 환경에서 실시간 상호작용(Real-time Interaction)을 가능하게 하는 핵심 기술이다.

성능 최적화 및 하드웨어 활용

M3 Pro 환경에서 Gemma 4 E2B 모델을 활용하여 온디바이스(On-device) AI를 구현한 점이 주목할 만하다. 응답 생성(Response Generation)에 약 0.3초, TTS(Text-to-Speech)에 0.3~0.7초가 소요되며, 총 엔드 투 엔드(End-to-end) 응답 시간은 2.5~3.0초로 측정되었다. GPU 가속(GPU Acceleration)을 통해 83 tokens/sec의 디코딩 속도를 달성하여, 실시간(Real-time)에 가까운 성능을 보여준다. 이는 MLX 및 ONNX를 활용한 TTS 백엔드(TTS Backend) 최적화의 결과로 보인다.

커뮤니티의 긍정적 평가 및 활용 사례

커뮤니티에서는 Siri와 같은 음성 비서 기능을 오픈소스(Open Source) 모델로 구현한 점에 대해 긍정적인 반응을 보였다. 특히, 작업 현장(Workshop)에서 핸즈프리(Hands-free) 방식으로 음성 명령을 통해 작업을 수행하거나, 운전 중(Driving)에 음성 비서를 활용하여 정보 검색 및 업무 처리를 하는 등 다양한 활용 사례에 대한 기대감을 나타냈다. 또한, Gemma 4 E2B 모델의 미세 조정(Fine-tuning)을 통해 특정 목적에 맞는 AI를 구축할 수 있다는 점도 언급되었다.

기술적 도전 과제 및 개선 방향

일부 사용자들은 Gemma 4 E2B 모델의 무거운(Heavyweight) 특성으로 인해, 더 가벼운 모델을 활용하는 방안을 모색하기도 했다. 또한, MacOS 네이티브 앱(Native App) 또는 iOS 앱으로의 개발 필요성을 제기하며, 터미널 명령어(Terminal Commands)를 사용하지 않고도 쉽게 접근할 수 있는 환경을 요구했다. 이는 사용자 편의성(User Experience)을 높이기 위한 중요한 과제로, 향후 UI/UX 개선 및 플랫폼 지원 확대를 통해 해결해야 할 부분이다.