Apple Silicon에서 구동되는 AI, 클라우드 없이 모든 것을!

RunAnywhere社는 Apple Silicon을 위한 고속 추론 엔진 MetalRT를 개발하여, LLM, STT, TTS 성능을 향상시킴

RCLI는 MetalRT 기반의 음성 AI 파이프라인으로, 온디바이스 환경에서 43가지 macOS 액션을 음성으로 제어 가능

커뮤니티에서는 RCLI의 성능과 사용성에 긍정적인 반응을 보이며, 특히 지연 시간(Latency) 감소에 주목함

일부 사용자들은 Homebrew 설치 문제, 모델 선택의 유연성 부족, RAG 기능의 활용성에 대한 개선을 제안함

MetalRT: Apple Silicon을 위한 고성능 추론 엔진

RunAnywhere社는 Apple Silicon의 GPU를 활용하여 LLM, STT, TTS를 위한 MetalRT를 개발했다. MetalRT는 커스텀 Metal 쉐이더(Custom Metal Shaders)를 사용하여 llama.cpp, Apple MLX, Ollama, sherpa-onnx보다 빠른 추론 속도를 제공한다. 특히, 메모리 할당을 최소화하고, 3가지 모달리티(Modality)를 위한 단일 엔진을 사용함으로써 지연 시간(Latency)을 줄이는 데 성공했다.

RCLI: 온디바이스 음성 AI 파이프라인

RCLI는 MetalRT를 기반으로 구축된 음성 AI 파이프라인으로, STT, LLM, TTS를 통합하여 macOS에서 43가지 액션을 음성으로 제어할 수 있다. RCLI는 3개의 동시 스레드(Concurrent Threads)를 사용하여 음성 입력, LLM 추론, TTS 합성을 처리하며, RAG(Retrieval-Augmented Generation) 기능을 통해 로컬 문서에 대한 질의응답도 지원한다. 또한, 20개 이상의 모델을 지원하며, TUI(Terminal User Interface)를 통해 모델 관리 및 벤치마킹을 수행할 수 있다.

온디바이스 AI의 성능 최적화

개발자들은 온디바이스 AI의 핵심 과제로 지연 시간(Latency) 복합 문제를 지적한다. MetalRT는 커스텀 GPU 연산 쉐이더(Custom GPU Compute Shaders), 사전 할당된 메모리 풀(Pre-allocated Memory Pool), 락 프리 링 버퍼(Lock-free Ring Buffers)를 통해 지연 시간을 최소화했다. 이러한 최적화는 음성 AI 파이프라인의 각 단계에서 발생하는 지연 시간을 줄여, 사용자 경험을 향상시키는 데 기여한다.

커뮤니티의 피드백 및 개선 사항

커뮤니티에서는 RCLI의 성능과 사용성에 대해 긍정적인 평가를 내렸지만, 몇 가지 개선 사항을 제안했다. Homebrew 설치 문제와 모델 선택의 유연성 부족에 대한 지적이 있었으며, RAG 기능의 활용성에 대한 의문도 제기되었다. 또한, Siri/iOS-Dictation과 같은 수준의 음성 인식 정확도를 요구하는 의견도 있었다. 이러한 피드백은 RCLI의 지속적인 개선에 중요한 역할을 할 것으로 보인다.