Thunderbolt RDMA로 AI 모델 실행 속도 향상

exo는 여러 장치를 연결하여 AI 클러스터를 구축하는 오픈소스 프로젝트임

RDMA over Thunderbolt 기술을 통해 장치 간 데이터 전송 속도를 획기적으로 개선

MLX를 백엔드로 사용하여 다양한 AI 모델을 실행 가능

RDMA over Thunderbolt를 활용한 분산 AI 시스템 아키텍처

exo는 Thunderbolt 5를 통해 연결된 여러 장치 간에 RDMA(Remote Direct Memory Access)를 사용하여 데이터 전송 속도를 획기적으로 향상시킨다. 구체적으로, 99%의 레이턴시 감소를 통해 모델 실행 속도를 높인다. 따라서, MLX를 활용하여 모델을 분산 처리하고, Tensor Parallelism 기법을 통해 성능을 더욱 개선한다.

기존 AI 클러스터 솔루션과의 차별점

기존 솔루션과 달리 exo는 자동 장치 검색 기능을 제공하여 수동 설정 없이 클러스터를 구성할 수 있다. Topology-Aware Auto Parallel 기능을 통해 장치 리소스와 네트워크 대역폭을 고려하여 모델을 분산 처리한다. 반면, Linux 환경에서는 현재 CPU만 지원하며, GPU 지원은 개발 중이다. 따라서, macOS 환경에서 Thunderbolt 5를 활용하는 것이 가장 효과적이다.

exo 도입 시 고려 사항 및 API 활용

exo는 API를 통해 모델 인스턴스를 생성하고, 챗 완료 요청을 보낼 수 있다. 구체적으로, `/instance/previews` 엔드포인트를 통해 모델 배치를 미리 확인하고, `/instance` 엔드포인트로 인스턴스를 생성한다. OpenAI API와 유사한 형식으로 `/v1/chat/completions` 엔드포인트를 사용하여 챗 요청을 보낼 수 있다. 따라서, API 문서를 참고하여 exo를 활용하는 것이 중요하다.