확산 모델 기반, 1,000 토큰/초의 초고속 LLM 등장!

Inception社가 확산 모델(Diffusion Model) 기반의 초고속 LLM, Mercury 2를 출시함

기존 LLM의 순차적 디코딩(Sequential Decoding) 방식과 달리, 병렬적 토큰 생성을 통해 5배 이상 빠른 속도를 구현

코딩 자동 완성(Autocomplete), 에이전트 루프(Agentic Loops), 실시간 음성 처리(Real-time Voice) 등 다양한 분야에서 활용 가능

커뮤니티에서는 성능(Performance)과 가격(Price)에 대한 긍정적 평가와 함께, 오픈소스 부재(Absence of Open Source)에 대한 아쉬움 표명

확산 모델(Diffusion Model) 기반의 혁신적인 아키텍처

Mercury 2는 기존 LLM의 자기 회귀적(Autoregressive) 방식 대신, 확산 모델(Diffusion Model)을 사용하여 병렬적으로 토큰을 생성한다. 이는 순차적 디코딩(Sequential Decoding)의 병목 현상을 해결하여 1,000 토큰/초 이상의 속도를 가능하게 한다. 특히, NVIDIA Blackwell GPU 환경에서 최적화되어, 실시간 추론(Real-time Reasoning)이 필요한 애플리케이션에 적합하다는 평가를 받는다.

성능과 비용의 균형: 속도와 품질의 트레이드오프

Mercury 2는 속도 향상을 통해 추론(Reasoning)과 관련된 트레이드오프를 개선했다. 기존 LLM은 높은 품질을 위해 더 많은 계산 자원을 필요로 했지만, Mercury 2는 실시간 응답성을 유지하면서도 추론 품질(Reasoning Quality)을 확보했다. 사용자들은 P95 지연 시간(Latency)이 짧고, 일관된 성능을 경험할 수 있으며, 입력 토큰당 $0.25, 출력 토큰당 $0.75의 가격으로 제공된다.

실제 사용 사례: 코딩, 에이전트, 음성 인터페이스

Mercury 2는 코딩 자동 완성(Autocomplete), 에이전트 루프(Agentic Loops), 실시간 음성 인터페이스(Real-time Voice Interface) 등 다양한 분야에서 활용될 수 있다. 특히, 지연 시간(Latency)이 중요한 애플리케이션에서 Mercury 2의 빠른 속도는 사용자 경험을 크게 향상시킨다. 예를 들어, Zed의 공동 창업자는 Mercury 2를 통해 자동 완성 기능이 마치 자신의 사고의 일부처럼 느껴진다고 언급했다.

커뮤니티의 반응: 성능, 가격, 그리고 오픈소스 부재

커뮤니티에서는 Mercury 2의 속도(Speed)와 가격(Price)에 대해 긍정적인 평가가 주를 이루지만, 오픈소스 모델(Open-Source Model)이 아니라는 점에 대한 아쉬움도 제기되었다. 또한, 일부 사용자는 데모 사용 시 서버 과부하(Server Overload)로 인한 오류를 경험했으며, 지연 시간(Latency) 문제로 인해 실제 성능을 체감하기 어렵다는 의견도 있었다. 하지만, 반복적인 작업(Iterative Tasks)에서 속도 향상의 이점을 강조하는 의견도 존재한다.