DeepSeek V4 Flash, Metal로 가속된 로컬 추론 엔진 등장!

by DD
3주 전
조회수 16

ds4.c는 DeepSeek V4 Flash 모델에 특화된 Metal 기반의 로컬 추론 엔진으로, GGUF 런타임이나 프레임워크에 의존하지 않음

DeepSeek V4 Flash는 적은 파라미터로 빠른 추론 속도를 보이며, 특히 사고(thinking) 모드에서 효율적임

KV 캐시(KV Cache) 압축 기술을 통해 100만 토큰의 긴 컨텍스트를 지원하며, 2-bit 양자화(Quantization)를 통해 128GB RAM 환경에서도 구동 가능

커뮤니티에서는 특정 모델에 특화된 최적화된 추론 엔진 개발에 대한 기대와 함께, 모델 업데이트에 따른 유지보수 부담에 대한 우려가 공존함

Metal 기반의 최적화된 추론 엔진

ds4.c는 DeepSeek V4 Flash 모델에 특화된 Metal 그래프 실행기(Metal Graph Executor)를 사용하며, DS4-specific 로딩, 프롬프트 렌더링, KV 상태 관리, 서버 API 연결을 포함한다. 이는 범용 GGUF 런타임이나 다른 프레임워크를 사용하지 않고, 특정 모델에 대한 하드웨어 최적화(Hardware Optimization)에 집중한 설계이다. 이러한 접근 방식은 모델의 성능을 극대화하는 데 기여하며, 특히 Metal의 병렬 처리 능력을 활용하여 추론 속도(Inference Speed)를 향상시킨다.

KV 캐시(KV Cache)를 활용한 긴 컨텍스트 지원

ds4.c는 DeepSeek V4 Flash 모델의 압축된 KV 캐시(Compressed KV Cache)를 활용하여 긴 컨텍스트 추론을 지원한다. 이는 로컬 컴퓨터에서도 100만 토큰의 컨텍스트를 처리할 수 있게 해주며, 디스크 기반 KV 캐시 지속성(Disk KV Cache Persistence)을 통해 세션 간의 상태 유지(State Preservation)를 가능하게 한다. 이러한 기능은 긴 문맥을 필요로 하는 작업, 예를 들어 긴 문서 요약이나 대화형 챗봇(Chatbot)에 유용하게 활용될 수 있다.

2-bit 양자화(Quantization)를 통한 메모리 효율성

ds4.c는 2-bit 양자화(Quantization)를 지원하여 메모리 사용량을 줄이고, 128GB RAM을 가진 Mac에서도 모델을 실행할 수 있게 한다. 특히, 라우팅된 MoE 전문가(Routed MoE Experts)만 양자화하는 비대칭 양자화(Asymmetrical Quantization) 방식을 사용하여 모델 품질 저하를 최소화한다. 이는 로컬 환경에서 대형 언어 모델(LLM)을 실행하는 데 있어 접근성(Accessibility)을 높이는 중요한 요소로 작용한다.

오픈AI(OpenAI) 및 Anthropic API 호환 서버

ds4-server는 OpenAI 및 Anthropic API와 호환되는 서버를 제공하여, 다양한 클라이언트(Client)와의 통합을 용이하게 한다. 이 서버는 Metal 기반으로, 단일 Metal 워커(Metal Worker)를 통해 추론을 직렬화하여 처리한다. SSE 스트리밍(SSE Streaming)을 지원하며, 디스크 KV 캐시를 활용하여 세션 간의 지속적인 컨텍스트(Persistent Context)를 유지한다. 이를 통해 개발자들은 ds4.c를 기존의 챗봇(Chatbot) 및 에이전트(Agent) 시스템에 쉽게 통합할 수 있다.

커뮤니티의 기대와 과제

커뮤니티에서는 특정 모델에 특화된 ds4.c와 같은 최적화된 추론 엔진(Optimized Inference Engine) 개발에 대한 긍정적인 반응을 보이고 있다. kgeist는 Qwen3 모델을 위한 유사한 프로젝트를 언급하며, 특정 하드웨어와 모델 조합에 맞춰 추론 속도와 품질을 극대화하는 접근 방식에 주목했다. 하지만, 모델 업데이트에 따른 유지보수 부담과, oMLX와의 비교에 대한 궁금증도 제기되었다. 또한, 긴 컨텍스트 읽기 속도에 대한 개선 필요성도 언급되었다.

DeepSeek 4 Flash local inference engine for Metal