1T 모델의 1000 TPS 경신, 추론 속도의 궁극적 경계
레거시 FP8/INT16 양자화의 메모리 대역폭 병목을 해결하기 위해 FP4 양자화(FP4 Quantization)를 MoE 전문가 모듈에만 선택적으로 적용하여 모델 크기를 극적으로 줄임
기존 스펙큘레이티브 디코딩의 드래프트 모델 품질 의존성을 극복하기 위해 DFlash 블록 레벨 병렬 예측(Block-Level Masked Parallel Prediction) 방식을 도입하여 평균 승인 길이 6.30 달성
TileRT 퍼시스턴트 엔진 커널(Persistent Engine Kernel)과 워프 특수화(Warp Specialization)를 통해 단일 8-GPU commodity 노드에서 1T 모델의 1000+ TPS 추론 속도 실현
제한 기간(2026년 6월 9~23일) 동안 3배 가격(정품 대비)으로 10배 속도 향상을 제공하며, HuggingFace에 FP4 양자화 가중치와 DFlash 체크포인트 오픈소스화
FP4 양자화의 전략적 선택과 MoE 아키텍처의 시너지
1T(1조) 파라미터 규모의 모델에서 전통적인 FP8/INT8 양자화조차 메모리 풋프린트와 대역폭 압박을 감당하기 어렵다는 문제가 존재한다.
선택적 FP4 양자화(Selective FP4 Quantization): MiMo-V2.5-Pro의 MoE(Mixture of Experts) 아키텍처에서 Experts가 파라미터의 대부분을 차지하며 양자화 내성이 가장 높은 점을 활용, MoE Experts에만 MXFP4 포맷을 적용하고 나머지 모듈은 원본 정밀도를 유지하는 혼합 정밀도 전략(Mixed Precision Strategy) 채택
FP4 QAT(Quantization-Aware Training)를 통해 양자화 손실을 보상하며, 벤치마크상 원본 모델과 동등한 성능 유지 확인
핵심 트레이드오프: 전체 모델에 FP4 적용 시 복잡한 추론/논리/코드 생성에서 성능 저하 발생하므로, 적용 범위의 전략적 분리가 필수적
결과적으로 모델 크기 축소와 하드웨어 대역폭 활용 극대화를 동시에 달성하면서도 추론 품질 저하를 최소화하는 비용 효율적 양자화(Cost-Effective Quantization) 구현
DFlash 스펙큘레이티브 디코딩의 혁신적 접근
기존 스펙큘레이티브 디코딩은 작은 드래프트 모델이 후속 토큰을 '예측'하고 대형 모델이 검증하는 구조로, 오토레그레시브 생성(1회 포워드 패스당 1 토큰)을 다중 토큰 병렬 생성으로 변환한다.
DFlash의 근본적 차별점: 드래프트 모델이 단일 포워드 패스에서 마스크된 전체 블록을 채움으로써 '오토레그레시브 드래프팅'의 직렬 제약(Rectifying Serial Bottleneck)을 근본적으로 제거
Sliding Window Attention(SWA) 전용 드래프트 모델 설계로 컨텍스트 길이에 선형적인 연산을 상수 시간으로 전환, 완전한 프렐릭스 의존성 제거
Muon 이차 최적화제(Second-Order Optimizer)와 자기 증류(Self-Distillation)를 활용하여 컴팩트 마스크 블록에서도 이상적인 승인율 달성
측정 결과: 코딩 시나리오에서 평균 승인 길이 6.30(최대 7.14), 수학/추론 5.56, 에이전트 4.29로 검증 라운드당 8개 드래프트 토큰 중 6~7개 승인 가능
한계점: 의미론적으로 발산이 큰 일반 대화 시나리오에서는 아직 승인율이 높지 않아 시나리오별 최적화의 여지 존재
TileRT의 마이크로초 단위 실행 모델 혁신
{
"content": "1000 TPS 운영 주파수에서는 각 오퍼레이터의 수명주기가 마이크로초 수준으로 압축돼, 기존 추론 시스템의 오퍼레이터 경계가 핵심 병목으로 드러납니다.\n\n• 퍼시스턴트 엔진 커널(Persistent Engine Kernel): 개별 오퍼레이터 런칭 방식을 완전히 버리고, 전체 컴퓨트 파이프라인을 GPU 안에 계속 상주시키며 흐르게 하는 지속적 실행 아키텍처 구현\n\n• 워프 특수화(Warp Specialization): 타일 단위에서 통신, 데이터 이동, 텐서 연산을 더 세부적인 수준으로 나누어 이종 실행 도메인 간 독립적이면서도 정밀하게 조정된 작동을 실현\n\n• 마이크로초 스케일 하드웨어-소프트웨어 딥 컨버전스(Deep Convergence): 런타임 최적화만으로는 물리적 한계에 도달하기 때문에, TileRT 시스템 팀과 Xiaomi MiMo 팀이 소프트웨어 레이어 경계를 넘어 알고리즘 특성과 초저지연 실행 파이프라인을 긴밀하게 결합\n\n• 1000 TPS 달성은 점진적 최적화의 우연이 아니라, 세계 수준의 시스템 인프라와 극한 알고리즘 모델이 서로를 향해 깊이 수렴하며 공동 진화한 필연적 결과"
}
Commodity GPU에서 전문 하드웨어를 능가하는 코드사인의 힘
업계에서 유사한 극한 속도를 달성하는 기존 접근법은 전문 하드웨어에 의존하는 경향이 있다.
Cerebras의 웨이퍼 스케일 통합(Wafer-Scale Integration)이나 Groq의 온칩 SRAM 전용 아키텍처와 달리, Xiaomi MiMo와 TileRT는 Commodity GPU만으로 더 인상적인 추론 속도를 달성하는 독특한 경로 선택
핵심 전략: 모델-시스템 코드사인(Model-System Codesign)을 통해 모델 최적화(FP4 양자화, DFlash 스펙큘레이티브 디코딩)와 시스템 최적화(TileRT 컴파일 엔진, 커스텀 컴퓨트 커널)를 분리되지 않은 하나의 통합 설계로 결합
이 접근법의 실제 의미: 전문 하드웨어에 접근할 수 없는 조직에서도 소프트웨어 최적화의 궁극적 잠재력을 입증하며, 추론 인프라 민주화(Democratization of Inference Infrastructure)에 기여
Hacker News 댓글에 따르면 Cerebras가 Kimi K2.6을 3000 TPS로 시험 중이지만, 표준 8-GPU 노드에서 1000+ TPS를 달성한 것은 비용 효율성 측면에서 강력한 경쟁력을 보여줌