로컬 LLM 벤치마크 도구 'whichllm', 당신의 하드웨어에 맞는 LLM을 찾아보세요!
'whichllm'은 사용자의 하드웨어(GPU/CPU/RAM)를 자동 감지하여 HuggingFace에서 제공하는 로컬 LLM 모델을 벤치마크 기반으로 랭킹을 매김
콴타이제이션(Quantization)별 품질 손실을 명확히 보여주는 점과 최신 모델을 반영하는 점에 대해 긍정적인 평가를 받음
웹사이트 형태의 접근성(Accessibility), 긴 컨텍스트 길이 지원, 정확한 벤치마크, 다양한 콴타이제이션(Quantization) 지원에 대한 요구가 제기됨
brew 설치 오류, 오래된 모델 추천, VRAM 추정 방식에 대한 정확성(Accuracy)에 대한 의문이 제기됨
벤치마크 기반 랭킹 시스템의 장점
본 도구는 단순히 모델 크기(Model Size)가 아닌, 실제 벤치마크 결과를 기반으로 LLM을 랭킹하여 최적의 모델 선택(Optimal Model Selection)을 돕는다. 특히, LiveBench, Artificial Analysis, Aider 등 다양한 벤치마크 소스를 통합하여 신뢰도(Reliability)를 높였다. 또한, 최신 모델을 우선시하고, 콴타이제이션(Quantization)에 따른 품질 저하를 시각적으로 보여주는 점이 특징이다.
VRAM 추정 및 컨텍스트 길이 문제
커뮤니티에서는 VRAM 추정 방식과 컨텍스트 길이(Context Length)에 대한 정확성에 대한 의문을 제기했다. 특히, 슬라이딩 윈도우 어텐션(Sliding Window Attention)을 사용하는 모델의 경우, 고정된 컨텍스트 크기 기반의 VRAM 추정은 부정확할 수 있다는 지적이다. 정확한 메모리 사용량 예측(Memory Usage Prediction)은 로컬 LLM 실행의 핵심 요소이므로, 개선이 필요하다.
다양한 콴타이제이션(Quantization) 지원의 중요성
사용자들은 IQ3_M과 같은 다양한 콴타이제이션(Quantization) 형식을 지원할 것을 요구했다. 콴타이제이션(Quantization)은 VRAM 사용량과 속도에 큰 영향을 미치므로, 다양한 옵션을 제공하는 것이 중요하다. 이는 사용자가 자신의 하드웨어 환경에 맞는 최적의 성능(Optimal Performance)을 선택할 수 있도록 돕는다.
웹 기반 인터페이스(Web-Based Interface)의 필요성
일부 사용자는 웹사이트 형태로의 제공을 제안하며, 접근성(Accessibility) 향상을 강조했다. 웹 기반 인터페이스는 별도의 설치 없이 다양한 환경에서 쉽게 접근할 수 있으며, 모델 실행 및 설정에 대한 사용자 편의성(User Convenience)을 높일 수 있다. 또한, 웹사이트 형태는 벤치마크 결과의 시각화에도 유리하다.