Gemma 4, 이제 로컬에서 Claude Code와 함께!

Gemma 4 26B-A4B 모델은 혼합 전문가(MoE) 아키텍처를 통해 48GB 랩탑에서도 51 tokens/sec의 속도로 실행 가능

LM Studio 0.4.0 업데이트로 CLI 지원 및 Anthropic 호환 API 제공, Claude Code와 연동 용이

로컬 환경에서 API 비용 절감, 데이터 프라이버시 보장, 지속적인 사용 가능성 확보

MoE 모델은 4B 파라미터 수준의 성능으로 10B 파라미터급 모델과 경쟁, 메모리 효율성 극대화

혼합 전문가(MoE) 아키텍처의 장점

게시물에 따르면, Gemma 4 26B-A4B 모델은 혼합 전문가(MoE, Mixture-of-Experts) 아키텍처를 활용하여 4B 파라미터만 활성화하여도 10B 파라미터급 모델과 유사한 성능을 낸다. 특히, 48GB 통합 메모리를 갖춘 랩탑에서 51 tokens/sec의 속도로 실행 가능하며, 이는 로컬 환경에서 대규모 모델을 효율적으로 운영할 수 있는 핵심 요소이다. 이러한 MoE 모델은 메모리 사용량을 줄여 하드웨어 제약 없이 고성능을 제공한다.

LM Studio 0.4.0의 Headless CLI 및 API

LM Studio 0.4.0은 llmster를 핵심 추론 엔진으로 분리하여 CLI(Command Line Interface)를 지원한다. 이를 통해 GUI 없이도 모델을 다운로드, 로드, 채팅, 서비스할 수 있으며, CI/CD 파이프라인 및 SSH 세션에서도 활용 가능하다. 특히, Anthropic 호환 API를 제공하여 Claude Code와 같은 도구와의 통합을 용이하게 한다. JIT(Just-In-Time) 모델 로딩 기능은 메모리 효율성을 높여준다.

Claude Code와 Gemma 4의 통합

게시물에서는 Claude Code를 로컬 LM Studio 서버에 연결하여 오프라인 환경에서 코드 리뷰, 편집, 탐색을 수행하는 방법을 제시한다. ANTHROPIC_BASE_URL 및 ANTHROPIC_AUTH_TOKEN 환경 변수를 설정하고, ANTHROPIC_MODEL 변수를 통해 Gemma 4 모델을 사용하도록 설정한다. 이러한 설정을 통해 API 비용 절감, 데이터 프라이버시 보호, 그리고 지속적인 사용 가능성을 확보할 수 있다.

성능 및 메모리 사용량 분석

게시물은 48GB 메모리 환경에서 Gemma 4 모델을 실행했을 때의 메모리 사용량과 성능 지표를 상세히 분석한다. 256K 컨텍스트 길이를 사용하면 약 37.48GB의 메모리가 필요하며, 51 tokens/sec의 속도를 기록한다. --estimate-only 옵션을 사용하여 메모리 사용량을 예측하고, --gpu 옵션을 통해 GPU 사용량을 조절할 수 있다. Flash attention 활성화는 고 컨텍스트 길이에서 메모리 사용량을 줄이는 데 도움이 된다.

로컬 환경에서의 트레이드오프

Gemma 4를 로컬에서 실행하는 것은 API 기반 서비스에 비해 속도 저하라는 단점이 존재한다. 하지만, API 비용 절감, 데이터 프라이버시 보호, 그리고 지속적인 사용 가능성이라는 장점을 제공한다. 특히, Claude Code와 같은 도구를 활용하여 코드 리뷰, 소규모 편집 작업에 활용하는 경우, 로컬 환경의 장점이 더욱 부각된다. 48K 컨텍스트가 충분한 단일 파일 작업에 적합하다.