구글 젬마 4(Gemma 4), 아이폰에서 오프라인 AI 추론 가능!

구글 젬마 4(Google Gemma 4)가 아이폰에서 온디바이스 AI 추론(On-device AI Inference)을 지원하며, 오프라인 환경(Offline Environment)에서도 작동함

31B 모델은 큐웬(Qwen) 3.5의 27B 모델과 유사한 성능을 보이며, 모바일 환경(Mobile Environment)에 최적화된 E2B, E4B 모델도 제공함

배터리 소모(Battery Drain) 및 애플의 앱스토어 정책(App Store Policy), 그리고 GPU 활용(GPU Utilization)에 대한 다양한 의견이 존재함

사용자들은 UX/API 디자인(UX/API Design)의 개선과 멀티모달 분석(Multimodal Analysis) 기능 지원을 기대함

아이폰 GPU를 활용한 추론 방식

구글 젬마 4(Google Gemma 4)는 아이폰의 GPU(Graphics Processing Unit)를 활용하여 AI 추론을 수행한다. 댓글에 따르면, 이는 애플의 신경 엔진(Neural Engine)에 대한 커스텀 커널(Custom Kernel) 컴파일의 어려움 때문일 수 있다. Metal은 이식성이 뛰어나지만, 전력 소모가 크다는 단점이 있다. 따라서, GPU를 활용하는 방식은 현재로서는 기술적 시연에 가깝다는 평가가 존재한다.

성능 벤치마크 및 최적화

벤치마크 결과에 따르면, 젬마 4(Gemma 4)는 256 토큰(Token)의 프리필(Prefill) 속도 231t/s, 디코드(Decode) 속도 16t/s를 기록했다. 첫 번째 토큰 생성 시간은 1.16초, 초기화 시간은 20초로 나타났다. 하지만, 긴 메시지 처리 시 속도가 저하되는 현상이 발생하며, 이는 열 관리(Thermal Throttling)와는 무관한 것으로 보인다. 전반적인 성능 최적화(Performance Optimization)에 대한 추가적인 연구가 필요하다.

앱스토어 정책 및 개발 제약

애플의 앱스토어 정책으로 인해, 젬마 4(Gemma 4)를 활용한 앱 개발에 제약이 발생할 수 있다는 의견이 제기되었다. 특히, LLM(Large Language Model)을 앱 내에서 직접 사용하는 것이 애플의 정책에 위반될 수 있다는 지적이다. 이는 온디바이스 AI 기술의 상용화에 있어 중요한 규제 준수(Compliance) 문제로 이어진다.

UX/API 디자인 및 기능 개선 요구

사용자들은 젬마 4(Gemma 4)의 UX(User Experience)와 API 디자인(API Design)에 대한 개선을 요구하고 있다. 특히, 멀티모달 분석(Multimodal Analysis) 기능 부재와 웹 검색 등 외부 서비스 연동의 어려움이 지적되었다. 또한, 오픈소스(Open Source) 모델의 특성을 살려, 개발자들이 다양한 기능을 쉽게 구현할 수 있도록 API를 제공해야 한다는 의견이 제시되었다.