GLM-5, 오픈소스 모델 벤치마크에서 두각을 나타내다!

GLM-5는 7440억 파라미터(744B parameters) 규모로 출시되었으며, DeepSeek Sparse Attention(DSA) 기술을 통해 배포 비용 절감을 달성함.

다양한 벤치마크에서 GLM-4.7 대비 성능 향상을 보였으며, 특히 코딩 및 에이전트 태스크(Agentic Tasks)에서 두드러진 성과를 기록함.

커뮤니티에서는 벤치마크의 신뢰성 및 가격 정책에 대한 의문과 함께, 중국 AI 기술 발전 속도에 대한 높은 관심을 보임.

오픈소스 모델의 경쟁력 강화와 함께, 상용 모델과의 격차 축소에 대한 기대감이 높아지고 있음.

GLM-5의 기술적 특징: DSA(DeepSeek Sparse Attention)와 RL(Reinforcement Learning)

GLM-5는 DeepSeek Sparse Attention(DSA) 기술을 통합하여 배포 비용을 절감하면서도 긴 컨텍스트(Long Context) 처리 능력을 유지한다. 또한, 비동기 RL 인프라(Asynchronous RL Infrastructure)인 'slime'을 개발하여 RL 훈련의 효율성을 높였다. 이러한 기술적 진보를 통해 GLM-5는 다양한 벤치마크에서 성능 향상(Performance Improvement)을 달성했으며, 특히 에이전트 태스크(Agentic Tasks)에서 두각을 나타냈다.

벤치마크 결과 분석: 경쟁 모델과의 비교

GLM-5는 Humanity's Last Exam, SWE-bench, Vending Bench 2 등 다양한 벤치마크에서 경쟁 모델 대비 우수한 성능을 보였다. 특히 Vending Bench 2에서 $4,432.12의 최종 계정 잔액을 기록하며, Claude Opus 4.5에 근접하는 결과를 보여주었다. 하지만, 일부 커뮤니티에서는 벤치마크가 과장되었을 가능성(Benchmaxxing)을 제기하며, 실제 사용에서의 성능에 대한 의문을 제기했다.

가격 정책 및 오픈소스 모델의 경쟁력

GLM-5는 Hugging Face와 ModelScope에서 오픈소스로 제공되며, MIT 라이선스를 따른다. 하지만, Z.ai 및 BigModel.cn을 통한 API 접근은 비용이 증가(Increased Cost)할 수 있다는 지적이 있다. 특히, 입력 토큰(Input Tokens) 가격이 GLM-4.7보다 비싸다는 점은 사용자 채택(User Adoption)에 영향을 미칠 수 있다. 오픈소스 모델의 경쟁력 강화는 긍정적이나, 가격 경쟁력 확보가 과제이다.

중국 AI 기술 발전과 미국 제재의 영향

이번 GLM-5 출시를 통해 중국 AI 기술의 빠른 성장을 확인할 수 있다. 특히, Huawei Ascend 칩을 사용하여 모델을 훈련했다는 보고는 미국 제재에도 불구하고 중국이 반도체 기술 자립(Semiconductor Independence)에 성공했음을 시사한다. 이는 Nvidia의 수출 감소로 이어질 수 있으며, 미국과 중국 간의 기술 경쟁(Tech Competition)을 더욱 심화시킬 것으로 예상된다.

GLM-5의 활용 분야 및 미래 전망

GLM-5는 복잡한 시스템 엔지니어링 및 장기적인 에이전트 태스크에 특화되어 있으며, 텍스트를 .docx, .pdf, .xlsx 파일로 직접 변환하는 기능을 제공한다. Z.ai의 Agent 모드를 통해 PDF/Word/Excel 생성, 멀티턴 협업(Multi-turn Collaboration) 등을 지원한다. 이러한 기능은 생산성 향상(Productivity Improvement)에 기여할 수 있으며, 향후 다양한 분야에서 활용될 것으로 기대된다.