Arm, 데스크톱 CPU 시장에 도전장: Cortex X925의 등장

Arm의 Cortex X925가 AMD Zen 5 및 Intel Lion Cove와 동등한 데스크톱 성능을 달성하여 주목받음

고성능 코어 설계를 통해 4GHz 클럭 속도와 10-wide 아키텍처를 구현, 경쟁사 대비 우위를 점함

분기 예측(Branch Prediction) 및 L2 캐시(L2 Cache) 성능 향상으로 전반적인 성능을 개선

SPEC CPU2017 벤치마크 결과, 정수 연산(Integer Operations)에서 경쟁사 수준의 성능을 보였으나, 부동 소수점 연산(Floating Point Operations)에서는 다소 뒤쳐짐

Cortex X925의 마이크로아키텍처 분석

Cortex X925는 10-wide 코어(10-wide core) 설계를 통해 AMD Zen 5 및 Intel Lion Cove와 경쟁할 수 있는 성능을 확보했다. 특히, 분기 예측(Branch Prediction) 능력이 뛰어나고, L2 캐시 용량을 최대 3MB까지 지원하여 전반적인 성능을 향상시켰다. 하지만, 128비트 벡터 연산(128-bit vector execution)의 한계는 여전히 존재하며, x86-64 아키텍처 대비 명령어 수(Instruction Count)가 증가하는 문제도 나타났다.

성능 벤치마크 및 경쟁사 비교

SPEC CPU2017 벤치마크 결과에 따르면, Cortex X925는 정수 연산(Integer Operations)에서 AMD Zen 5 및 Intel Lion Cove와 대등한 수준의 성능을 보였다. 하지만, 부동 소수점 연산(Floating Point Operations)에서는 Zen 5에 비해 다소 뒤쳐지는 모습을 보였다. 특히, 메모리 대역폭(Memory Bandwidth)에 의존적인 워크로드에서는 성능 차이가 두드러졌다. 이는 128비트 벡터 레지스터(128-bit vector registers)의 한계와 aarch64 명령어 집합의 비효율성 때문으로 분석된다.

분기 예측(Branch Prediction) 및 캐시(Cache) 구조

Cortex X925는 강력한 분기 예측(Branch Prediction) 기능을 통해 성능을 향상시켰다. 특히, L1 BTB(Branch Target Buffer)의 용량을 늘려 분기 예측 정확도를 높였다. 또한, L2 캐시(L2 Cache)는 2MB 또는 3MB의 용량을 선택할 수 있도록 하여 유연성을 확보했다. 하지만, L1 데이터 캐시(L1 Data Cache)의 4주기 지연 시간은 경쟁사 대비 다소 불리하게 작용할 수 있다.

아키텍처 트레이드오프(Trade-offs) 및 미래 전망

Cortex X925는 고성능을 위해 전력 효율성을 일부 희생했다. 전력 소비(Power Consumption)와 코어 면적(Core Area)을 고려한 A725와는 달리, X925는 성능 극대화에 초점을 맞췄다. 향후 Arm은 L3 캐시 용량을 늘리고, x86-64 생태계의 강점을 극복해야 할 것이다. 또한, 게이밍 워크로드(Gaming Workloads)를 위한 메모리 서브시스템(Memory Subsystem) 개선도 필요하다는 평가다.