200M 유로 슈퍼컴퓨터, MareNostrum V, 데이터 과학자의 도전!
클라우드 환경에 익숙한 데이터 과학자에게 슈퍼컴퓨터는 다른 아키텍처와 운영 규칙을 가진다.
InfiniBand NDR200 패브릭을 사용한 Fat-Tree 토폴로지(Fat-Tree Topology)는 병목 현상 없이 노드 간 통신을 지원한다.
SLURM을 사용하여 작업 스케줄링(Job Scheduling)을 관리하며, Airgap 환경으로 인해 외부 네트워크 접근이 제한된다.
Amdahl의 법칙(Amdahl's Law)에 따라 병렬 처리(Parallel Processing)의 효율성은 직렬 처리(Serial Processing) 비율에 의해 제한된다.
MareNostrum V의 아키텍처와 네트워크
MareNostrum V는 수천 개의 독립적인 컴퓨터를 고속 네트워크로 연결한 분산 시스템(Distributed System)이다. 특히, InfiniBand NDR200 패브릭과 Fat-Tree 토폴로지(Fat-Tree Topology)를 사용하여 노드 간의 고속 통신(High-Speed Communication)을 보장한다. 이러한 구조는 데이터 과학자들이 클라우드 환경에서 경험하는 네트워크 병목 현상(Network Bottleneck)을 해결하고, 대규모 데이터 처리(Large-Scale Data Processing)를 가능하게 한다.
SLURM을 이용한 작업 관리
슈퍼컴퓨터 환경에서는 SLURM(Simple Linux Utility for Resource Management)을 사용하여 작업을 관리한다. 사용자는 SLURM 스크립트를 작성하여 필요한 하드웨어 자원, 소프트웨어 환경, 실행할 코드를 지정한다. #SBATCH 지시어를 통해 작업 이름, 출력 파일, 시간 제한 등을 설정하며, 작업 종속성(Job Dependency)을 이용하여 작업 간의 순서를 제어할 수 있다. 이러한 방식은 자원 효율성(Resource Efficiency)을 높이고, 대규모 병렬 처리(Massive Parallel Processing)를 가능하게 한다.
Airgap 환경과 데이터 처리
MareNostrum V는 Airgap 환경을 갖추고 있어, 외부 인터넷 연결이 제한된다. 따라서, 필요한 라이브러리나 데이터는 사전에 준비되어야 하며, SCP 또는 rsync를 통해 데이터를 전송해야 한다. 이러한 환경은 보안을 강화하지만, 데이터 입출력(Data I/O)에 병목 현상을 발생시킬 수 있다. 데이터 격리 아키텍처(Data Isolation Architecture)는 슈퍼컴퓨터의 안정성(Stability)을 높이는 데 기여한다.
병렬 처리의 한계: Amdahl의 법칙
Amdahl의 법칙(Amdahl's Law)은 병렬 처리의 효율성을 제한하는 요소를 설명한다. 프로그램의 직렬 처리(Serial Processing) 비율이 높을수록, 병렬 처리를 통한 속도 향상(Speedup)은 제한된다. 예를 들어, 프로그램의 5%가 직렬 처리된다면, 아무리 많은 코어를 사용하더라도 최대 20배의 속도 향상만 가능하다. 따라서, 슈퍼컴퓨터 환경에서는 병렬화 가능한 코드(Parallelizable Code)를 작성하고, 통신 오버헤드(Communication Overhead)를 최소화하는 것이 중요하다.
슈퍼컴퓨터 접근성 및 활용
MareNostrum V는 연구자들에게 무료로 제공되며, 스페인 슈퍼컴퓨팅 네트워크(RES) 또는 EuroHPC Joint Undertaking을 통해 접근할 수 있다. 특히, Development Access 트랙은 코드 포팅(Code Porting) 또는 ML 모델 벤치마킹(Benchmarking) 프로젝트에 적합하다. 슈퍼컴퓨터는 고성능 컴퓨팅(High-Performance Computing)을 위한 강력한 도구이며, 데이터 과학자들에게 새로운 연구 기회(New Research Opportunities)를 제공한다.