노르웨이, 자국어 LLM 개발에 2PB 스토리지 투입
노르웨이 국립 도서관, 자국어 이해 LLM 개발 위해 Huawei OceanStor Dorado 플래시 스토리지 2PB 활용
데이터 품질, 정제 및 파이프라인 처리량이 병목 지점이며, 60PB 규모의 보존 시스템과 AI 파이프라인 간의 데이터 이동 문제 발생
커뮤니티에서는 자국어 LLM의 필요성에 대한 의문과 과도한 자원 투입에 대한 비판 제기
주권 AI(Sovereign AI) 개념에 대한 논의와 함께, 상업적 LLM의 한계 지적
데이터 파이프라인 병목 현상
노르웨이 국립 도서관은 2PB 규모의 Huawei OceanStor Dorado 플래시 스토리지를 활용하여 자국어 LLM을 훈련시키고 있다. 하지만, Marius Husnes는 데이터 품질, 정제, 파이프라인 처리량이 병목 지점이라고 언급했다. 특히, 60PB 규모의 데이터 보존 시스템(Preservation System)에서 AI 파이프라인으로의 데이터 이동 과정에서 고속 IO(High-Throughput IO) 문제를 해결해야 한다고 강조했다. 이는 데이터 격리 아키텍처(Data Isolation Architecture) 간의 성능 차이에서 기인한다.
자국어 LLM의 필요성 논쟁
Husnes는 영어 기반 LLM이 노르웨이의 역사, 뉴스, 문화를 제대로 이해하지 못한다는 점을 지적하며, 자국어 LLM의 필요성을 강조했다. 하지만, 댓글에서는 글로벌 LLM(Global LLM)이 이미 다양한 언어로 훈련되고 있다는 반론이 제기되었다. 주권 AI(Sovereign AI)에 대한 개념과 함께, 상업적 LLM(Commercial LLM)의 한계와 데이터 미저장 정책(Zero-Retention Policy)의 중요성에 대한 논의가 이루어졌다.
기술적 도전 과제 및 평가
프로젝트는 평가 도구 부재(Lack of Evaluation Tools), 언어적 특성(Linguistic Characteristics), 시스템 통합(System Integration)과 같은 기술적 도전에 직면해 있다. 특히, 노르웨이어는 두 가지 공식 표기법과 다양한 방언을 가지고 있어, 자체적인 평가 도구를 개발해야 한다. 또한, 보존 아카이브(Preservation Archive), 온프레미스 AI 환경(On-premise AI Environment), 슈퍼컴퓨터(Supercomputer) 간의 원활한 연동을 위한 오케스트레이션(Orchestration) 작업이 진행 중이다.
커뮤니티의 비판적 시각
커뮤니티에서는 과도한 자원 투입(Excessive Resource Allocation)에 대한 우려와 함께, LLM의 실용성(Practicality)에 대한 의문을 제기했다. 특히, 448개의 GPU와 64,512개의 CPU 코어를 가진 HPE Cray Supercomputing EX 시스템의 성능이 LLM 훈련에 충분한지에 대한 의문이 제기되었다. 또한, 데이터 접근성(Data Accessibility)과 수익 배분 구조(Revenue Share Model)에 대한 논의도 이루어졌다.