NVIDIA와 AWS, 자율주행 3.0 개발 위한 End-to-End 파이프라인 공개

자율주행 3.0은 E2E Reasoning VLA 시스템으로, 실제 주행 데이터 기반의 closed-loop 시뮬레이션을 통해 검증됨

AWS와 NVIDIA는 원시 센서 데이터 수집부터 모델 학습, 시뮬레이션 검증까지의 End-to-End 파이프라인을 제시

NVIDIA Cosmos Curator, Dataset Search, Omniverse NuRec, Alpamayo 등 오픈소스 및 상용 소프트웨어 활용

데이터 큐레이션, 검색, 증강, 3D 장면 복원, 모델 학습, SIL 테스트를 포함하는 8단계 파이프라인 아키텍처 제시

데이터 기반 반복 루프를 통해 개발 속도 향상 및 롱테일 시나리오(long-tail scenario)에 대한 대응력 강화

자율주행 3.0 데이터 파이프라인의 핵심 아키텍처

본문은 자율주행 3.0 개발을 위한 End-to-End 파이프라인을 8단계로 상세히 설명한다. 데이터 수집(Data Ingestion) 단계에서는 차량 센서 데이터를 ROS bags, MCAP, ASAM MDF4 등의 포맷으로 수집하여 Amazon S3에 저장한다. 데이터 품질 검증(Data Quality Validation) 및 센서 추출 단계에서는 AWS Batch를 활용하여 데이터 품질을 검증하고, 센서별 스트림으로 분리한다. 데이터 큐레이션(Data Curation) 단계에서는 NVIDIA Cosmos 파운데이션 모델을 사용하여 원시 비디오를 큐레이션하고, 시맨틱이 풍부한 데이터셋으로 변환한다. 검색 및 인덱싱(Search and Indexing) 단계에서는 Amazon OpenSearch Service와 NVIDIA Cosmos Dataset Search(CDS)를 활용하여 큐레이션된 데이터를 검색한다. 이처럼, 각 단계는 데이터의 효율적인 관리와 활용을 위한 핵심 기술들을 포함한다.

NVIDIA Cosmos Curator를 활용한 데이터 큐레이션

NVIDIA Cosmos Curator는 AV 3.0 학습을 위한 고품질 데이터셋 구축에 핵심적인 역할을 한다. Cosmos Curator는 디코딩, 분할, 트랜스코딩, 캡셔닝, 임베딩의 4단계 파이프라인을 통해 원시 비디오를 처리한다. 특히, Cosmos Reason VLM(Vision-Language Model)은 AV에 특화된 고밀도 텍스트 설명을 생성하여, 안전 관련 이벤트, 교통 법규 위반, 악천후 조건 등을 식별한다. 또한, Cosmos Embed는 비디오-텍스트 통합 임베딩을 생성하여 검색, 중복 제거, 제로샷 분류에 적합한 벡터 표현을 제공한다. 이러한 과정을 통해, 엔지니어는 시나리오 밀도가 높고 시맨틱으로 검색 가능한 클립을 획득하여 모델 학습에 활용할 수 있다.

NVIDIA Omniverse NuRec을 활용한 3D 장면 복원

자율주행 3.0의 핵심은 실세계 데이터를 기반으로 한 모델 학습이다. NVIDIA Omniverse NuRec은 실제 센서 녹화 데이터를 사실적인 3D 장면으로 복원하여, sim-to-real gap을 줄이는 데 기여한다. NuRec은 멀티모달 센서 입력(보정된 멀티카메라 비디오, LiDAR 포인트 클라우드, 자차 포즈)을 기반으로 Gaussian Splat 방식을 사용하여 3D 장면을 복원한다. 정적 장면 기하 구조, 장면 외관, 동적 행위자를 캡처하며, NVIDIA Asset Harvester를 통해 동적 에셋을 처리한다. NuRec은 실제 주행 녹화 데이터로부터 도출된 사실적인 디지털 복제본을 생성하여, 수작업 에셋 제작 없이도 사실적인 시뮬레이션 환경을 확보할 수 있도록 한다.

데이터 증강 및 모델 학습을 위한 NVIDIA 기술 활용

NVIDIA는 자율주행 모델 학습을 위한 다양한 기술을 제공한다. 엔지니어는 검색 도구를 통해 특정 주행 시나리오를 탐색하고, Cosmos Transfer를 사용하여 사실적인 합성 변형을 생성한다. Cosmos Transfer는 날씨, 시간대, 환경 변환을 통해 기존 데이터의 커버리지를 확장하며, 93프레임 클립 1개 생성에 NVIDIA B200에서 약 93초가 소요된다. 모델 학습 단계에서는 NVIDIA Alpamayo를 활용하여 E2E Reasoning VLA 모델을 학습한다. 학습 워크플로우는 Fine-tuning, 강화 학습, 최적화의 세 단계로 구성되며, 반복적인 학습 주기를 통해 모델 성능을 개선한다. 이러한 과정을 통해, 모델의 정확도 향상과 엣지 배포를 위한 추론 지연 감소를 동시에 달성한다.

AWS 기반의 Closed-Loop 시뮬레이션 및 반복 루프

자율주행 모델의 최종 검증은 closed-loop 시뮬레이션을 통해 이루어진다. NVIDIA AlpaSim은 오픈소스 시뮬레이션 프레임워크로, 고충실도 신경망 센서 렌더링을 제공하여 확장 가능한 테스트를 지원한다. AlpaSim은 단계 6에서 복원된 3D 장면을 로드하고, 단계 7에서 학습된 Alpamayo 모델을 실행하며, 물리 시뮬레이션을 수행한다. 시뮬레이션 결과는 충돌률, 도로 이탈, 차선 유지 등 다양한 메트릭으로 측정되며, 이 정보는 모델 개선을 위한 피드백 루프로 활용된다. 이 데이터 기반 반복 루프는 개발 속도를 가속화하고, 롱테일 시나리오에 대한 대응력을 강화하여, 자율주행 시스템의 안전성 및 신뢰성 향상에 기여한다.