LLM 학습 데이터셋, NVIDIA 논문으로 뜯어보기

SK텔레콤의 LLM 사전학습 데이터셋 구축 경험을 공유하며, CCNet 기반 파이프라인 구축 과정을 설명

NVIDIA EMNLP24 논문을 통해 데이터 품질 필터링, 도메인 재샘플링 등 LLM 학습 데이터셋 구축 전략 소개

데이터 중복 제거 및 품질 필터링을 통해 LLM 정확도 향상, 샘플링 전략으로 모델 성능 56.81 -> 57.88로 개선

CCNet 기반 데이터 파이프라인 구축

데이터 엔지니어링팀은 PySpark를 활용하여 CCNet 구조 기반의 데이터 파이프라인을 구축했다. 구체적으로 웹 크롤링 데이터에서 고품질 한국어 문서를 추출하기 위해 품질 필터링과 언어 식별 모듈을 개발했다. 따라서 Airflow를 사용하여 파이프라인을 스케줄링하고, 대규모 데이터 처리의 어려움을 극복했다.

NVIDIA 논문: 데이터셋 구축 전략

NVIDIA는 EMNLP24에서 LLM 학습 데이터셋 구축에 대한 논문을 발표했다. 중복 제거와 품질 필터링을 통해 LLM 정확도를 향상시키고, DSIR을 활용하여 도메인별 샘플링 비율을 조정했다. 반면 DeBERTaV3 기반 분류기를 사용하여 데이터 품질, 도메인, 발화 유형을 분석하고, 샘플링 전략을 실험했다.

실전 적용 가이드: 데이터셋 품질 개선

LLM 학습 데이터셋 품질 개선을 위해 중복 제거와 품질 필터링을 우선적으로 적용해야 한다. 구체적으로 LSH 기반의 퍼지 중복 제거를 활용하고, KenLM으로 학습된 퍼플렉서티 모델을 사용하여 낮은 품질의 문서를 제거한다. 따라서 DSIR을 통해 특정 도메인 데이터를 강조하는 전략을 고려할 수 있다.