올리브영, T4 GPU 1장으로 sLLM 구축 성공!
올리브영은 T4 GPU 1장 환경에서 자체 학습 sLLM을 구축하여, 리뷰 기반 추천 시스템에 도입
Gemma 3-4B 모델을 활용, 상용 LLM 대비 95% 정확도를 유지하며 비용 효율성을 확보
자체 sLLM SFT 방식을 통해 재현성, 버전 관리, 프롬프트 엔지니어링 한계 극복
LoRA 및 QLoRA 기법을 활용하여 16GB VRAM 환경에서의 학습 최적화
향후 더 크고 복잡한 태스크를 위한 대형 모델 학습 및 도메인 확장을 계획
상용 LLM API vs 자체 sLLM: 올리브영의 선택
올리브영은 리뷰 테마 추천 시스템 구축을 위해 상용 LLM API와 자체 sLLM SFT 방식을 비교 분석했다. 재현성(Reproducibility), 버전 통제(Version Control), 운영 비용(Operational Cost) 측면에서 자체 sLLM SFT 방식이 유리하다고 판단했다.
상용 LLM API: 모델 업데이트에 따른 응답 품질 변화, 프롬프트 엔지니어링의 한계, 트래픽 증가 시 비용 급증
자체 sLLM SFT: 학습 데이터, 코드, 체크포인트 관리 용이, 짧은 프롬프트로 안정적 결과 확보, 시간당 고정 비용으로 예측 가능
Gemma 3-4B 선택: 모델 선정 과정
올리브영은 Gemma 3-4B 모델을 기반으로 sLLM을 구축하기 위해, 여러 오픈소스 모델을 비교 검토했다. 한국어 벤치마크(Korean Benchmark) 성능, 컴퓨팅 효율성(Computing Efficiency), 한국어 처리 능력(Korean Processing Ability)을 주요 기준으로 삼았다.
HyperCLOVA X SEED 3B: 한국어 성능 우수, MAU 기반 라이선스 제약
Qwen 2.5/3 시리즈: 벤치마크 성능 우수, 한국어 오타 정정 성능 부족
Gemma 3-4B: T4 GPU 환경에 적합한 메모리 사용량, 멀티링구얼 지원, Gemini 2.0 계열 토크나이저 사용으로 한국어 토큰화 효율 개선
16GB VRAM 환경을 위한 학습 최적화
올리브영은 16GB VRAM(Video RAM) 환경에서 sLLM 학습을 위해 다양한 메모리 최적화 기법을 적용했다. 모델 연산 효율화(Model Operation Efficiency), 배치 처리 최적화(Batch Processing Optimization), LoRA 및 파라미터 Quantization 학습을 통해 학습 가능 환경을 구축했다.
Precision 설정: FP16(BF16) 기반 half-precision 연산
Gradient Checkpointing: 중간 활성화를 일부만 저장하여 메모리 사용량 절감
Gradient Accumulation: 작은 배치에서 그래디언트를 누적하여 큰 배치 효과
QLoRA: LoRA 어댑터 학습과 4bit 양자화 적용으로 VRAM 절감
프롬프트 단축 실험: 효율적인 프롬프트 구성
올리브영은 프롬프트 단축(Prompt Shortening) 실험을 통해, sLLM의 성능을 유지하면서 토큰 비용을 절감하는 최적의 프롬프트 형식을 찾았다. 프롬프트 길이(Prompt Length), 구조적 명시성(Structural Clarity), 예시 기반(Example-based) 여부에 따른 성능 변화를 분석했다.
실험 결과: 설명(Rich Desc)을 함께 제공하는 형식이 가장 안정적
예시 기반 형식: 품질 저하
최소 축약형(TaskTagOnly): 성능 저하
최종 프롬프트: #OY-TASK, FORMAT 규칙, input 제시
sLLM 도입의 주요 성과와 향후 과제
올리브영은 자체 sLLM 도입을 통해 비용 효율(Cost Efficiency), 속도(Speed), 품질(Quality) 측면에서 주요 성과를 달성했다. 상용 LLM 대비 95% 정확도를 유지하며, 배치 처리 최적화로 0.6초대 응답 속도를 확보했다. 향후에는 표현 품질 개선(Expression Quality Improvement), 카드 이미지 자동 생성(Card Image Generation), 더 크고 복잡한 Task(More Complex Tasks)를 위한 대형 모델 학습을 진행할 예정이다.
비용 효율: 외부 API 호출 대비 비용 예측 가능성 확보
속도: 배치 처리 최적화로 0.6초 대 응답 속도 달성
품질: 상용 모델 대비 95% 수준의 정확도 유지