네오사피엔스, LLM 추론 최적화로 지연 시간 39% 감소!
네오사피엔스는 AI 연기자 서비스 타입캐스트(Typecast) 운영을 위해 LLM 추론 성능 최적화를 진행함
AWS g5, g6e, g7e 인스턴스에서 TensorRT-LLM 기반 벤치마크를 수행하여 처리량(Throughput) 및 지연 시간(Latency) 측정
벤치마크 결과와 실제 운영 환경의 제약 조건을 종합적으로 고려하여 g6e(L40S) + INT8 조합을 최종 선택
g6e + INT8 조합 적용 결과, g5 대비 추론 처리량 46% 향상 및 첫 토큰 지연시간 39% 감소 달성
벤치마크와 프로덕션의 간극: 운영 환경 제약
본문에서는 벤치마크 결과만으로 최적의 인스턴스 및 정밀도 조합을 결정하는 것이 위험하다고 지적하며, 실제 운영 환경의 제약 조건을 강조한다.
트래픽 분포(Traffic Distribution): 경량 LLM 계층은 BS 1~16 구간의 트래픽 비중이 높으므로, BS 64에서의 최대 처리량(Throughput)은 큰 의미가 없을 수 있음
지연 예측성(Latency Predictability): 평균 처리량보다 첫 토큰 지연시간(TTFT) 및 tail latency(P95/P99)의 안정성이 중요
네트워크 연결(Network Connectivity): AWS PrivateLink 기반 프라이빗 연결 구조에서는 리전 간 거리, 홉 수, 교차 계정 접근 등이 지연 시간에 영향을 미침
결과적으로, 벤치마크는 성능의 상한선을 보여줄 뿐이며, 실제 운영 환경의 제약 조건을 고려하여 최적의 조합을 찾아야 한다.
GPT-2 XL을 활용한 벤치마크 설계
네오사피엔스는 GPT-2 XL(1.5B) 모델을 벤치마크에 활용하여 경량 LLM 추론 환경의 성능 특성을 분석했다. GPT-2 XL은 다음과 같은 이유로 선택되었다.
Decoder-only Transformer 구조: Llama-3, Phi-3 등 최신 SLM과 동일한 구조를 공유하여, 배치 크기 및 정밀도 변화에 따른 성능 경향성을 예측 가능
인프라 변별력: 1.5B 규모는 인스턴스 및 정밀도 옵션에 따른 성능 차이를 명확하게 보여줌
실용적 가이드: 실제 서비스에 투입될 다양한 경량 모델들의 최적화 지점을 찾는 데 활용
GPT-2 XL을 통해 얻은 데이터는 실제 서비스의 최적화 지점을 찾는 데 신뢰할 수 있는 가이드 역할을 한다.
g6e(L40S) + INT8 조합의 선택 이유
네오사피엔스는 벤치마크 결과와 운영 환경의 제약 조건을 종합적으로 고려하여 g6e(L40S) + INT8 조합을 최종 선택했다. 이는 다음과 같은 판단에 근거한다.
INT8의 예측 가능성: 다양한 배치 분포에서 일관된 Throughput과 latency 특성을 보이며, 운영 안정성 확보
g7e의 리전 제약: g7e의 제한적인 리전 가용성 및 PrivateLink 기반 네트워크 구조를 고려하여, 교차 리전 트래픽으로 인한 지연 가능성 최소화
전체 시스템 관점: GPU 성능뿐 아니라, 전체 시스템 관점에서 예측 가능한 지연 특성을 중시
결과적으로, g6e(L40S) + INT8 조합은 운영 안정성(Operational Stability)과 비용 효율성(Cost Efficiency)을 동시에 확보하는 최적의 선택이었다.
AWS PrivateLink 기반 프라이빗 연결 구조
네오사피엔스는 AWS PrivateLink를 활용하여 추론 인스턴스를 외부 인터넷에 노출하지 않고, 다른 VPC 또는 계정의 서비스와 프라이빗하게 연결하는 구조를 사용한다. 이 구조는 다음과 같은 특징을 가진다.
보안 강화: 외부 공격으로부터 추론 인스턴스 보호
네트워크 지연: 리전 간 거리, 홉 수, 교차 계정 접근 등이 사용자 체감 레이턴시에 영향
운영 복잡성: PrivateLink 설정 및 관리 필요
이러한 구조는 GPU 연산 성능뿐 아니라, 네트워크 지연, 리전별 인스턴스 가용성, 배치 분포 등 다양한 요소가 전체 시스템 성능에 영향을 미치므로, 종합적인 고려(Comprehensive Consideration)가 필요하다.
토큰당 비용(Cost/Token) 최적화
LLM 추론 비용은 시간당 가격이 아닌 토큰당 비용(Cost/Token)으로 평가해야 한다. 토큰당 비용은 다음과 같은 요소에 의해 결정된다.
배치 분포: 중소형 배치 중심의 워크로드에서는 BS 64에서의 높은 Throughput이 큰 의미가 없을 수 있음
리전 제약: 리전 제약으로 인한 네트워크 지연은 토큰당 비용 증가 요인
운영 안정성: 장애 대응 및 모니터링 난이도 또한 비용에 영향을 미침
결과적으로, 토큰당 비용 최적화(Cost per Token Optimization)를 위해서는 Throughput뿐 아니라, 실제 배치 분포, 네트워크 지연, 운영 안정성 등 다양한 요소를 종합적으로 고려해야 한다.