넷플릭스, 라이브 방송 운영 시스템 구축 비법 공개
넷플릭스는 초기 라이브 스트리밍(Live Streaming) 서비스 확장을 위해 엔지니어들이 직접 운영을 담당하는 '올핸즈(All-Hands)' 방식을 채택함
라이브 방송 규모가 커짐에 따라, 전문 엔지니어(SOE, BOE) 및 운영팀을 구성하여 역할 분담(Role Specialization)을 통해 효율성을 증대시킴
TOC(Transmission Operations Center) 모델 도입으로 다수의 이벤트를 동시 운영하고, LCC(Live Command Center) 구축을 통해 실시간 모니터링 시스템을 구축함
대규모 이벤트(Big Bet Events)를 위해 별도의 BOC(Broadcast Operations Center)를 운영하며, 최고 수준의 안정성(Reliability) 확보에 집중함
2026년에는 400개 이상의 라이브 이벤트를 목표로, 런던(London)에 LOC(Live Operations Center)를 구축하여 24/7 글로벌 운영 체제(Global Operation System)를 구축할 예정
초기 운영 방식: 올핸즈(All-Hands) 방식의 한계
본문에 따르면 넷플릭스(Netflix)는 라이브 스트리밍(Live Streaming) 초기, 엔지니어들이 직접 시스템을 구축하고 운영하는 '올핸즈(All-Hands)' 방식을 채택했다. 이 방식은 빠른 프로토타입(Prototype) 제작과 문제 해결에 유리했지만, 운영 규모가 커지면서 엔지니어들의 과도한 업무 부담과 확장성(Scalability) 문제를 야기했다.
문제점: 엔지니어들이 24시간 대기하며, 잦은 호출로 인해 번아웃(Burnout) 발생
해결책: 전문 운영팀(SOE, BOE)을 구성하여 엔지니어는 개발에 집중하고, 운영 전문성을 강화
결과적으로, 초기 스타트업(Startup) 방식은 한계에 직면했고, 전문화된 운영 체계 구축이 필수적이었다.
TOC(Transmission Operations Center) 아키텍처
넷플릭스는 다수의 라이브 이벤트를 효율적으로 운영하기 위해 TOC(Transmission Operations Center) 모델을 도입했다. TOC는 전송 제어 운영자(TCO), 스트리밍 제어 운영자(SCO), 방송 제어 운영자(BCO)로 역할을 분담하여, 각 이벤트의 전문성을 높였다.
TCO: 이벤트 현장으로부터의 신호 수신 및 품질 관리, 다중 이벤트 동시 관리(Concurrent Event Management)
SCO: 스트리밍 파이프라인(Streaming Pipeline) 및 외부 배포 채널 관리
BCO: 이벤트의 품질 및 크리에이티브(Creative) 요소 관리, 1:1 이벤트 전담 운영
TOC 모델은 운영 효율성을 극대화하고, 인적 자원(Human Resource)의 효율적 활용을 가능하게 했다.
LCC(Live Command Center)를 통한 실시간 모니터링
넷플릭스는 LCC(Live Command Center)를 구축하여, 라이브 스트리밍의 전반적인 품질과 상태를 실시간으로 모니터링한다. LCC는 3800만 건/초의 이벤트(Event) 데이터를 처리하며, 문제 발생 시 신속한 대응을 지원한다.
Live Control Center: 맞춤형 관측 가능성(Observability) 스택을 통해, 지연 시간(Latency) 최소화
LCC 운영팀: LCC 운영 리드(Operations Leads)와 기술 런칭 매니저(TLM)로 구성, 문제 해결 및 팀 간의 협업 조율
LOL(Live Operational Level) 모델: 이벤트의 중요도에 따라, 엔지니어의 대기 수준(Standby Level)을 차등 적용
LCC는 라이브 스트리밍의 안정성을 확보하고, 장애 발생 시 신속한 대응(Incident Response)을 가능하게 한다.
방송 신호의 안정성 확보 전략
넷플릭스는 라이브 방송의 안정성을 위해, 이벤트 현장으로부터의 신호 전송에 대한 엄격한 기준을 적용한다. 이는 시청자들에게 끊김 없는 시청 경험을 제공하기 위한 핵심 전략이다.
3중 전송 경로: 전용 광케이블(Fiber), 위성 링크(Satellite), 엔터프라이즈급 인터넷(Enterprise-grade Internet)을 활용하여, 전송 경로의 이중화
하드웨어 이중화: 이중화된 라우터(Router) 및 전송 장비를 통해, 단일 장애점(Single Point of Failure) 제거
전원 공급 장치: UPS(Uninterruptible Power Supply) 및 서지 보호(Surge Protection)를 통해, 전원 문제에 대비
이러한 다중화된 시스템은 신호 손실(Signal Loss)을 최소화하고, 라이브 방송의 안정성을 극대화한다.
운영 모델의 지속적인 진화
넷플릭스는 라이브 방송 운영 모델을 지속적으로 개선해왔으며, 이는 급증하는 이벤트 규모에 대응하기 위한 필수적인 과정이었다.
2024년: 72개의 라이브 이벤트 운영, LCC(Live Command Center) 구축 및 운영팀 구성 시작
2025년: 220개의 라이브 이벤트 운영, LCC(Live Command Center) 영구 시설 확보
2026년: 400개 이상의 라이브 이벤트 목표, 런던(London) LOC(Live Operations Center) 구축
넷플릭스는 표준화된 런북(Runbook)과 온보딩(Onboarding) 자료를 통해, 운영 인력의 효율적인 투입을 가능하게 했다. 또한, 유연한 인력 운영(Vendor Model)을 통해, 급증하는 이벤트에 유연하게 대처하고 있다.