평균값의 함정, 사용자 경험과 시스템 지표의 괴리

평균 응답 시간(Mean Latency)과 평균 복구 시간(MTTR)이 실제 사용자 경험과 다른 이유를 검사 역설(Inspection Paradox)로 설명함

사용자는 시간 가중치(Time-Weighted)를 부여하지만, 시스템은 단순 평균(Simple Average)을 계산하여 발생하는 괴리를 지적함

꼬리 지연 시간(Tail Latency)과 긴 복구 시간의 중요성을 강조하며, 시뮬레이션을 통해 이를 시각적으로 보여줌

커뮤니티에서는 통계적 개념의 명확한 설명 부족과 제목의 정보성 부족에 대한 논의가 있음

검사 역설(Inspection Paradox)의 통계적 설명

커뮤니티에서는 검사 역설(Inspection Paradox)을 시간 가중치(Time-Weighted) 개념으로 설명한다. 일반적인 평균 계산은 각 요청에 동일한 가중치(1/N)를 부여하지만, 사용자는 긴 요청에 더 큰 가중치를 부여한다. 예를 들어, 1초와 10초의 요청이 있을 때 단순 평균은 5.5초지만, 시간 가중 평균은 약 9.18초가 된다. 이는 사용자가 무작위 시점(Random Point in Time)에서 경험하는 지연 시간을 반영하기 때문이라는 설명이다.

인간의 시간 인식과 평균값의 괴리

원문은 인간이 평균 복구 시간(Mean Time To Recovery, MTTR)을 1분 미만으로 측정해도, 실제로는 긴 장애 시간에 더 큰 비중을 두어 평균 1시간으로 느낀다고 주장한다. 이는 로그 정규 분포(Log-normal Distribution)를 가정한 시뮬레이션에서도 나타나는데, 중앙값(Median) 30분, 99백분위수(p99) 600분일 경우, 서비스는 평균 1시간으로 보지만 사용자는 약 6시간으로 경험할 수 있음을 보여준다. 이는 꼬리 지연 시간(Tail Latency)의 중요성을 강조하는 부분이다.

데이터 측정 방식의 중요성

논의에서는 평균값(Mean) 대신 시간 가중 평균(Time-Weighted Average)을 계산하는 방식을 제안한다. 이는 각 요청의 지연 시간 `x_i`를 전체 지연 시간 합계 `Σ_j x_j`로 나누어 가중치를 부여하는 `E_a[X] = Σ_i x_i^2 / Σ_j x_j` 공식을 통해 설명된다. 또한, 트림 평균(Trimmed Mean)과 같은 측정 방식이 꼬리 부분의 중요한 맥락을 제거할 수 있다는 비판도 제기된다.

제목과 설명의 명확성 부족

일부 사용자는 원문의 제목이 내용 전달에 효과적이지 않다고 지적하며, 't-weighted'나 수식만으로는 통계적 개념을 이해하기 어렵다고 언급한다. 더 명확한 설명과 함께 '검사 역설(Inspection Paradox)' 또는 '지연 시간과 검사 역설(Latency and the Inspection Paradox)'과 같은 제목이 더 적절했을 것이라는 의견이 제시되었다.