최소 제곱법, 데이터 시각화에서 편향을 보이는 이유는?

선형 회귀 분석에서 최소 제곱법이 데이터의 중심을 관통하지 못하는 편향을 보일 수 있다는 문제 제기

이는 최소 제곱법이 수직 거리를 최소화하는 반면, 데이터의 분산 최대화 방향과는 다른 결과를 낳기 때문임

커뮤니티에서는 총 최소 제곱법 (Total Least Squares) 또는 Deming 회귀와 같은 대안을 제시하며, 데이터의 노이즈를 고려하는 방법론을 강조함

최소 제곱법의 수학적 원리

최소 제곱법은 잔차 제곱합을 최소화하는 방식으로 선형 모델을 추정한다. 구체적으로, 각 데이터 포인트와 회귀선 사이의 수직 거리를 제곱하여 합산하고, 이 값을 최소화하는 선을 찾는다. 따라서, 데이터의 X 값에 노이즈가 없는 것으로 가정하며, Y 값의 변동성에 초점을 맞춘다. 결과적으로, 데이터의 분산 방향과 일치하지 않을 수 있다.

편향의 원인과 대안

최소 제곱법의 편향은 X와 Y 모두에 노이즈가 있는 경우 발생한다. 반면, PCA (주성분 분석)는 데이터의 분산 최대화 방향을 찾으므로, 데이터의 중심을 더 잘 통과하는 경향이 있다. 구체적으로, Deming 회귀 또는 총 최소 제곱법은 X와 Y의 노이즈를 모두 고려하여 편향을 줄일 수 있다. 따라서, 데이터 특성에 맞는 방법을 선택해야 한다.

실제 적용 시 고려 사항

회귀 모델의 결과를 시각적으로 검증할 때, 잔차의 대칭성을 확인하는 것이 중요하다. 구체적으로, 회귀선 위아래로 잔차가 균등하게 분포하는지 확인해야 한다. 따라서, 잔차 분석을 통해 모델의 적합성을 평가하고, 필요에 따라 데이터 정규화 또는 다른 회귀 기법을 적용해야 한다. 결과적으로, 모델의 가정을 이해하고 데이터에 맞는 방법을 선택하는 것이 중요하다.