1. WLS의 목적

두괄식으로 결론부터 꺼낸다. Heteroskedatistic한 데이터를 homoskedatistic하게 바꿔주기 위함이다.

앞서 OLS linear regression을 다시 떠올려 보자. Gauss-Markov Theorem 중에서 homoskedaticity에 관한 항목이 있다. 이를 만족하지 못할 경우 OLS는 BLUE하지 않다.

왜일까. 생각을 해보자. 아래와 같이 이분산성을 띄는 데이터가 있다고 해보자.

스크린샷 2023-08-26 오전 1.15.17.png

저 그림을 보면서 머릿속에서 중간에 vertical한 선을 그어보자 (귀찮아서 안 그림..). 그럼 그림이 좌변과 우변으로 나누어진다.

이런 와중에 새로운 데이터가 조금 추가되었다고 해보자. 좌측에 대세에서 벗어난 포인트가 추가된 것과, 우측에 분산이 큰 포인트 몇개가 추가된 것이 과연 우리가 그린 모델에 동일한 영향을 줄까? 그렇지 않다. 우측에서 대세에서 벗어난 것은 별로 색다를 것이 없지만, 좌측에서 대세에 벗어난 것은 상당히 색다른 데이터이며, 모델에 영향을 많이 가져다 주어야 할 것이다. (일단 이해를 위해 좌우, 두 섹션으로 쪼개서 설명했지만, 좀 더 정확하게는 infinitesimal하게 쪼개지는 연속적인 개념으로 보는 것이 좋다)

하지만 OLS는 그런 조정이 불가하다. 단순히 잔차를 square하는 방식으로 진행하기 때문이다.

WLS는 이 문제를 해결하고자 하는 것이다. 각 데이터 포인트 Xi 마다 가중치를 주어서 이분산성을 띄는 데이터를 등분산성으로 바꾸는 것이다.

2. Weighting에 대한 직관적인 이해

가중치는 오차의 분산의 reciprocal이다. 아래와 같다:

$$ w_i = 1/Var(e_i) $$

수학적으로 파고 들어가기 전에 직관적으로 이를 어떻게 이해하면 좋을지 생각해보자. 분산이 높은 데이터포인트일수록 가중치가 낮은 것이다. 데이터가 대세에서 벗어날 수록 그 데이터를 덜 중요하게 보겠다는 것으로 볼 수 있다. 이 덕에 WLS는 OLS에 비해 아웃라이어에 대해 영향을 덜 받는 robustness를 보인다.

직관적인 이해는 이 정도로 하고 수학적인 풀이로 넘어가자.

3. 수학적인 설명

y와 변수 매트릭스 X의 상관관계가 아래와 같다고 해보자:

$$ y = X\beta+\epsilon $$

이중 오차의 기댓값은 0이다. 수식으로 표현하면 아래와 같다:

$$ E(\epsilon) = 0 $$