1. 사용하는 이유: Heterogeneous Treatment Effect

Causal Forest의 강력한 점 중 하나가 바로 heterogeneous treatment effect, 이질적 처치효과를 계량하는 것에 있다. 이질적 처치효과라 함은, 같은 처치를 받아도 다른 조건 하에 그 효과가 다름을 의미한다.

이렇게 얘기하면 잘 와닿지 않으니 예시를 하나 들어보자:

이상 이질적 처치효과에 대해 알아보았다. Causal Forest 같은 경우 EMSE를 최소화 하는 식으로 트리들을 파티셔닝해 non-parametric하게 이질적 처치효과를 계산할 수 있는 것이다.

잠깐 삼천포로 빠지자면, 이런 이질적 처치효과 연구는 정책 연구에 상당히 강력한 툴이다. 특정 정책을 시행했을 때 가장 영향을 많이 받는 집단을 찾아낼 수 있다면 정책시행의 우선순위 타겟을 정할 수 있기 때문이다.

하지만 causal forest 전에도 이런 이질적 처치효과를 연구하는 모델은 이미 오래 전부터 있어왔다. 그 중 하나가 바로 interaction term이다.

2. 수학적인 의미

일단 하나 짚고 넘어가자면, interaction term은 선형회귀에서 쓰이는 하나의 변수이다. 즉, causal forest와 달리 parametric한 계산이다.

예를들어 교육수준과 성별을 통해 소득을 설명하는 선형회귀모델이 있다고 해보자. 여기서 interaction term을 포함하면 아래와 같은 수식을 가지게 된다.

$$ y = b_0 + b_1 x_1 + b_2 x_2 + b_3 x_1 x_2 $$

여기서 y는 소득, x1은 교육수준, x2는 성별이라고 해보자 (남자 1, 여자 0인 dummy variable). 그리고 x1x2가 바로 interaction term이다.

그럼 interaction term은 무엇을 의미하는가? 이 예시의 경우 같은 교육수준의 increment에 남자로서 받는 연봉의 추가상승분을 의미한다. 이렇게 설명하면 이해가 다소 어려운 감이 있으니 수학적으로 한 번 풀어보도록 한다:

남자의 수식과 여자의 수식은 각각 이러하다:

$$ y = b_0 + b_1x_1 + b_2 + b_3x_1=(b_0+b_2)+(b_1+b_3)x_1 $$

$$ y=b_0+b_1x_1 $$

위가 남자고 아래가 여자다. 상수항은 무시하자. 우리가 관심있는 것은 변화량을 알려주는 coefficient이다. 여기서 b3는 남자이기 때문에 얻어지는 추가적인 값이다. 이런식으로 우리는 변수의 heterogeneous effect를 알 수 있는 것이다.