도대체 인과관계란 무엇인가?

“상관관계와 인과관계는 다르다,” 는 말은 이 업계에서 너무 흔하게 들을 수 있다. “Orange is new black”과 비슷한 느낌이랄까? 둘은 다르잖아요! 그렇죠?

솔직히 이렇게 말하는 분들 보면 바지 자락을 잡고 이렇게 묻고 싶다. 그래서 인과관계는 뭡니까? 둘이 서로 다르다고 강조하는 분들 중에서 정작 인과관계를 명확하게 정의하거나 설명하는 분들은 드물다.

사실 인과관계라는 말 자체가 모호하다. 말 그대로 풀면 원인과 결과라는 말인데, 생각해보면 사후 정당화가 될 소지도 크다. 요즘 언론 기사에서 “방탄 소년단의 성공 요인” 류를 많이 접하게 된다. 방탄이 왜 세계적인 성공을 거두었는가? 방탄의 성공을 결과라고 놓고 원인이 무엇인지를 (감히?) 진단하겠다는 것이다. 원인이라고 주장은 할 수 있다. 하지만 그것이 (적어도 그럴듯한 수준에서) 원인인지 어떻게 알 수 있을까? 주장하는 원인이 상관관계가 아닌지 어떻게 알 수 있을까? 원인이 단일하지 않다면 서로 단일하지 않은 원인이 어느 정도나 결과에 영향을 미쳤는지 어떻게 무엇으로 잴 수 있을까? 이쯤 되면 이제 “상관관계와 인과관계는 다르죠” 따위의 말을 쉽게 하기는 힘들 것이다. 그래서 데이비드 흄 같은 철학자는 “네가 인과관계라고 주장하는 것이 진짜 인과관계라고 말할 수 있는 자 누구인가”라고 협박조로 질문했다. (참고로 데이비드 흄은 글쓴이의 최애 철학자다.)

인과관계의 정의

일단 인과관계라는 게 꽤 과학적인 용어인 듯 싶지만, 순수 통계 이론에서는 없는 개념이다. 통계 이론에서는 오직 불확실성을 지닌 사건들의 결합 분포(joint distribution)만이 존재할 뿐이다. 그렇다면 자연 과학에서 이야기하는 인과성이란 무엇인가? 자연과학의 인과성은 (좁은 의미의) 재현성(reproducibility)과 관련되어 있다. 정당한 실험은 동일한 조건에서 반복해서 수행할 수 있어야 한다. 그래서 같은 조건이라면 동일한 결과를 얻어야 한다. 이런 재현성이 보장된다면, 다른 모든 것을 동일하게 유지하고 단 하나의 실험 조건을 바꿀 때 이 변화가 가져올 결과를 파악할 수 있다. 인과관계란 재현성이 충족 될 때 실험 조건의 변화에 따른 결과의 변화(혹은 불변)를 의미한다

사회적 현상, 사건의 영역에서 인과관계란 무엇일까? 사실 대부분의 사회적 현상은 근본적으로 재현이 불가능하다. 2002년 월드컵 4강 신화가 히딩크 감독 때문인지 아닌지 어떻게 알 수 있을까? 만일 타임머신이 있다면 현재 시점에서 2002년 히딩크가 부임하는 시점으로 거슬러 올라가, 어떤 방법을 써서 그의 감독 부임을 막을 수 있다고 하자. 여기서 분기한 얼터너티브 유니버스에서 한국 월드컵 대표팀에게 벌어지는 일을 관찰하면 우리는 자연과학적 의미의 인과성을 얻게 될 것이다. 물론 이러한 관찰이 가능하기 위해서는 얼터너티브 유니버스 사이의 여행도 가능해야 하고, 나의 여행이 각 유니버스가 낳을 결과에 영향을 주어서는 안된다(불확정성의 원리!). 헛소리는 이쯤에서 접도록 하자.

결국 사회적 현상에서 재현성은 기본적으로 달성하기 힘들다. 그래서 과학자들이 재현성을 구현할 수 있는 가장 비슷한 조건을 고민했다. 집단으로 구별된 실험 대상에서 관심 변수의 기댓값이 동일하다면 최소한의 실험 조건은 갖춘 셈이다. 즉, 완전히 동일한 재현은 불가능하지만 A와 B라는 두 개의 표본 집단이 있다고 할 때 인과에서 ‘과’에 해당하는 변수의 기댓값을 비슷하게 맞추자는 취지다.

이게 바로 무작위 실험(random trial)이다. 두 개의 표본 집단이 어떤 모 집단에서 무작위로 뽑혔다면 두 표본은 기본적으로 같다. 이 상황에서 A 집단에는 아무 조치를 취하지 않고 B집단에 어떤 조치를 취할 경우, A를 대조군(control group), B를 처치군(treatement group)이라고 부른다. 무작위 실험을 통해 두 집단이 같다고 간주할 수 있으므로 A와 B 사이의 차이가 있다면 이를 처치의 효과라고 통계학적으로 볼 수 있다. 이러한 방법론에 입각한 유사-실험 연구(quasi experiments)를 통칭해서 RCT(Randomized control trial)이라고 부른다.

이제 다른 상황을 가정해보자. 관심 모 집단에서 두 표본 집단을 선택해 실험을 할 수 있다는 것 역시 무척 행복한 경우다. 예를 들어 대입에서 학종의 비율이 얼마나 되어야 할까, 가 지금 연구의 관심 사항이다. RCT 방법론을 따른다면, 고등학교에 입학하는 학생들 무작위로 1,000 명 씩 5 그룹의 표본을 골라서 각각 학종비율을 30%, 40%, 50%, 60%, 70%로 다르게 정한다. 이들을 대학에 보내고 대학을 졸업 후 10년 정도 지난 이후, 이 학생들의 이력을 검토한다. 이런 과정을 거치면 어떤 학종 비율이 가장 “괜찮았는지”를 판단할 수 있다. 이러한 접근 역시 역시 ‘얼터너티브 유니버스’ 만큼 말이 안된다! 사실 대부분의 사회적 현상에서 RCT는 가능하지 않다. 그렇다면 우리를 ‘인과관계의 저주’에서 구해줄 것은 없다는 말일까?

약간 수학적인 정의

앞서 이야기했던 유사-실험 연구의 내용을 약간의 수식으로 다시 표현해보겠다. 특별히 어려울 것은 없으니 미리 겁먹지 말자. 수식을 굳이 쓰는 이유는 이렇게 해두어야 문제가 명료해지기 때문이다. 적어도 필자는 그렇다.

앞서 말했던 처치()가 0과 1로 구별된다고 하자. 즉, 또는 이고 편의상 이 어떤 처치가 가해진 상태라고 하자. 관찰 대상 가 있을 때 이 대상이 였다면 그 결과는 가 된다. 마찬가지로 이었다면 이 된다. 이 대상에 관한 이론적인 처치 효과는 다음과 같다.

관찰 대상 전체에 대한 기댓값이 ATE(average treatment effect)다.

앞서 보았듯이 이상적인 실험 상황에서는 같은 개체에 대해서 1도 해보고 0도 해보고 할 수 있다. 즉, 자연과학적 의미의 실험 상황에서는 이것이 가능하다. 하지만 많은 사회적 현실에서는 이런 실험이 불가능하고 어느 한쪽 만 관찰하게 된다.

즉, 이든 이든 각각의 처치에 놓은 그 만을 보게 된다. 이러한 상황에서 우리가 각각의 들만 모아서 기댓값을 구했다고 하자.

이러한 문제를 “선택 편의(selection bias)”라고 부른다. 수식으로는 간단하지만 인과관계를 다루는 모든 문제의 근본 문제다. 즉, 같은 개체에 대해서 두 개의 상황을 모두 겪게 한 차이와 원래 그렇게 선택한 집단만 모아서 평균을 낸 값이 일반적으로 같을 수 없다. 전자는 이른바 반사실(counterfactual)를 고려한, 즉 이상적인 실험 조건을 충족하는 상황이고 후자는 아니다.

수식으로 좀 더 자세하게 보자. 우리가 효과 혹은 차이라고 흔히 측정하게 되는 것은 다음과 같다.

이를 위에 적은 수식을 고려하면서 아래처럼 분해해보자.

위 식의 두 항목을 각각 나누어 살펴보자.

  • : 이것이 ATE다. 즉, 같은 집단에 대해서 실현된 사실과 반사실을 비교하고 있다.

  • : 이는 처치군에 속한 사람들이 처치를 받지 않았을 때(반사실)의 결과 그리고 처치에 들지 못한 사람들의 결과, 이 둘 의 차이다. 이 항목이 선택 편의다.

편의 효과를 사례를 통해 살펴보자. 지금 검증하고 싶은 인과관계는 인강을 듣는 것이 고3 학생의 점수가 높이는지 여부이다. 이때 선택 편의는 인강을 수강한 고3 학생들이 인강을 듣지 않았을 때 받았을 평균 점수와 인강을 듣지 않은 학생들의 평균 점수의 차이다. 만일 인강을 수강한 학생들이 원래 공부에 관심이 많은 학생들이라면? 인강을 듣지 않았더라도 이들은 괜찮은 성적을 얻었을 것이다. 우리는 인강이 고3의 성적에 미치는 영향을 알고 싶다. 무척 간단해 보이지만, 편의 효과라는 악마가 단순한 데이터 관찰에 기반한 비교를 방해한다. 관찰 대상이 알아서 선택한 자기 선택(공부에 관심이 많은 학생이 인강도 열심히 듣지!)이 존재할 때 정직한 관찰로는 인과관계를 알 수 없다.

이런 상황에서 인과관계를 구원하는 존재가 무작위화(randomization)다. 만일 를 개체의 자발적인 혹은 무의식적인 선택이 아니라 관찰자가 임의로 할당할 수 있다면, 기댓값 수준에서는 아래와 같은 결과를 기대할 수 있다.

즉, 인강을 수강한 집단과 수강하지 않은 집단이 같은 모집단에서 무작위적으로 추출되었다면, 둘은 기본적으로 같은 집단이다. 인강을 듣지 않았을 때 평균 점수 역시 두 집단에서 같다고 볼 수 있다. RCT가 선택 편의를 제거하는 셈이다.

하지만 무작위화가 불가능하다면 무엇이 우리를 구원해줄 수 있을까?