TL; DR

  • 많은 경우 통제된 실험을 하는 것은 불가능하다.
  • 이 경우 우리는 데이터 탐정이 되어 ‘자연실험’을 찾는 것을 생각해볼 수 있겠다.

우리는 “실험”을 원한다!

잘 아시다시피, 인과관계와 상관관계는 다릅니다. 그리고 역시 아시다시피 상관관계가 가짜(spurious)인 경우가 많습니다. 이곳에 가보시면 황당하고 다양한 가짜 상관관계가 많습니다. 하나 같이 황당한 것들이지만 상관계수는 0.8이 넘습니다. 클릭이 귀찮다는 분들을 위해서 하나만 아래 옮겨보겠습니다.

미국의 과학, 우주공학, 기술에 대한 지출이 목이 졸려 죽는 자살의 숫자와 높은 수준의 상관성을 보이고 있습니다. 과연 둘 사이에 우리가 파악하기 힘든 오묘한 관련성이 있을까요? 좌우간. 원인과 결과를 따지는 것(인과관계)은 어렵습니다. 몹시 어렵습니다. 그래서 영국의 철학자 흄(Hume)은 인과관계라는 걸 정말 존재할까, 존재한다고 해도 인간이 정말로 참되게 알 수 있는 것일까,와 같은 의문을 끊임없이 제기하기도 했습니다. 결국, 인간이 할 수 있는 건 온 힘을 기울여 알고자 노력하는 것뿐입니다.

인과관계를 파악할 수 있는 기본적이고 간단한 해결책은 “실험”을 하는 것입니다. 더 정확하게 표현하면 RCT(Randomized Controlled Trial)입니다. 즉, 어떤 처치 혹은 개입(treatment)이 효과가 있는지를 알기 위해서 우리는 실험의 대상이 되는 집단을 통제 집단(control group)과 처치 집단(treatment group)으로 나눕니다. 여기서 처치 집단이란 어떤 개입이 이뤄진 상태를 의미하고 통제 집단이라는 것은 그렇지 않은 상태를 의미합니다. 이 둘을 비교함으로써 처치의 효과를 알 수 있다는 것입니다.

이렇게 처치의 효과를 인과적으로 파악하려면 어떤 조건이 갖춰져야 할까요? 통제 집단과 처치 집단이 처치를 제외하고는 ‘평균적으로’ 차이가 없어야 합니다. 처치를 제외하고 모든 면에서 평균적으로 같다고 볼 수 있는 집단을 대상으로 이들을 무작위로 둘로 나눌 수 있을 때, 비로소 처치의 인과적 효과를 파악할 수 있다는 것입니다. 통제 군과 실험 군에 속할 개체를 선택할 때 무작위로(randomized) 해야 한다고 말하곤 합니다. 여기서 중요한 것은 무작위 선택이 아니라 통제 집단과 처치 집단의 평균적인 ‘동일성’을 보장하는 것입니다. 이게 핵심입니다.

겉으로 볼 때 이 동일성이 보장될 것 같은 경우에도 제대로 되지 않는 경우도 많습니다. 의학에서 신약 실험을 할 때 지원자를 받은 후 이른바 ‘위약’(가짜약)을 통해 통제 군과 처치 군의 동일성을 담보하고자 합니다. 이때 위약이 무작위로 작동하기 위해서는 가짜약과 진짜약을 같게 만들어야 합니다. 이게 당연해 보이지만 위약을 진짜약과 동일하게 만드는 것은 생각보다 어렵습니다. 의학실험을 진행하다보면 환자들이 약 맛이 다르다는 경험에서 위약을 간파하게 되는 경우가 꽤 많다고 합니다. 겉모양을 똑같이 만들 수 있다고 해도 맛까지 똑같이 만드는 것은 쉬운 일은 아닐 것입니다. 그래서 미국에서는 위약을 잘 만드는 기업들의 가치가 꽤 높다고 합니다.

실험이 불가능한 경우가 너무 많아

불행하게도 실험할 수 없는 경우가 있는 경우보다 더 많습니다. 예를 들어 보지요. 부모의 이혼이 자녀의 대학 진학에 미치는 영향을 알고 싶다고 합시다. 우리가 알고 싶은 건 다른 모든 요소를 통제한 가운데 ‘오직’ 이혼이 자녀의 대학 진학이 미치는 영향입니다. 이걸 실험한다고 생각해보지요. 평균적으로 같은 1살 미만의 자녀 1명을 두고 있지만, 아직 이혼하지 않은 30쌍의 부부를 선택합니다. 30쌍의 부부를 무작위로 선택해서 15쌍은 이혼을 시키고, 나머지 15쌍은 이혼을 시키지 않습니다. 물론 이 15쌍은 추가로 아이를 낳아서도 안 되고 이혼을 해서도 안 됩니다. 그리고 17년이 지난 후 두 집단의 자녀의 대학 진학률을 비교해봅니다.

누가 봐도 말이 되지 않습니다. 대부분의 사회과학 혹은 데이터 과학의 영역에서 사실상 실험이 가능하지 않은 경우가 더 많습니다. 여기서 포기해야 할까요? 당연히 통계학자들은 여기서 필요한 길을 찾으려고 했겠지요. 여러 가지 길들이 이미 개척되고 탐사 되어 왔지요. 오늘 소개할 오솔길은 자연실험입니다.

실험은 실험인데 내가 한 실험이 아니라 ‘자연’이 한 실험이 자연실험입니다. 자연의 가장 큰 특징은 “무작위”라는 것입니다. 흔히 ‘천벌’이 내렸다고 표현하지만 사실 악을 핀셋으로 골라 내 처단하는 천벌 같은 건 없습니다. 처치로 볼 수 있는 어떤 변화가 발생했는데, 이것이 실험에 참가하는 사람들이 선택하거나 대응할 수 없이 닥쳤을 때 이를 자연실험의 상황으로 봅니다. 이해를 돕기 위해 몇 가지 예를 들어보겠습니다.

동경대 프리미엄

일본에서 도쿄대 출신들이 더 많은 보수를 받을 것이라고 쉽게 예상할 수 있습니다. 일본 사회에서 도쿄대 졸업장은 어느 정도의 임금 격차를 낳게 될까요? 이게 연구의 질문이라고 해봅시다. 여기서 도쿄대 출신과 비도쿄대 출신을 비교하는 것은 문제가 있습니다. 도쿄대 출신들이 비도쿄대 출신들보다 더 많은 보수를 받을 만한 특질을 이미 갖추고 있다면, 이는 온전하게 도쿄대 졸업장 때문에 발생한 순 격차라고 보기는 힘듭니다. 아울러 현실에서 이 순수한 효과만을 발라낼 수 있는 데이터를 찾는 것은 불가능에 가깝습니다. 그런데 도쿄대는 1969년 전공투 사태로 탓에 신입생을 선발하지 못했습니다. 시위가 빈번했던 과거 독재정권 시대의 한국에서 생기지 않았던 사태가 일본에서는 1969년에 발생했습니다. 1969년 전공투 사태가 없었다면 도쿄대를 갔을 사람들이 유사한 다른 대학에 진학했을 것입니다. 이들과 도쿄대 68학번 및 70학번과 비교를 통해 동경대 간판의 프리미엄을 추정할 수 있을 것입니다.

John Snow의 Ghost Map

존 스노(John Snow, “왕좌의 게임”의 존 스노 Jon Snow가 아닙니다!)의 콜레라와 수질의 관계에 관한 연구는 자연실험의 고전적 사례입니다. 1854년에 콜레라가 런던을 휩쓸었습니다. 모두 콜레라의 원인을 놓고 우왕좌왕 갑론을박하고 있을 때, 존 스노는 데이터를 모았습니다. 이 점에서 존 스노는 최초의 데이터 과학자이자 역학자(epidemology)라고 할 수 있겠지요. 스노는 그는 일단 1848년 1차 유행기와 1854년 2차 유행기에 사망한 환자들을 지도에 표시했습니다 (아래 그림 참고). 요즘 말로는 시각화이겠지요. 그리고 지도를 통해서 Southwark & Vauxhall 사가 물을 공급하는 지역에서 콜레라 환자가 많이 발생했음을 밝혀냈습니다.

요즘에 보면 심드렁해보일지 모르겠습니다만, 당시의 시대적 한계를 생각해보면 이것만 해도 대단합니다. 존 스노는 여기서 한발 더 나아갔습니다. 그는 Southwark & Vauxhall 사가 제공하는 공공 우물이 콜레라의 원인이라는 것을 밝혀내기 위해서 여러모로 이 회사와 비슷하지만, 취수 방식에서 차이가 있는 비슷한 통제 집단, Lambeth 사를 골라냈습니다. 공공 우물의 공급자로서 두 회사는 여러모로 비슷해 보였습니다. 이것이 “자연실험”이 되기 위해서는 물을 공급받는 사람들이 자발적으로 두 회사 중 하나를 고르면 안 됩니다. 만일 이러한 자기 선택이 이루어졌다면, 이는 통제할 수 없는 어떤 특징이 개입되어 무작위라는 실험의 조건이 깨지게 됩니다. 자연 ‘실험’이 아니게 되는 것이지요. 당시 상수도 우물의 공급자는 무작위에 가깝게 배정되었다고 합니다. 스노는 다음과 같은 단순한 빈도표를 만들어 콜레라가 상수도 공급의 문제라는 점을 밝혀냈습니다.

지역 가구 수 콜레라 사망자 1천 가구당 사망자
Southwark & Vauxhall 40,046 1,263 315
Lambeth 26,107 98 37
Other London 256,423 1,422 59

1854년이라면 콜레라의 원인이 세균감염이라는 사실이 알려지지 않았을 때입니다. 당시 많은 ‘전문가’들은 공기를 통한 감염이 원인이라고 생각했던 그런 시절이었습니다. 스노는 정확한 과학적인 원인을 밝혀낸 것은 아닙니다. 하지만 그는 자료가 제공하는 범위 내에서 문제의 원인을 밝혀냈습니다. 후대 과학 사가들이 연구한 바로는, 당시 문제는 Southwark & Vauxhall 사가 제공한 공공 우물의 취수 깊이가 0.9m에 불과했다는 것이었습니다. 이것이 대규모 콜레라 감염을 가져온 원인이었습니다. 문제가 발생했을 때 빠르게 대처해야 하는 사안의 특성을 생각하면 스노의 기민한 대응과 추론 방법은 지금 봐도 놀랍습니다.

참고문헌

  • 스티브 존슨, “감염지도”, 김영사 (2008)