데이터 시각화 - #1 탐사분석이란?

정보 시대를 맞이해, 매 순간마다 무한이라고 표현해도 무방할 만큼 많은 양의 데이터가 생산되고 저장되고 있습니다. 특히 개인의 행동 뿐만 아닌 유저간의 모든 사건들이 기록되는 가상세계, 즉 “게임”을 제작하고 운영하는 저희 회사의 특성상, 거래내역, 사회 활동, 개인의 결제내역 등 방대한 양의 데이터가 항시 축적되고 있습니다. 워낙에 많은 양의 데이터가 생성되다보니, 각 데이터의 성격을 효율적으로 파악하는 것이 중요합니다. 수억, 수조건의 데이터를 일일이 살펴보며 데이터를 파악 할 수는 없으니까요.

또한, 여러종류의 데이터를 종합하여 유용한 정보를 추출하는 경우, 데이터를 직접 가공한 분석가에게는 꽤나 직관적으로 느껴지는 작업들이 분석결과를 토대로 의사결정을 내리고 다른 업무를 진행해야 하는 타인들에게는 종종 복잡하고 어렵게 느껴질 때가 많습니다.

그렇다면, 방대한 데이터의 성격을 함축하여 나타내며, 복잡한 데이터 분석 작업을 쉽고 직관적으로 나타내는 방법은 무엇이 있을까요? 제목이 말해주듯이 바로 ““데이터 시각화(Data Visualization)”입니다. 데이터 시각화는 graph(도표)를 이용하여 데이터가 내포하는 정보를 압축, 한눈에 이해할수 있도록 효율적이고 명확하게 전달하는 행위입니다.

굳이 번거롭게 데이터를 시각화하여 살펴보아지 않아도, 데이터의 성격을 나타내는 수치 (max, mean, min 등)를 통해 표현하고자 하는 바를 전달하는 것이 충분한 경우도 있지만, 때로는 데이터의 시각화가 수치로는 쉽게 발견하지 못하는 점들을 너무나 명료하게 보여주는 경우도 있습니다.

바로 아래 그림의 Anscombe’s Quartet이 대표적인 예인데요, 11개의 데이터 포인트로 이뤄진 4개의 데이터세트의 X와 Y는 평균과 표준편차가 매우 비슷하며, X와 Y간의 직선 상관관계 (correlation) 조차 비슷합니다. 하지만 보시는바와 같이 시각화를 진행한 경우 4개의 데이터 세트는 매우 다른 것을 알 수 있죠.

Property Value
Mean of X 9 in all four XY plots
Sample variance of X 11 in all four XY plots
Mean of Y 7.5 in all four XY plots
Sample variance of Y 4.122 or 4.127 in all four XY plots
Correlation 0.816 in all four XY plots

990px-Anscombe's_quartet_3.svg

이렇듯 데이터 시각화는 수치로는 놓칠 수 있었던 정보를 간단하고 직관적으로 추출 할 수 있기 때문에 다양하게 쓰이고 있습니다. 다방면으로 활용되는 데이터 시각화 작업 중에서, 그래도 데이터 분석 분야에 특화된 시각화법이 있습니다. 아무리 중요하다고 강조해도 부족하지 않는 탐사분석 (EDA - Exploratory Data Analysis)입니다. 탐사분석은 시각화 기법 사용 여부에 따라 두가지로 나뉘며, 또한 분석의 대상 (단변수 vs 다변수)에 따라 또 두가지 범주로 나뉩니다.

단변수 - 비시각화 다변수 - 비시각화
단변수 - 시각화 다변수 - 시각화

앞서 말씀 드렸다시피, 탐사분석은 데이터 시각화 법 외에 다른 방법으로도 진행이 가능하지만, 주로 시각화기법을 통해 진행되기에, 데이터 시각화법의 첫 주제로 탐사분석을 선택하였고, 아래에서 좀 더 자세히 다뤄보도록 하겠습니다.

탐사분석이란?

탐사분석은 데이터가 갖는 정보를 요약하는 특징을 찾는 작업이며, 위에서 말씀드렸다시피 주로 시각화 기법을 통해서 진행됩니다. 사실 탐사분석은 데이터 분석 전공 학과 출신이거나 해당 업무를 담당하시는 분이라면, 데이터 분석의 정석과 같은 필수적인 단계로 알고계실텐데요, “탐사분석”이라는 개념과 단어가 탄생한지는 그리 오래되지 않았습니다.

탐사분석 (EDA)이라는 용어는 1977년 John Tukey (무려 Box Plot을 만드신)의 “Exploratory Data Analysis”라는 책에서 처음 사용되었습니다. John Tukey는 당시 주로 가설 검정에 의의를 두고 있었던 당시 통계학계를 비판하며, 데이터를 활용하여 검정 해볼 만한 가설을 탐색(탐사)하는 분석의 필요성을 주장하며 탐사분석이라는 개념을 창시하였습니다. 또한 Tukey의 탐사분석에 대한 강조와 그의 영향을 받아 S라는 통계연산용 언어가 만들어졌으며, 이는 훗날 많은 데이터분석가들이 애용하는 R의 근간이 됩니다.

요약하자면, 가설 검정이 아닌 관측된 현상과 원인이 되는 가설을 제시하기 위한 분석을 탐사분석의 정의라고 할 수 있습니다. 이런 탐사분석은 초기데이터 분석 (IDA - Initial Data Analysis)과 자주 혼용되어 사용되는데요, IDA는 결측치 유무 확인, 스케일링 필요 여부, 무작위 추출 여부 등, 분석에 대해서라기보단 데이터 자체의 당위성을 확인하는 행위입니다. 엄밀히 따지자면 EDA의 범주내에 IDA가 속해있는 EDA ⊇ IDA의 관계를 가집니다.

탐사분석을 진행하기 위해서 데이터가 갖는 성향 (분포, 변화량, 구성/비율, 분산 등)을 다양한 시각화 기법을 통해서 표현합니다. 사실 탐사분석의 시각화 기법의 종류는 무한한데요, 주로 Scatter Plot, Box Plot, Histogram, Correlation plot/matrix 등을 많이 쓰게됩니다.

다음 글에서는 탐사분석 시각화기법의 대표적인 Scatter Plot과 Box Plot 사용시 유의점과 효과적인 정보 전달을 위해 고려해야 하는 점들을 살펴보도록 하겠습니다.