회사에서 데이터 분석을 할 때, EDA(Exploratory Data Analysis) 과정만으로도 문제를 해결할 실마리를 찾아내는 경우가 많다. EDA를 평소 당연히 하는 것으로 생각하고 소홀했던 것 같아 다시 공부하고 정리해보고자 한다.
EDA란 무엇인가?
EDA(Exploratory Data Analysis, 탐색적 데이터 분석)는 데이터셋의 주요 특성을 요약하고, 통계적 그래픽을 사용하여 시각적으로 탐색하는 과정이다. EDA의 주요 목적은 데이터의 분포, 패턴, 이상치, 그리고 변수 간의 관계를 이해하는 것이다.
EDA의 중요성 및 목적
신입으로 입사해 데이터 분석을 할 때의 저는 EDA를 "엑셀로도 할 수 있고, 쉬운 작업"이라고 생각해 중요하지 않게 여겼다. 통계학을 전공하면서 학부 시절 다양한 분석 방법을 배우고, 졸업 후 머신러닝도 공부해서 잘못된 생각을 하고 있었다. 시간이 지날수록 앞서 언급한 것처럼 EDA만으로도 문제가 해결되는 경우도 많았고 중요한 인사이트를 발견할 실마리를 얻거나, 앞으로의 분석 방향을 잡는데 큰 영향을 주어 EDA가 중요하다는 것을 깨달았다. EDA를 진행할 때는 아래 3가지 관점에서 유심히 관찰했다.
- 데이터의 이해: 데이터를 탐색하고 시각화함으로써 데이터셋의 전반적인 구조를 이해
- 이상치 탐지: 데이터를 분석하여 이상치(Outliers)나 결측치(Missing Values)를 식별
- 변수 간 관계 분석: 변수들 간의 상관관계 및 패턴을 파악하여 잠재적인 인사이트를 도출
EDA 분석 예시: 대한민국 지역별 코로나 발병 데이터
전국적 이슈였던 코로나 관련하여 좋은 자료를 발견해서 해당 자료를 기반으로 예시를 정리했다. 회귀분석이나 동질성 검정 등의 방법을 사용하지 않고 EDA를 하는 과정만으로도 대략적인 인사이트를 얻을 수 있다. (필요없다는 것이 아니라 추이를 먼저 확인할 수 있다는 의미다.)

위 그래프를 보면 코로나 확진자 그래프를 통해 코로나 발병 추이를 한눈에 비교할 수 있다. 해당 그래프를 시도별로 나누어 다시 그린다면 지역별 코로나 급증 시기를 확인할 수 있으며, 해당 시기에 어떤 원인이 있었는지를 추가 관찰하도록 방향을 잡을 수 있다.

이번엔 연령대별 확진자 수와 사망자 수 그래프다. 해당 그래프를 통해 연령대가 높을 수록 치명률이 높다는 것을 알 수 있으며, 고령자 분들을 대상으로 추가적인 의료 대책이 필요한지 고민해볼 수 있는 인사이트를 얻을 수 있다. (물론 실제 상황에서도 그런지는 추가적으로 확인해야 한다.)
EDA 정리 순서
이처럼 EDA는 중요한 과정이기에 내가 가진 지식에 구멍은 없는지 아래 순서로 정리해보려고 한다.
- 기초 통계 분석
- 데이터 시각화 기법
- 변수 간 관계 분석
나중에 다시 한번 EDA를 복기하는 나에게 도움이 되면 좋겠다.