히스토그램이란?
히스토그램은 연속적인 데이터를 일정한 구간으로 나누고, 각 구간에 속하는 데이터의 개수를 막대 그래프로 그린 그래프이며, 데이터의 분포를 시각적으로 표현하는 데 강점을 가지고 있다. 데이터 분석에서 연속형 데이터를 다룰 때 히스토그램은 꼭 한 번쯤 진행하는 필수 과정이다. 히스토그램은 데이터가 정규 분포를 따르는지, 한쪽으로 치우쳤는지 등을 시각적으로 쉽게 확인할 수 있기 때문이다.
히스토그램 그려보기 (python)
python을 사용해 표준정규분포를 따르는 난수를 만들고, 히스토그램을 그려보았다. 생성된 난수가 정규분포 모양이라는 것을 쉽게 확인할 수 있다.
import matplotlib.pyplot as plt
import numpy as np
# 예제 데이터 생성
data = np.random.randn(1000)
# 히스토그램 그리기
plt.hist(data, bins=30, edgecolor='black')
plt.title('Histogram of Example Data')
plt.xlabel('Value')
plt.ylabel('Frequency')
plt.grid(True)
plt.show()
히스토그램의 장점
- 구간별 데이터 확인: 어떤 구간이 데이터가 많은지, 적은지를 쉽게 확인할 수 있음.
- 데이터 분포 확인: 직관적으로 데이터 분포를 확인할 수 있음.
히스토그램 사용에 주의할 점
- 연속형 데이터: 연속적인 데이터에 사용해야 함.
- 구간 설정: 어떻게 구간을 설정하느냐에 따라 히스토그램의 모양이 달라짐.
- 개별 데이터 분석 취약: 구간별로 데이터를 집계하기 때문에 개별 데이터에 대한 분석이 추가로 필요함.
히스토그램 활용 예시
앞서 탐색적 데이터 분석에 대해 정리한 글에서 소개한 예시이다. 히스토그램을 통해 어떤 연령대가 가장 확진자와 사망자가 많은지, 어떤 분포 모양을 하고 있는지 쉽게 확인할 수 있다.