상관분석이란?
상관분석(Correlation Analysis)은 두 변수 간의 관계의 강도와 방향을 측정하는 통계 기법이다. 이를 통해 변수들이 어떻게 상호작용하는지, 한 변수의 변화가 다른 변수에 어떤 영향을 미치는지 파악할 수 있다. 상관분석의 결과는 상관계수(Correlation Coefficient)로 나타낸다.
상관계수
상관계수는 두 변수 간의 관계 강도를 나타낸다. 상관계수는 -1에서 +1 사이의 값을 가지며, 상관계수의 절대값이 클수록 두 변수 간의 관계가 강하다는 것을 의미한다. 상관계수를 해석할 때는 다음과 같은 기준을 사용할 수 있다.
- 0.7 ≤ |r| ≤ 1.0: 강한 상관관계
- 0.3 ≤ |r| < 0.7: 중간 정도의 상관관계
- 0.0 ≤ |r| < 0.3: 약한 상관관계
상관분석의 종류
주요 상관분석 기법은 다음과 같다. 각 분석 기법은 추후 하나씩 자세히 다룰 예정이다.
종류 | 데이터 | 용도 |
피어슨 상관계수 (Pearson) | 연속형 | 두 연속형 변수의 선형 관계 측정 (정규분포 가정) |
스피어만 상관계수 (Spearman) | 순서형, 비선형 | 순위 기반 상관관계 측정 |
켄달의 타우 (Kendall's Tau) | 순서형 | 순위 데이터 간의 일관성 평가 |
상관분석 사용에 주의할 점
- 가정: 분석 기법에 따라 전제되는 가정이 충족되는지 체크해야 함.
- 시각화: 상관계수만으로 맹신하지 않고 산점도 등을 활용해 시각화 자료를 체크해야 함.
- 인과관계: 상관관계는 인과관계를 의미하지 않기 때문에 해석에 주의해야 함.