교차표(Crosstab)와 피벗테이블(Pivot Table)은 범주형 데이터를 요약하고, 변수 간의 관계를 시각적으로 이해하는 데 매우 유용하다. 표의 형태를 가지는 두가지 도구를 함께 정리했다. 교차표란?교차표(Crosstab)는 두 개 이상의 범주형 변수를 교차시켜 빈도수를 표 형태로 나타내는 방법이다. 교차표는 주로 범주형 데이터의 빈도 분석, 두 변수 간의 관계 분석, 분할표 생성 등에 사용된다. 예를 들어, 성별과 나이대에 따른 구매 행동을 분석할 때, 교차표를 사용하면 성별과 나이대별로 구매 횟수를 쉽게 파악할 수 있다. 피벗테이블이란?피벗테이블(Pivot Table)은 데이터를 그룹화하여 합계, 평균, 개수 등의 집계 값을 요약하여 표시하는 방법이다. 피벗테이블은 여러 범주형 변수와 수치형 ..
스피어만 상관계수와 켄달의 타우 상관계수는 두 변수 간의 순위 상관관계를 측정하는 비모수적 통계 지표이다. 언제 어떤 기법을 사용하면 좋을지 두 상관계수 간의 차이를 표로 정리해보았다.특징스피어만 상관계수켄달의 타우 상관계수주요 목적두 변수 간의 모노토닉 관계 측정두 변수 간의 순위 일관성 평가데이터순위 데이터 또는 연속형 데이터순위 데이터 또는 연속형 데이터계산복잡도상대적으로 낮음 ($n\log{n}$)상대적으로 높음 ($n^2$)동순위 처리상대적으로 덜 정교함상대적으로 더 정교함사용 예시페이지 뷰 순위와 판매 순위학생들의 시험 점수와 운동 능력순위가 자주 반복되는 소규모 데이터셋설문조사에서 순위를 매긴 항목에 대한 데이터 스피어만 상관계수와 켄달의 타우 상관계수는 각각의 특성과 장점을 가지고 있다. ..
켄달의 타우 상관계수란?켄달의 타우 상관계수(Kendall's Tau Correlation Coefficient)는 두 변수 간의 순위 상관관계를 측정하는 비모수적 통계 지표다. 이는 변수 간의 순위 일관성을 평가하는 데 사용되며, 두 변수 간의 모노토닉 관계를 평가한다. 켄달의 타우는 특히 데이터에 결측치가 있거나 비정규 분포를 따를 때 유용하다. 켄달의 타우 상관계수의 계산켄달의 타우 상관계수는 두 변수 간의 순위 쌍을 비교하여 순위 일관성을 평가한다. 1. 켄달의 타우-a (Tau-a):$$\tau_a=\frac{C-D}{C+D}=\frac{C-D}{\frac{1}{2}n(n-1)}$$2. 켄달의 타우-b (Tau-b):켄달의 타우-b는 동순위 데이터를 처리하는 데 더 적합하며, 데이터에 동순위 값..
스피어만 상관계수란?스피어만 상관계수(Spearman's Rank Correlation Coefficient)는 두 변수 간의 순위 상관관계를 측정하는 비모수적 통계 지표이다. 피어슨 상관계수와 달리, 데이터의 분포에 대한 가정이 필요 없으며, 두 변수 간의 비선형적인 관계도 평가할 수 있다. 스피어만 상관계수는 두 변수의 순위 값을 기반으로 계산된다. 스피어만 상관계수의 계산스피어만 상관계수 $\gamma_s$ 는 다음과 같은 수식으로 계산한다.$$\gamma_s = 1-\frac{6\sum d^2_i}{n(n^2-1)}$$$d_i$: 각 데이터 포인트의 순위 차이 ( $d_i = R(X_i) - R(Y_i)$ )$R(X_i)$와 $R(Y_i)$: 각각 변수 $X$와 $Y$의 순위 스피어만 상관계수의 ..