음이항 분포란?
음이항 분포는 베르누이 시행의 반복에서 $r$번째 성공이 발생할 때까지의 시행 횟수를 모델링하는 이산 확률 분포이다. 이는 기하 분포의 확장된 형태로, 기하 분포가 첫 번째 성공이 나올 때까지의 시행 횟수를 다루는 것에 비해, 음이항 분포는 $r$번째 성공이 나올 때까지의 시행 횟수를 다룬다.
음이항 분포는 다음과 같은 상황에서 사용된다.
- 성공/실패의 이진 결과: 각 시행 결과는 성공(1) 또는 실패(0)임.
- 독립적 시행: 각 시행은 서로 독립적이며, 다른 시행의 결과에 영향을 받지 않음.
- 일정한 성공 확률: 각 시행에서 성공할 확률($p$)은 일정함.
- $r$번째 성공: $r$번째 성공이 발생할 때까지의 시행 횟수를 모델링함.
음이항 분포의 확률질량함수
음이항 분포의 확률질량함수(PMF)는 $r$번째 성공이 정확히 $k$번째 시행에서 발생할 확률을 나타내며, 다음과 같이 정의한다. 아래 식은 성공 확률이 $p$인 베르누이 시행이 반복될 때, $r$번째 성공이 발생하기 위해 총 $k$번 시행이 필요한 경우의 확률을 나타낸다.
$$P(X=k)=\; _{k-1}C_{r-1}\;p^r(1-p)^{k-r}= \binom{k-1}{r-1}p^r(1-p)^{k-r}$$
- $k$: $r$번째 성공이 발생할 때까지의 총 시행 횟수
음이항 분포의 예제
기하 분포를 이해하기 위해 예제를 정리했다.
예제1: 동전 던지기
동전을 던져서 앞면이 3번 나올 때까지의 던진 횟수를 모델링해보자. 성공할 확률 $𝑝=0.5$이며, $r$번째 성공(앞면)이 $k$번째 던질 때 발생할 확률은 다음과 같이 계산한다.
$$P(X=k)= \binom{k-1}{2}(0.5)^3(0.5)^{k-3}$$
예제2: 제품 불량 검사
제조 라인에서 무작위로 제품을 검사할 때, 2번째 불량품이 나오기까지 검사한 제품 수를 모델링해보자. 불량품이 나올 확률 $p=0.02$일 때, $r$번째 성공(불량품)이 $k$번째 검사에서 나올 확률은 다음과 같이 계산한다.
$$P(X=k)= \binom{k-1}{1}(0.02)^2(0.98)^{k-2}$$
음이항 분포의 기대값과 분산
- 기대값 $E(X)$
음이항 분포는 사실 각 시행을 기하 분포로 나눌 수 있다. 각 성공은 기하 분포를 따르며, 이를 $X=X_1+X_2+\cdots+X_r$로 표현할 수 있다. $X_i$는 성공 확률이 $p$인 기하 분포를 따르는 독립적인 시행 간격이다.
기하 분포에서 첫 번째 성공까지 걸리는 평균 시행 횟수는 $\frac{1}{p}$이다. 즉, $r$번 성공까지 걸리는 시행 횟수의 기대값은 기하 분포의 기대값인 $\frac{1}{p}$를 r번 더한 값으로 표현할 수 있다.
$$E(X)= E(X_1+X_2+\cdots+X_r)=r\cdot E(X_i)=r\cdot\frac{1}{p}$$
따라서 음이항 분포의 기대값은 $\frac{r}{p}$이다.
- 분산 $Var(X)$
앞서 기대값 계산에서 언급한 것처럼 음이항 분포에서 $X$는 독립적인 기하 분포의 합으로 표현되므로, $Var(X)$는 각 기하 분포의 분산들의 합으로 계산할 수 있다.
$$Var(X)=Var(X_1+X_2+\cdots+X_r)=r\cdot Var(X_i)=r\cdot\frac{1-p}{p^2}$$
따라서 음이항 분포의 분산은 $\frac{r(1-p)}{p^2}$이다.
음이항 분포의 시각화 (python)
동전을 던져 앞면이 3번 나올 때까지의 시행 횟수에 대한 음이항 분포를 막대 그래프를 통해 시각화했다. 앞면이 3번 나오기 위해 3번 이상 시행해야 하기 때문에 그래프의 X축은 당연히 3부터 시작한다.
import matplotlib.pyplot as plt
import scipy.stats as stats
r = 3 # r번째 성공
p = 0.5 # 성공 확률
k_values = range(r, 15) # r번째 성공까지의 시행 횟수 (r부터 k까지)
# 음이항 분포 확률 계산
nbinom_prob = [stats.nbinom.pmf(k-r, r, p) for k in k_values]
# 막대 그래프 그리기
plt.bar(k_values, nbinom_prob, color='salmon')
plt.title(f'Negative Binomial Distribution (r={r}, p={p})')
plt.xlabel('Number of Trials until r-th Success')
plt.ylabel('Probability')
plt.ylim(0,max(nbinom_prob)*1.1)
# 각 막대 위에 확률 값 텍스트 추가
for i in range(len(k_values)):
plt.text(k_values[i], nbinom_prob[i] * 1.02,
f'{nbinom_prob[i]:.2f}', ha='center')
plt.show()
음이항 분포의 응용
음이항 분포를 응용할 수 있는 예시이다.
- 통신: 네트워크에서 $r$번째 데이터 전송 오류가 발생할 때까지의 전송 횟수를 모델링
- 생명보험: 특정 질병이 $r$번째 발생할 때까지의 기간을 분석
- 품질 관리: $r$번째 결함이 발견될 때까지의 검사 횟수를 예측
음이항 분포와 기하 분포의 관계
음이항 분포는 기하 분포와 밀접한 관련이 있다. 기하 분포는 첫 번째 성공이 나타날 때까지의 시행 횟수를 모델링하는 반면, 음이항 분포는 r번째 성공이 나타날 때까지의 시행 횟수를 모델링한다. 즉, 음이항 분포는 $r = 1$인 기하 분포의 일반화된 형태라고 볼 수 있다.
결론
음이항 분포는 베르누이 시행에서 r번째 성공이 나타날 때까지의 시행 횟수를 모델링하는 중요한 이산 확률 분포이다. 이를 통해 다양한 실제 문제를 분석하고 예측할 수 있으며, 특히 반복적인 시도에서 특정 횟수의 성공이 발생할 때까지의 과정을 이해하는 데 유용하다.
다음 포스트에서는 초등한계 분포(Hypergeometric Distribution)에 대해 다루며, 음이항 분포와의 차이점을 정리할 예정이다.