이항 분포란?
이항 분포는 베르누이 분포의 확장된 형태로, 동일한 조건에서 여러 번 반복되는 베르누이 시행(성공/실패 실험)의 결과를 모델링하는 데 사용된다. 베르누이 분포가 단일 시행에서 성공 또는 실패를 설명하는 것이라면, 이항 분포는 여러 번의 시행에서 특정 횟수만큼 성공할 확률을 다룬다.
이항 분포는 다음과 같은 상황에 사용된다.
- 고정된 시행 횟수: 동일한 조건에서 $n$번 시행
- 독립적 시행: 각 시행은 서로 독립적
- 일정한 성공 확률: 각 시행에서 성공할 확률 $p$는 일정
이항 분포의 확률질량함수
이항 분포의 확률질량함수는 $n$번의 독립적인 시행에서 $k$번 성공할 확률을 계산하는 공식이다. 이는 다음과 같이 정의된다.
$$P(X=k) = \; _{n}C_{k} \; p^k (1-p)^{n-k} = \begin{pmatrix}n \\ k\end{pmatrix}p^{k}(1-p)^{n-k}$$
- $\begin{pmatrix}n\\k\end{pmatrix}$ : $n$번 중 $k$ 번 성공할 수 있는 경우의 수, 이항계수
이항 계수란?
이항계수는 조합의 개념을 기반으로 하며, 주어진 $n$번의 시행 중에서 정확히 $k$번 성공할 수 있는 가능한 경우의 수를 계산한다. 이는 다음과 같이 표현된다.
$$\begin{pmatrix} n \\ k \end{pmatrix} = \;_{n}C_{k}= \frac {n!} {k!(n-k)!} \;\; (0 \leq k\leq n)$$
- $n!$ : $n$의 팩토리얼(factorial)로, $n!=n\times (n-1) \times \cdots \times 1$을 의미한다.
이항계수는 $n$개의 항목에서 순서에 상관없이 $k$개의 항목을 선택하는 방법의 수를 나타낸다. 예를 들어, 5개의 시행에서 2번 성공할 수 있는 경우의 수는 다음과 같이 계산된다.
$$\begin{pmatrix} 5 \\ 2 \end{pmatrix} = \frac{5!}{2!(5-2)!}=\frac{5 \times 4 \times 3 \times 2 \times 1}{(2 \times 1) \times (3 \times 2 \times 1)}=10$$
따라서, 5번의 시행에서 2번 성공할 수 있는 경우의 수는 10이다. 이 경우의 수를 사용하여 이항 분포에서 특정 횟수의 성공 확률을 계산할 수 있다.
이항 분포의 예제
이항 분포를 이해하기 위해 간단히 예제를 정리했다.
예제1: 동전 던지기
동전을 10번 던졌을 때 앞명이 6번 나올 확률을 계산하면 $P(X=6) = 0.205$의 결과를 얻을 수 있다. $(n = 10,\; p=0.5,\; k=6)$
$$P(X=6)=\begin{pmatrix}10 \\ 6 \end{pmatrix} (0.5)^6 (0.5)^4 = \frac {10!} {6!(10-6)!} (0.5)^6 (0.5)^4 = 0.205$$
예제2: 제품 품질 검사
생산 라인에서 무작위로 5개의 제품을 검사할 때, 불량률이 2%라면 5개의 제품 중 1개가 불량일 확률을 계산하면 $P(X=1)=0.0922$이다. $(n=5, \;p=0.02, \;k=1)$
$$P(X=1)=\begin{pmatrix}5 \\ 1 \end{pmatrix} (0.02)^1 (0.98)^4 = \frac {5!} {1!(5-1)!} (0.02)^1 (0.98)^4 = 0.0922$$
이항 분포의 기대값과 분산
이항 분포의 기대값과 분산은 다음과 같이 계산된다.
- 기대값 $E(X)$
이항 분포의 확률변수 $X$는 $n$번의 독립적인 베르누이 시행에서 성공의 횟수를 나타낸다. 각 베르누이 시행에서 성공할 확률은 $p$이며, 실패할 확률은 $1−p$이다. 이항 분포에서 기대값을 구하기 위해서는 각 시행의 기대값을 먼저 생각해야 한다. 각 시행을 나타내는 확률변수를 $X_i (i=1,2, ...,n)$으로 가정했을 때 각 $X_i$는 베르누이 분포를 따르며 각 시행의 기대값은 $p$이다.
이항 분포의 확률변수 $X$는 $n$번의 베르누이 시행의 성공 횟수의 합으로 정의되어 아래와 같이 정리할 수 있으며, 결론적으로 이항 분포의 기대값은 $np$가 된다.
$$ \begin{align*}
E(X) &= E(X_1)+E(X_2)+\cdots+E(X_n)\\
&= np
\end{align*}$$
- 분산 $Var(X)$
이항 분포에서 분산을 계산하기 위해서 분산을 계산할 때도 각 베르누이 시행의 분산을 먼저 생각한다. 확률변수 $X_i$는 베르누이 분포를 따르기에 각 시행의 분산은 $p(1-p)$이다.
이항 분포의 확률변수 $X$는 $n$번의 베르누이 시행의 성공 횟수의 합으로 정의되어 아래와 같이 정리할 수 있으며, 결론적으로 이항 분포의 분산은 $np(1-p)$가 된다.
$$ \begin{align*}
Var(X) &= Var(X_1)+Var(X_2)+\cdots+Var(X_n)\\
&= np(1-p)
\end{align*}$$
이항 분포의 시각화 (python)
동전을 10번 던졌을 때 앞면이 나오는 횟수에 대한 이항 분포를 시각화해보았다.
import matplotlib.pyplot as plt
import scipy.stats as stats
n = 10 # 시행 횟수
p = 0.5 # 성공 확률
k_values = range(n + 1) # 가능한 성공 횟수 (0부터 n까지)
# 이항 분포 확률 계산
binom_prob = [stats.binom.pmf(k, n, p) for k in k_values]
# 막대 그래프 그리기
plt.bar(k_values, binom_prob, color='skyblue')
plt.title('Binomial Distribution (n=10, p=0.5)')
plt.xlabel('Number of Successes')
plt.ylabel('Probability')
plt.ylim(0,0.3)
# 각 막대 위에 확률 값 텍스트 추가
for i in range(len(k_values)):
plt.text(k_values[i], binom_prob[i] + 0.01,
f'{binom_prob[i]:.3f}', ha='center')
plt.show()
이항 분포의 응용
이항 분포를 응용할 수 있는 간단한 예시들이다.
- 품질 관리: 생산된 제품 중 불량품의 수를 예측하는 데 사용
- 마케팅: 캠페인에서 특정 행동(예: 이메일 클릭)을 수행할 고객 수를 예측하는 데 사용
- 의학 연구: 임상 시험에서 특정 약물의 효과가 나타나는 환자의 수를 분석할 때 사용
이항 분포와 포아송 근사
이항 분포는 시행 횟수 $n$이 매우 크고 성공 확률 $p$가 매우 작을 때 포아송 분포로 근사할 수 있다. 이는 계산이 복잡해질 때 간단한 포아송 분포로 근사하여 문제를 해결할 수 있는 방법을 제공한다.
결론
이항 분포는 $n$번의 독립적인 시행에서 $k$번 성공할 확률을 설명하는 이산 확률 분포이다. 이를 통해 여러 분야에서 예측 모델을 구축하고, 데이터를 분석하여 유용한 인사이트를 얻을 수 있다. 이항 분포를 이해하면 포아송 분포와 같은 더 복잡한 분포를 배우는 데 도움이 된다.
다음 포스트에서는 포아송 분포에 대해 다루며, 이항 분포와의 관계 및 차이점을 정리할 예정이다.