푸아송 분포

testwiki
둘러보기로 이동 검색으로 이동

틀:위키데이터 속성 추적 틀:확률분포 정보

푸아송 분포(Poisson分布, 틀:Llang)는 확률론에서 단위 시간 안에 어떤 사건이 몇 번 발생할 것인지를 표현하는 이산 확률 분포이다. 단위 시간 대신 다른 단위(가령, 공장의 생산량 묶음 단위인 로트(lot) 등)를 사용할 수 있다. 이때 일어날 확률은 일정하고, 매우 작아야 한다.

역사

19세기에 시메옹 드니 푸아송이 1838년 저서 《민사 사건과 형사 사건 재판에서의 확률에 관한 연구 및 일반적인 확률 계산 법칙에 대한 서문》(틀:Llang)[1]에서 최초로 사용하였다.

정의

정해진 시간 안에 어떤 사건이 일어날 횟수에 대한 기댓값λ라고 했을 때, 그 사건이 k회 일어날 확률은 다음과 같다.

f(k;λ)=λkeλk!,

여기서 e자연상수이다.

특성

  1. 어떤 단위구간(예, 1일)동안 이를 더 짧은 작은 단위의 구간(예: 1시간)로 나눌 수 있고 이러한 더 짧은 단위구간 중에 어떤 사건이 발생할 확률은 전체 척도 중에서 항상 일정해야 한다.
  2. 두 개 이상의 사건이 동시에 발생할 확률은 0에 가깝다.
  3. 어떤 단위구간의 사건의 발생은 다른 단위구간의 발생으로부터 독립적이다.
  4. 특정 구간에서의 사건 발생확률은 그 구간의 크기에 비례한다.
  5. 푸아송분포 확률 변수의 기댓값분산은 모두 λ이다.

응용

다음과 같은 확률적인 문제를 알아내기 위해 쓰이고 있다.

  • 주어진 일정 시간 동안에 도착한 고객의 수
  • 1킬로미터 도로에 있는 흠집의 수
  • 주어진 일정 생산시간 동안 발생하는 불량 수
  • 하룻동안 발생하는 출생자 수
  • 어떤 시간 동안 톨게이트를 통과하는 차량의 수
  • 어떤 페이지 하나를 완성하는 데 발생하는 오타의 발생률
  • 어떤 특정 량의 방사선을 DNA에 쬐였을 때 발생하는 돌연변이의 수
  • 어떤 특정 면적의 다양한 종류의 나무가 섞여 자라는 삼림에서 소나무의 수
  • 어떤 특정 진도 이상의 지진이 발생하는 수

푸아송 가정에 어긋나는 사례

  • 1분마다 학생회관에 도착할 학생들의 수는 푸아송 분포를 따르지 않을 수도 있다. 왜냐하면, 그 비율이 일정하지 않기 때문이다. (수업 중에는 그 비율이 낮고, 쉬는 시간에는 그 비율이 높을 것이다.) 또, 각 학생들의 도착 사건이 독립적이지 않다. (학생들은 보통 그룹지어서 이동하는 경향이 있다)
  • 매년 캘리포니아에서 진도 5의 지진 발생 수는 푸아송 분포를 따르지 않을 것이다. 왜냐하면 한 번의 지진이 그 다음 일어날 지진의 가능성에 영향을 끼치기 때문이다.
  • 집중 치료 병동의 환자들 중, 그 병동에서 보낼 날의 수는 푸아송 분포를 따르지 않을 것이다. 왜냐하면, 병동에서 하루도 지내지 않는 경우는 없기 때문이다. 이러한 경우 zero-truncated poisson distribution을 통한 모델링이 가능하다.
  • 한 번도 사건이 일어나지 않는 시간 간격의 수가 기본 푸아송 분포를 통해 예측된 것보다 더 많은 경우 (쉽게 생각하면 푸아송 분포에서 계산된 P(k=0)보다 더 높은 P(k=0)을 가지는 경우), zero-inflated 모델을 적용할 수 있다.

다른 분포와의 관계

이항 분포

푸아송 분포는 시행 횟수가 무한히 많아지고, 예상 성공 횟수가 고정되어 있으므로 이항 분포의 한 사례라고 볼 수 있다. 따라서 n이 충분히 크고, p가 충분히 작으면 이항 분포의 정규 근사로 이끌어 낼 수 있다. 푸아송 분포는 n이 100 이상이고, np가 10 이하인 경우 좋은 결과값을 얻을 수 있는 근사치라고 판단할 수 있다.

FBFP를 각각 베르누이 분포와 푸아송 분포의 확률 질량 함수라고 하면, 다음과 같은 관계가 나타난다.

FB(k;n,p)FP(k;λ=np)

이 식을 도출해내는 데에는 확률 생성 함수(probability generating function)를 사용한다. 베르누이 시도에서 한번의 성공의 확률을 λ1 이라고 가정하고 각 간격을 n으로 하여 이항 분포로 나타낼 수 있다.

Pk(n)=(nk)(λn)k(1λn)nk

이 함수의 생성 함수는 다음과 같다.

P(n)(x)=k=0npk(n)xk=k=0n(nk)(λn)k(1λn)nkxk=k=0n(nk)(xλn)k(1λn)nk=(1λn+λnx)n

여기에서 n로 보내고 곱셈의 극한 정의를 지수 함수로 바꾸면 푸아송 분포의 생성함수로 바뀌게 된다.

limnP(n)(x)=limn(1+λ(x1)n)n=eλ(x1)=k=0eλλkk!xk

일반적 사항

  • 푸아송 분포를 따르고 서로 독립인 확률변수 X1,X2에 대하여, 확률변수 Y=X1X2는 skellam distribution을 따른다.
  • 푸아송 분포를 따르고 서로 독립인 확률변수 X1,X2에 대하여, X1+X2=k라는 조건이 주어진다면 X1,X2는 종속적이게 되고, X1+X2의 조건부 분포 X1는 이항 분포를 따른다. X1|X1+X2=kBinomial(k,λ1λ1+λ2) 두 푸아송 분포의 합이 주어졌을 때 각 변수의 확률을 이항 분포로 모델링 할 수 있다는 것이고, 달리 말하면 두 독립적인 푸아송 분포의 조건부 분포는 이항 분포로 나타낼 수 있다. 일반화하여, X1,X2,...,Xn이 매개변수 λ1,λ2,...,λn를 갖는 서로 독립인 푸아송 확률 변수라면 다음과 같이 이항 분포로 나타낼 수 있다. Xi|j=inXj=kBinom(k,λij=1nλj) 더하여, 여러 개의 푸아송 분포를 따르는 변수들이 주어지면, 각 푸아송 변수가 특정 비율로 성공할 확률을 다항 분포(Multinomial distribution)로 나타낼 수 있다. 즉, 여러 개의 서로 독립인 푸아송 변수가 있으면, 그 조건부분포는 다항 분포로 표현될 수 있다. XiMultinom(k,λij=1nλj)
  • XPois(λ) 이고, X=k 일 때, Y의 조건부 분포가 Y|(X=k)B(k,p)이면, Y의 분포는 푸아송 분포 YPois(λp)를 따른다. 또한, X=k일때, Yi가 다항 분포를 따르면, {Yi}|(X=k)Multinom(k,p)이며, 각 Yi는 서로 독립적인 푸아송 분포 YiPois(λpi)를 따른다. 이때 상관계수 ρ(Yi,Yj)=0이다. 즉 두 변수는 선형적 상관관계가 없고, 독립적이다.
  • 제곱근 변환: X~Pois(λ) 인 경우

Y=2XN(2λ,1) 그리고 Y=XN(X;1/4)

이 변환을 거친후에는 변환되지 않은 변수보다 정상성에 대한 수렴이 휠씬 빠르다. 다소 복잡하지만 다른 분산 안정화 변환도 사용 가능한데, 그 중 하나가 앤스컴 변환(Anscombe transform)이다.

  • t>0인 모든 t에 대해 시간 간격 [0,t] 내의 도착 횟수가 평균 λt인 푸아송 분포를 따르면, 도착간 시간 간격의 차례는 평균 1/λ인 독립적이고 동일한 지수 분포를 따른다.
  • 푸아송 분포와 카이제곱 분포의 누적 분포 함수는 다음과 같은 관계식이 나타난다.

Fpoisson(k;λ)=1Fx2(2λ;2(k+1))k|kN

P(X=k)=Fx2(2λ;2(k+1))Fx2(2λ;2k)

같이 보기

틀:위키공용분류

각주

틀:각주

외부 링크

틀:확률분포 틀:전거 통제