프로빗 회귀 모형

testwiki
둘러보기로 이동 검색으로 이동

틀:위키데이터 속성 추적

프로빗 함수의 형태

프로빗 회귀 모형(틀:Lang)은 종속변수가 이진 변수일 경우에 사용되는 회귀 모형 중 하나이다. 프로빗 회귀 모형은 어떤 사건이 발생할 확률을 설명하기 위한 회귀 모형으로, 정규 분포누적분포함수를 이용한다.

프로빗이라는 단어의 어원은 probability와 unit을 혼합하여 만든 것이다.[1]

개요

종속 변수 Y는 1 또는 0의 값만을 가질 수 있는 이진 데이터이다. 어떤 사건이 일어나거나, 일어나지 않거나의 문제 또는 어떤 의사결정을 하거나 하지 않거나의 양자택일이 종속변수 값에 들어 있다. 확률은 반드시 폐구간 [0, 1] 안에 있어야 하므로 직선 형태의 선형 회귀로는 설명변수의 어떤 사건이 발생할 확률에 대한 영향을 설명하는 데 적절하지 않다.

프로빗 함수로는 표준정규분포 ZN(0,1)의 누적분포함수를 이용한다. 프로빗 함수는 종속변수 Y의 값이 1이 될 확률을 의미한다.

Φ(z)=P(Zz)

프로빗 회귀 모형은 종속변수가 1이 될 확률을 예측하기 위하여 다음과 같은 형태로 모형을 설정한다.

P(Y=1|𝐗)=Φ(𝐗β)=Φ(β0+β1x1+β2x2+...+βnxn)

한계 효과

어떤 특정한 변수가 변화할 경우 종속변수에 미치는 영향을 분석할 때는 설명변수에 대해 편미분하여 한계 효과를 분석할 수 있다. p=P(Y=1|𝐗)라고 할 때 설명변수의 변화가 종속변수가 1이 될 확률에 미치는 변화는 다음과 같다.

pxj=Φ(β0+β1x1+β2x2+...+βnxn)βj

Φ가 표준정규분포의 누적분포함수이므로 그 도함수인 Φ는 표준정규분포의 확률밀도함수가 된다. 결국 설명변수의 변화가 종속변수가 1이 될 확률에 미치는 영향은 표준정규분포 확률밀도함수의 β0+β1x1+β2x2+...+βnxn에서의 함수값과 βj을 곱한 것과 같다. 한계효과의 부호는 βj의 부호에 따라 결정된다.[2]

추정법

프로빗 회귀 모형을 추정할 경우에는 최우 추정법을 주로 사용한다.[2] 종속변수의 값이 0이 될 확률은 다음과 같다.

P(Y=0|𝐗)=1Φ(𝐗β)

yi=1일 때의 단일 표본 우도는 =Φ(Xiβ)이고, yi=0일 때의 단일 표본 우도는 =1Φ(Xiβ)이다. 표본은 서로 독립적이므로 결합우도는 단일 표본 우도를 곱한 값이다.

=i=1n[Φ(Xiβ)]yi[1Φ(Xiβ)]1yi

양변에 로그를 취하여 우도함수를 극대화하면 다음과 같은 함수를 극대화함으로써 회귀모형을 추정하게 된다.

ln=i=1n(yilnΦ(Xiβ)+(1yi)ln[1Φ(Xiβ)])

각주

같이 보기

틀:전거 통제