공분산

testwiki
둘러보기로 이동 검색으로 이동

틀:위키데이터 속성 추적

두 개의 확률 변수 틀:수학 변수틀:Mvar 의 상관성과 공분산의 부호.

공분산(共分散, 틀:Llang)은 2개의 확률변수의 선형 관계를 나타내는 값이다.[1] 만약 2개의 변수중 하나의 값이 상승하는 경향을 보일 때 다른 값도 상승하는 선형 상관성이 있다면 양수의 공분산을 가진다.[2] 반대로 2개의 변수중 하나의 값이 상승하는 경향을 보일 때 다른 값이 하강하는 선형 상관성을 보인다면 공분산의 값은 음수가 된다. 이렇게 공분산은 상관관계의 상승 혹은 하강하는 경향을 이해할 수 있으나 2개 변수의 측정 단위의 크기에 따라 값이 달라지므로 상관분석을 통해 정도를 파악하기에는 부적절하다. 상관분석에서는 상관관계의 정도를 나타내는 단위로 모상관계수로는 그리스 문자 틀:수학 변수를, 표본상관계수로는 알파벳 틀:Mvar를 사용한다.

정의와 공식

공분산의 정의는 다음과 같다.틀:수학 정리여기서 실수값을 지니는 2개의 확률변수 틀:수학 변수틀:수학 변수에 대해서 공분산의 기댓값

E(X)=μ,E(Y)=ν

을 사용하고, 기댓값 연산자 E를 정리하면 아래와 같이 나타낼 수 있다.

Cov(X,Y)=E(XY)μν

만약 틀:수학 변수틀:수학 변수독립이라면 공분산은 0이 될 것이고 이 경우 아래와 같이 나타낼 수 있다.

E(XY)=E(X)E(Y)=μν

2번째 식을 3번째식에 대입하면 아래과 같은 결과를 얻을 수 있다.

Cov(X,Y)=μνμν=0

일반적으로 역은 성립하지 않는다. 즉 틀:수학 변수틀:수학 변수가 독립이 아니라하더라도 공분산의 값은 0이 될 수 있다.

Cov(틀:수학 변수, 틀:수학 변수)의 단위틀:수학 변수틀:수학 변수의 곱이다. 상관관계는 공분산값을 필요로하며, 선형독립무차원수로 볼 수 있다.

공분산이 0인 확률변수를 비상관 확률변수라고 한다.

성질

만약 틀:수학 변수, 틀:수학 변수가 실수값인 확률변수이고 a, b상수라면, 공분산에 대해서 아래와 같은 법칙이 성립한다.

Cov(X,X)=Var(X)
Cov(X,Y)=Cov(Y,X)
Cov(aX,bY)=abCov(X,Y)

확률변수인 틀:수학 변수1, ..., 틀:수학 변수n틀:수학 변수1, ..., 틀:수학 변수m에 대해서 아래와 같은 법칙이 성립한다.

Cov(i=1nXi,j=1mYj)=i=1nj=1mCov(Xi,Yj)

확률변수인 틀:수학 변수1, ..., 틀:수학 변수n에 대해서 아래와 같은 법칙이 성립한다.

Var(i=1nXi)=i=1nVar(Xi)+2i,j:i<jCov(Xi,Xj)

공분산의 성질

공분산의 많은 성질은 내적이 가지는 성질과 유사하다.:

(1) 이중선형연산: 상수 ab 그리고 확률변수 틀:수학 변수, 틀:수학 변수, U, Cov(aX + bY, U) = a Cov(틀:수학 변수, U) + bCov(틀:수학 변수, U)
(2) 대칭성: Cov(틀:수학 변수, 틀:수학 변수) = Cov(틀:수학 변수, 틀:수학 변수)
(3) 양수값: Var(틀:수학 변수) = Cov(틀:수학 변수, 틀:수학 변수) ≥ 0이고 Cov(틀:수학 변수, 틀:수학 변수) = 0 이란 것은 틀:수학 변수가 상수확률변수(K)라는 뜻이다.

공분산은 확률변수들의 벡터 공간 상에서의 내적을 의미한다. 벡터에서 적용되는 벡터합 틀:수학 변수 + 틀:수학 변수aX와 같은 스칼라곱의 성질도 지닌다.

공분산행렬

열벡터값을 가지는 확률변수틀:수학 변수틀:수학 변수 가 각각 μ 와 ν라는 기댓값을 가질 때 공분산m×n 행렬은 아래와 같다.

Cov(X,Y)=E((Xμ)(Yν))

벡터확률변수를 가지는 Cov(틀:수학 변수, 틀:수학 변수) 와 Cov(틀:수학 변수, 틀:수학 변수)는 각각의 전치행렬이다.

공분산은 때때로 2개의 확률변수간의 선형의존성을 나타내는 척도로도 사용된다. 이것은 선형대수에서 의미하는 선형의존성을 말하는 것은 아니다. 공분산을 정규화시키면 상관관계를 보여주는 상관행렬(Correlation_matrix)을 얻을 수 있다. 이로부터 Pearson Coefficient값을 얻을 수 있고 두개의 확률변수의 관계를 최적으로 설명가능한 선형함수를 표현가능하게 해준다. 이러한 점에서 공분산은 독립성의 선형척도로 볼 수 있다.

표본 공분산

피어슨 상관계수에 사용되는 표본 공분산(sample covariance)은 다음과 같다.

Cov(X,Y)=in(XiX)(YiY)n1

각주

틀:각주

같이 보기

틀:전거 통제