분산

testwiki
둘러보기로 이동 검색으로 이동

틀:위키데이터 속성 추적 틀:다른 뜻

평균은 같지만 분산은 다른 두 확률 분포. 빨간색 분포는 100의 평균값과 100의 분산값을 가지고, 파란색 분포는 100의 확률값과 2500의 분산값을 가진다. SD는 표준편차를 의미한다.

확률론통계학에서 어떤 확률변수분산(分散, 틀:Llang,Var)은 그 확률변수가 기댓값으로부터 얼마나 떨어진 곳에 분포하는지를 가늠하는 숫자이다.[1] 기댓값은 확률변수의 위치를 나타내고 분산은 그것이 얼마나 넓게 퍼져 있는지를 나타낸다. 분산은 표본 평균이나 분산의 제곱근표준편차와 보다 밀접한 관련이 있다.

분산(variance)은 관측값에서 평균을 뺀 값을 제곱하고, 그것을 모두 더한 후 전체 개수로 나눠서 구한다. 즉, 차이값의 제곱의 평균이다. 관측값에서 평균을 뺀 값인 편차를 모두 더하면 0이 나오므로 제곱해서 더한다.

모분산(population variance) σ2모집단의 분산이다. 관측값에서 모 평균을 빼고 그것을 제곱한 값을 모두 더하여 전체 데이터 수 n으로 나눈 것이다.

표본분산(sample variance) s2표본의 분산이다. 관측값에서 표본 평균을 빼고 제곱한 값을 모두 더한 것을 n-1로 나눈 것이다.

정의

확률변수 X의 분산은 X의 기댓값 μ=E[X]로부터 확률변수가 얼마나 떨어져있는지 그 정도를 제곱한 것의 기댓값과 같다. 이를 수식으로 나타내면 다음과 같다.

Var(X)=E[(Xμ)2]

이를 기댓값에 대해 확장해보면 다음과 같이 정리할 수 있다.

Var(X)=E[(XE[X])2]=E[X22XE[X]+E[X]2]=E[X2]2E[X]E[X]+E[X]2=E[X2]E[X]2

따라서 확률변수 X의 분산은 X 제곱의 기댓값에서 X 기댓값의 제곱을 뺀 것과 같다. 이 방식을 통해 어떤 확률변수의 분산을 간단하게 계산할 수 있다. 다만 부동소수점 연산에서는 이러한 방식을 사용하면 정확한 값을 얻지 못할 수도 있다.

이 정의는 이산확률변수, 연속확률변수, 칸토어 분포 등 모든 꼴의 확률분포에 적용된다. 분산은 공분산을 사용해 다음과 같이 나타내기도 한다.

Var(X)=Cov(X,X)

분산은 보통 var(X) 또는 σX2, 혹은 간단히 σ2으로 표현한다. σ표준편차를 가리킨다.[1]

이산확률변수에서

만일 확률 변수 X의 생성 원리가 x1p1,x2p2,,xnpn확률 질량 함수를 따르는 이산확률분포라면, 분산은 다음과 같이 정의할 수 있다.

Var(X)=i=1npi(xiμ)2

이와 다음의 식은 동치이다.

Var(X)=(i=1npixi2)μ2

이 때 μ=i=1npixi는 기댓값을 의미한다. 이 가중 산술 평균에 사용되는 가중치 틀:Mvar의 합이 1이 아니라고 한다면, 각 가중치를 총 가중치 합으로 나누어 확률과 같은 성격을 가지게 조정해야 한다.

n번의 동일한 측정을 통해 얻은 데이터에서 분산은 다음과 같이 나타낼 수 있다.

Var(X)=1ni=1n(xiμ)2=(1ni=1nxi2)μ2

여기서 μ=1ni=1nxi는 평균값을 의미한다. 이를 풀어서 쓰면 다음과 같다.[2]

Var(X)=1n2i=1nj=1n12(xixj)2=1n2ij>i(xixj)2.

완전연속확률변수에서

만일 확률 변수 X의 생성 원리가 확률 밀도 함수 f(x)누적 분포 함수 F(x)를 따르는 연속확률분포라면, 분산은 다음과 같이 구할 수 있다.

Var(X)=σ2=(xμ)2f(x)dx=x2f(x)dx2μxf(x)dx+μ2f(x)dx=x2dF(x)2μxdF(x)+μ2dF(x)=x2dF(x)2μμ+μ21=x2dF(x)μ2

이는 확률 밀도 함수 f(x)를 이용해 다음과 같이 적을 수 있다.

Var(X)=x2f(x)dxμ2

여기서 μ=xf(x)dx=xdF(x)는 확률 변수 X의 기댓값이다.

여기서 dx에 대한 적분은 르베그 적분을, dF(x)에 대한 적분은 르베그-스틸티어스 적분을 의미한다.

만일 x2f(x)가 모든 폐구간 [a,b]에서 리만 적분 가능한 함수라면 분산은 이상 적분을 통해 다음과 같이 서술할 수 있다.

Var(X)=+x2f(x)dxμ2

성질

기본적인 성질

어떤 실수의 제곱은 0 이상이므로 분산은 항상 0 이상의 값을 가진다.

Var(X)0

상수 하나로 이루어진 변수는 평균이 모든 항목의 값과 동일하므로 0의 분산을 가진다.

Var(a)=0

이 역도 성립하여, 만일 어떤 확률변수 X에 해당하는 분산값이 0이라면 그 확률 변수는 늘 상숫값을 출력한다.

Var(X)=0a:P(X=a)=1

전체 집단의 값이 b만큼 이동해 X + b가 되어도 전체 집단의 분산은 변하지 않는다. 그러나 전체 집단에 같은 값 a를 곱하면 분산은 a2배가 된다. 식으로 쓰면 다음과 같다.

Var(aX+b)=a2Var(X)

두 확률변수를 더하여 만든 새로운 확률 변수의 분산은 다음과 같이 나타낼 수 있다.

Var(aX+bY)=a2Var(X)+b2Var(Y)+2abCov(X,Y)

이 때 Cov(X,Y)틀:수학 변수틀:수학 변수공분산을 나타낸다. 이를 틀:수학 변수개의 확률변수 {X1,,XN}의 경우에 대해 일반화하면 다음과 같이 쓸 수 있다.

Var(i=1NaiXi)=i,j=1NaiajCov(Xi,Xj)=i=1Nai2Var(Xi)+i=jaiajCov(Xi,Xj)=i=1Nai2Var(Xi)+21i<jNaiajCov(Xi,Xj).

만일 확률 변수 X1,,XN가 서로 비상관관계라면 다음의 성질을 만족한다.

Cov(Xi,Xj)=0 ,  (ij)

이는 곧 다음을 의미한다.

Var(i=1NXi)=i=1NVar(Xi)

상호 독립적인 확률변수들은 항상 비상관관계에 놓여있기 때문에 위의 식은 확률 변수 X1,,Xn가 서로 독립적인 경우에도 적용 가능하다. 이처럼 독립적인 확률 변수의 합의 분산이 각각의 분산의 합과 같다는 성질 때문에 분포를 표현할 때 분산을 유용하게 사용할 수 있다.

분산의 단위는 확률변수를 나타내는 데 사용된 단위의 제곱이 되어야 한다. 예를 들면 센티미터로 잰 높이 집단의 분산은 제곱센티미터가 될 것이다. 이것은 여러 가지 불편을 유발하므로 많은 통계학자들은 집단과 같은 단위를 사용하는 표준편차를 주로 쓴다.

통계적 추정

틀:참고

표본 분산

모집단의 분산은 σ2로 나타내고, 표본의 분산은 s2로 나타낸다. s2은 모집단 분산의 추정치라고 할 수 있다. 표본 내의 어떤 변인 Y가 가지는 모집단 분산의 추정치인 표본 분산 s2는 다음과 같다.

s2=Σ(yy)2n1=SSdf
s2: 표본 분산
y: 변인
y: 표본의 평균
n: 표본의 크기
SS: 편차들의 제곱합
df: 자유도

분모를 n-1로 나누는 이유는 분산을 계산할 때 모평균이 아닌 표본 평균을 사용했기 때문에 모집단의 편의 추정량(biased estimator)이 되므로, 분산이 불편 추정량(unbiased estimator)이 되도록 하기 위해서이다.[1]

모 분산

σ2=(Yiμ)2N
σ2 모집단의 분산(모 분산)
Y: 변인
μ: 모집단의 평균
N: 표본의 크기

표준 편차

모집단의 모분산σ2으로부터 편차 단위를 얻기위해 제곱근함으로써 모집단 표준 편차 σ를 얻을수있다.

σ2=σ

표본집단의 표본분산 s2으로부터 편차 단위를 얻기위해 제곱근함으로써 표본 표준 편차 s를 얻을수있다.

s2=s

컴퓨팅

컴퓨터 프로그램의 대표적인 경우에서 스프레드시트는 var() 함수로 결과값을 기본적으로는 간단히 처리할 수 있다.

같이 보기

틀:위키공용분류

각주

틀:각주

틀:기술적 분석 틀:통계학 틀:전거 통제