분산 문서 원본 보기
←
분산
둘러보기로 이동
검색으로 이동
문서 편집 권한이 없습니다. 다음 이유를 확인해주세요:
요청한 명령은 다음 권한을 가진 사용자에게 제한됩니다:
사용자
.
문서의 원본을 보거나 복사할 수 있습니다.
{{위키데이터 속성 추적}} {{다른 뜻|분산 (광학)||빛의 분산}} [[파일:Comparison_standard_deviations.svg|오른쪽|섬네일|400x400픽셀|평균은 같지만 분산은 다른 두 확률 분포. 빨간색 분포는 100의 평균값과 100의 분산값을 가지고, 파란색 분포는 100의 확률값과 2500의 분산값을 가진다. SD는 표준편차를 의미한다.]] [[확률론]]과 [[통계학]]에서 어떤 [[확률변수]]의 '''분산'''(分散, {{llang|en|variance}},<math>\operatorname{Var}</math>)은 그 확률변수가 [[기댓값]]으로부터 얼마나 떨어진 곳에 분포하는지를 가늠하는 숫자이다.<ref name="lee76">{{서적 인용|저자1=이재기|저자2=최석근|저자3=박경식|저자4=정성혁|제목=측량학1|출판사=형설출판사|판=2|날짜=2013|ibsn=978-89-472-7336-7|쪽=76}}</ref> 기댓값은 확률변수의 위치를 나타내고 분산은 그것이 얼마나 넓게 퍼져 있는지를 나타낸다. 분산은 [[표본 평균]]이나 분산의 [[제곱근]]인 [[표준편차]]와 보다 밀접한 관련이 있다. '''분산'''(variance)은 관측값에서 [[평균]]을 뺀 값을 [[제곱]]하고, 그것을 모두 더한 후 전체 개수로 나눠서 구한다. 즉, 차이값의 제곱의 평균이다. 관측값에서 평균을 뺀 값인 편차를 모두 더하면 0이 나오므로 제곱해서 더한다. '''모분산'''(population variance) σ<sup>2</sup>은 [[모집단]]의 분산이다. 관측값에서 [[모 평균]]을 빼고 그것을 제곱한 값을 모두 더하여 전체 데이터 수 n으로 나눈 것이다. '''표본분산'''(sample variance) s<sup>2</sup>은 [[표본]]의 분산이다. 관측값에서 [[표본 평균]]을 빼고 제곱한 값을 모두 더한 것을 n-1로 나눈 것이다. == 정의 == [[확률변수]] <math>X</math>의 분산은 <math>X</math>의 기댓값 <math>\mu = \operatorname{E}[X]</math>로부터 확률변수가 얼마나 떨어져있는지 그 정도를 제곱한 것의 기댓값과 같다. 이를 수식으로 나타내면 다음과 같다. : <math> \operatorname{Var}(X) = \operatorname{E}\left[(X - \mu)^2 \right] </math> 이를 기댓값에 대해 확장해보면 다음과 같이 정리할 수 있다. <math>\begin{align} \operatorname{Var}(X) &= \operatorname{E}\left[(X - \operatorname{E}[X])^2\right] \\[4pt] &= \operatorname{E}\left[X^2 - 2X\operatorname{E}[X] + \operatorname{E}[X]^2\right] \\[4pt] &= \operatorname{E}\left[X^2\right] - 2\operatorname{E}[X]\operatorname{E}[X] + \operatorname{E}[X]^2 \\[4pt] &= \operatorname{E}\left[X^2 \right] - \operatorname{E}[X]^2 \end{align}</math> 따라서 확률변수 <math>X</math>의 분산은 <math>X</math> 제곱의 기댓값에서 <math>X</math> 기댓값의 제곱을 뺀 것과 같다. 이 방식을 통해 어떤 확률변수의 분산을 간단하게 계산할 수 있다. 다만 [[부동소수점]] 연산에서는 이러한 방식을 사용하면 정확한 값을 얻지 못할 수도 있다. 이 정의는 [[이산확률변수]], [[연속확률변수]], [[칸토어 분포]] 등 모든 꼴의 확률분포에 적용된다. 분산은 [[공분산]]을 사용해 다음과 같이 나타내기도 한다. : <math>\operatorname{Var}(X) = \operatorname{Cov}(X, X)</math> 분산은 보통 <math>\operatorname{var}(X)</math> 또는 <math>\sigma _X ^2</math>, 혹은 간단히 <math>\sigma ^2\,</math>으로 표현한다. <math>\sigma\,</math>는 [[표준편차]]를 가리킨다.<ref name="lee76" /> === 이산확률변수에서 === 만일 확률 변수 <math>X</math>의 생성 원리가 <math>x_1 \mapsto p_1, x_2 \mapsto p_2, \ldots, x_n \mapsto p_n</math>의 [[확률 질량 함수]]를 따르는 [[이산확률분포]]라면, 분산은 다음과 같이 정의할 수 있다. : <math>\operatorname{Var}(X) = \sum_{i=1}^n p_i\cdot(x_i - \mu)^2</math> 이와 다음의 식은 동치이다. : <math>\operatorname{Var}(X) = \left(\sum_{i=1}^n p_i x_i ^2\right) - \mu^2</math> 이 때 <math>\mu = \sum_{i=1}^n p_i x_i </math>는 기댓값을 의미한다. 이 [[가중 산술 평균]]에 사용되는 가중치 {{Mvar|p}}의 합이 1이 아니라고 한다면, 각 가중치를 총 가중치 합으로 나누어 확률과 같은 성격을 가지게 조정해야 한다. <math>n</math>번의 동일한 측정을 통해 얻은 데이터에서 분산은 다음과 같이 나타낼 수 있다. : <math> \operatorname{Var}(X) = \frac{1}{n} \sum_{i=1}^n (x_i - \mu)^2 = \left( \frac{1}{n} \sum_{i=1}^n x_i^2 \right) - \mu^2 </math> 여기서 <math>\mu = \frac{1}{n}\sum_{i=1}^n x_i </math>는 평균값을 의미한다. 이를 풀어서 쓰면 다음과 같다.<ref>{{콘퍼런스 인용|authors=Yuli Zhang, Huaiyu Wu, Lei Cheng|date=June 2012|title=Some new deformation formulas about variance and covariance|conference=Proceedings of 4th International Conference on Modelling, Identification and Control(ICMIC2012)|pages=987–992}}</ref> : <math> \operatorname{Var}(X) = \frac{1}{n^2} \sum_{i=1}^n \sum_{j=1}^n \frac{1}{2}(x_i - x_j)^2 = \frac{1}{n^2}\sum_i \sum_{j>i} (x_i-x_j)^2. </math> === 완전연속확률변수에서 === 만일 확률 변수 <math>X</math>의 생성 원리가 [[확률 밀도 함수]] <math>f(x)</math>와 [[누적 분포 함수]] <math>F(x)</math>를 따르는 [[연속확률분포]]라면, 분산은 다음과 같이 구할 수 있다. : <math>\begin{align} \operatorname{Var}(X) = \sigma^2 &= \int_{\R} (x-\mu)^2 f(x) \, dx \\[4pt] &= \int_{\R} x^2f(x)\,dx -2\mu\int_{\R} xf(x)\,dx + \mu^2\int_{\R} f(x)\,dx \\[4pt] &= \int_{\R} x^2 \,dF(x) - 2 \mu \int_{\R} x \,dF(x) + \mu^2 \int_{\R} \,dF(x) \\[4pt] &= \int_{\R} x^2 \,dF(x) - 2 \mu \cdot \mu + \mu^2 \cdot 1 \\[4pt] &= \int_{\R} x^2 \,dF(x) - \mu^2 \end{align}</math> 이는 확률 밀도 함수 <math>f(x)</math>를 이용해 다음과 같이 적을 수 있다. : <math>\operatorname{Var}(X) = \int_{\R} x^2 f(x) \,dx - \mu^2 </math> 여기서 <math>\mu = \int_{\R} x f(x) \, dx = \int_{\R} x \, d F(x) </math>는 확률 변수 <math>X</math>의 기댓값이다. 여기서 <math>dx</math>에 대한 적분은 [[르베그 적분]]을, <math>dF(x)</math>에 대한 적분은 [[르베그-스틸티어스 적분]]을 의미한다. 만일 <math>x^2f(x)</math>가 모든 폐구간 <math>[a,b]\subset\R</math>에서 [[리만 적분]] 가능한 함수라면 분산은 [[이상 적분]]을 통해 다음과 같이 서술할 수 있다. : <math>\operatorname{Var}(X) = \int^{+\infty}_{-\infty} x^2 f(x) \, dx - \mu^2 </math> == 성질 == === 기본적인 성질 === 어떤 실수의 제곱은 0 이상이므로 분산은 항상 0 이상의 값을 가진다. : <math>\operatorname{Var}(X)\ge 0</math> 상수 하나로 이루어진 변수는 평균이 모든 항목의 값과 동일하므로 0의 분산을 가진다. : <math>\operatorname{Var}(a) = 0</math> 이 역도 성립하여, 만일 어떤 확률변수 <math>X</math>에 해당하는 분산값이 0이라면 그 확률 변수는 늘 상숫값을 출력한다. : <math>\operatorname{Var}(X)= 0 \iff \exists a : P(X=a) = 1</math> 전체 집단의 값이 ''b''만큼 이동해 ''X'' + ''b''가 되어도 전체 집단의 분산은 변하지 않는다. 그러나 전체 집단에 같은 값 ''a''를 곱하면 분산은 ''a''<sup>2</sup>배가 된다. 식으로 쓰면 다음과 같다. :<math>\operatorname{Var}(aX + b) = a^2 \operatorname{Var}(X)</math> 두 확률변수를 더하여 만든 새로운 확률 변수의 분산은 다음과 같이 나타낼 수 있다. : <math>\operatorname{Var}(aX+bY)=a^2\operatorname{Var}(X)+b^2\operatorname{Var}(Y)+2ab\, \operatorname{Cov}(X,Y)</math> 이 때 <math>\operatorname{Cov}(X,Y)</math>는 {{수학 변수|X}}와 {{수학 변수|Y}}의 [[공분산]]을 나타낸다. 이를 {{수학 변수|N}}개의 확률변수 <math>\{X_1,\dots,X_N\}</math>의 경우에 대해 일반화하면 다음과 같이 쓸 수 있다. : <math> \begin{align} \operatorname{Var}\left( \sum_{i=1}^N a_iX_i\right) &=\sum_{i,j=1}^{N} a_ia_j\operatorname{Cov}(X_i,X_j) \\ &=\sum_{i=1}^N a_i^2\operatorname{Var}(X_i)+\sum_{i\not=j}a_ia_j\operatorname{Cov}(X_i,X_j)\\ & =\sum_{i=1}^N a_i^2\operatorname{Var}(X_i)+2\sum_{1\le i<j\le N}a_ia_j\operatorname{Cov}(X_i,X_j). \end{align} </math> 만일 확률 변수 <math>X_1,\dots,X_N</math>가 서로 [[공분산|비상관]]관계라면 다음의 성질을 만족한다. : <math>\operatorname{Cov}(X_i,X_j)=0\ ,\ \forall\ (i\ne j)</math> 이는 곧 다음을 의미한다. : <math>\operatorname{Var}\left(\sum_{i=1}^N X_i\right)=\sum_{i=1}^N\operatorname{Var}(X_i)</math> 상호 독립적인 확률변수들은 항상 비상관관계에 놓여있기 때문에 위의 식은 확률 변수 <math>X_1,\dots,X_n</math>가 서로 독립적인 경우에도 적용 가능하다. 이처럼 독립적인 확률 변수의 합의 분산이 각각의 분산의 합과 같다는 성질 때문에 분포를 표현할 때 분산을 유용하게 사용할 수 있다. 분산의 단위는 확률변수를 나타내는 데 사용된 단위의 제곱이 되어야 한다. 예를 들면 센티미터로 잰 높이 집단의 분산은 제곱센티미터가 될 것이다. 이것은 여러 가지 불편을 유발하므로 많은 통계학자들은 집단과 같은 단위를 사용하는 [[표준편차]]를 주로 쓴다. == 통계적 추정 == {{참고|통계적 추정}} === 표본 분산 === 모집단의 분산은 <math>\sigma^2</math>로 나타내고, 표본의 분산은 <math>s^2</math>로 나타낸다. <math>s^2</math>은 모집단 분산의 추정치라고 할 수 있다. 표본 내의 어떤 변인 Y가 가지는 [[모집단]] 분산의 추정치인 표본 분산 <math>s^2</math>는 다음과 같다. :<math>s^2 = \frac{\Sigma(y-\overline{y})^2}{n-1} = \frac{SS}{df}</math> :<math>s^2</math>: 표본 분산 :<math>y</math>: 변인 :<math>\overline{y}</math>: 표본의 평균 :<math>n</math>: 표본의 크기 :<math>SS</math>: 편차들의 [[제곱합]] :<math>df</math>: [[자유도 (통계학)|자유도]] 분모를 n-1로 나누는 이유는 분산을 계산할 때 모평균이 아닌 표본 평균을 사용했기 때문에 모집단의 [[편의 추정량]](biased estimator)이 되므로, 분산이 [[불편 추정량]](unbiased estimator)이 되도록 하기 위해서이다.<ref name="lee76"/> == 모 분산 == :<math> \sigma^2 = {{\sum(Y_i - \overline{\mu})^2 }\over{N}} </math> :<math>\sigma^2</math> 모집단의 분산(모 분산) :<math>Y</math>: 변인 :<math>\overline{\mu}</math>: 모집단의 평균 :<math>N</math>: 표본의 크기 == 표준 편차 == 모집단의 모분산<math>\sigma^2</math>으로부터 편차 단위를 얻기위해 제곱근함으로써 모집단 [[표준 편차]] <math>\sigma</math>를 얻을수있다. :<math>\sqrt{\sigma^2} = \sigma</math> 표본집단의 표본분산 <math>s^2</math>으로부터 편차 단위를 얻기위해 제곱근함으로써 표본 [[표준 편차]] <math>s</math>를 얻을수있다. :<math>\sqrt{s^2} = s</math> == 컴퓨팅 == 컴퓨터 프로그램의 대표적인 경우에서 [[스프레드시트]]는 var() 함수로 결과값을 기본적으로는 간단히 처리할 수 있다. == 같이 보기 == {{위키공용분류}} * [[평균]] * [[상관 분석]] * [[피어슨 상관 계수]] * [[분산 분석]] * [[t-검정]] * [[변이 가설]] (variability hypothesis) * [[편차]] == 각주 == {{각주}} {{기술적 분석}} {{통계학}} {{전거 통제}} [[분류:확률론]] [[분류:통계량]] [[분류:모멘트 (수학)]]
이 문서에서 사용한 틀:
틀:Llang
(
원본 보기
)
틀:Mvar
(
원본 보기
)
틀:각주
(
원본 보기
)
틀:기술적 분석
(
원본 보기
)
틀:다른 뜻
(
원본 보기
)
틀:서적 인용
(
원본 보기
)
틀:수학 변수
(
원본 보기
)
틀:위키공용분류
(
원본 보기
)
틀:위키데이터 속성 추적
(
원본 보기
)
틀:전거 통제
(
원본 보기
)
틀:참고
(
원본 보기
)
틀:콘퍼런스 인용
(
원본 보기
)
틀:통계학
(
원본 보기
)
분산
문서로 돌아갑니다.
둘러보기 메뉴
개인 도구
로그인
이름공간
문서
토론
한국어
보기
읽기
원본 보기
역사 보기
더 보기
검색
둘러보기
대문
최근 바뀜
임의의 문서로
미디어위키 도움말
특수 문서 목록
도구
여기를 가리키는 문서
가리키는 글의 최근 바뀜
문서 정보