허위 상관 문서 원본 보기
←
허위 상관
둘러보기로 이동
검색으로 이동
문서 편집 권한이 없습니다. 다음 이유를 확인해주세요:
요청한 명령은 다음 권한을 가진 사용자에게 제한됩니다:
사용자
.
문서의 원본을 보거나 복사할 수 있습니다.
{{위키데이터 속성 추적}} [[통계학]]에서 '''허위 상관'''({{llang|en|spurious correlation}}) 또는 '''허구적 상관'''은 둘 이상의 변수가 통계적으로 상관되어 있지만 [[인과관계]]가 없는 관계를 말한다. 허위 상관은 우연에 따라 발생할 수도 있고, 설명변수와 종속변수 모두에 영향을 미치는 제3의 [[혼재변수]](confounding variable)의 존재 때문에 발생할 수도 있다. == 혼재변수에 의한 허위상관 == [[파일:Comparison confounder mediator.svg|섬네일|두 변수 모두에 영향을 미치는 혼재변수]] 만약 두 변수에 공통적으로 영향을 미치는 제3의 변수가 있다면 두 변수가 상관되어 보일지라도 인과관계가 있다고 볼 수 없다.<ref>{{서적 인용|성1=Siegel|이름1=Andrew F. |제목=Practical Business Statistics |날짜=2012 |출판사=Academic Press |위치=Burlington, MA |isbn=978-0-12-385208-3 |쪽=309 |판=6}}</ref> 두 변수 X와 Y에 공통으로 영향을 미치는 제3의 변수 Z을 혼재변수라고 한다. 두 변수에 공통적으로 영향을 미치는 변수가 존재한다면 X와 Y 사이에 나타난 상관관계는 Z으로 인해 발생한 것이지 X로 인해 Y가 변화했다고 볼 수 없게 된다. 예를 들어, [[아이스크림]] 판매량과 수영장 이용객 수는 양의 상관관계가 있는 것처럼 보일 수 있다. 그러나 두 변수 모두에 영향을 미치는 여름 기온이 높아졌기 때문에 아이스크림 판매량과 수영장 이용객 수가 모두 증가한 것이지, 아이스크림 판매량이 늘어났기 때문에 수영장 이용객 수가 늘어난 것은 아니다. == 시계열 자료의 허구적 회귀 == [[파일:Spurious regression with non-stationary time series.svg|섬네일|아무런 관계가 없는 확률보행 과정 시계열과 산점도의 모양]] [[시계열|시계열 자료]]가 [[정상 과정|불안정적]]인 경우 두 시계열 변수 사이에 아무런 관계가 없다고 하더라도 [[산점도]]에서 볼 때는 상관관계가 있는 것처럼 나타날 수 있다. 오른쪽 그림의 두 시계열은 서로 아무런 관련성 없이 AR(1) [[확률보행]] 과정을 통해 생성되었으나 산점도를 보면 양의 상관관계가 있는 것처럼 보인다. 오른쪽 그림의 두 시계열은 다음과 같은 방법으로 생성되었다. :<math> \begin{matrix} X_t &=& X_{t-1} + u_t. & u_t \sim N(0,10^2) \\ Y_t &=& Y_{t-1} + v_t. & v_t \sim N(0,10^2) \end{matrix}</math> 두 시계열이 서로 아무런 관련성이 없는데도 회귀 모형을 추정하면 유의미한 관계가 있는 것처럼 나타나는 것을 '''허구적 회귀'''(spurious regression)이라 한다.<ref name="hill econometrics">{{서적 인용|성1=Hill|이름1=R. Carter|성2=Griffiths|이름2=William E.|성3=Lim|이름3=Guay C. |제목=Principles of Econometrics|번역제목=계량경제학 |날짜=2010 |출판사=시그마프레스 |isbn=978-89-5832-785-1 |판=3}}</ref>{{rp|447-448}} 확률보행 과정을 따르는 시계열 또는 적분된 시계열의 수준을 분석하는 경우에는 두 시계열이 아무런 관계가 없음에도 불구하고 통계적으로 유의하다는 결론을 낼 확률이 상당히 높게 나타나는 문제가 발생한다.<ref>{{저널 인용|성1=Granger|이름1=C.W.J.|성2=Newbold|이름2=P. |제목=Spurious regressions in econometrics |저널=Journal of Econometrics |날짜=1974 |권=2 |호=2 |쪽=111-120 |doi=10.1016/0304-4076(74)90034-7}}</ref> 허구적 회귀 문제를 피하는 방법으로는 불안정한 시계열을 차분하여 [[정상 과정|안정적 시계열]]을 얻은 후 회귀 분석을 하거나 불안정한 시계열 사이에 [[공적분]] 관계가 존재하는지 조사하는 방법이 있다. 시계열을 d회 차분하여 안정적 시계열이 되는 d를 [[적분 차수]]라 하고 <math>\operatorname{I}(d)</math>라 표기한다. <math>y_t \sim \operatorname{I}(1)</math>이고 <math>x_t \sim \operatorname{I}(1)</math>이면 두 시계열의 선형 결합은 적분 차수가 1이 되는 게 일반적이지만, <math>y_t - \beta x_t \sim \operatorname{I}(0)</math>이 되는 특별한 예외가 존재하는데 이 경우 두 시계열이 공적분되었다고 한다.<ref name="hill econometrics" />{{rp|454}}<ref>{{웹 인용 |제목=Time-series Econometrics: Cointegration and Autoregressive Conditional Heteroskedasticity |url=https://www.nobelprize.org/uploads/2018/06/advanced-economicsciences2003-1.pdf |웹사이트=Nobelprize.org |출판사=The Royal Swedish Academy of Sciences |날짜=2003 |확인날짜=2022-04-10}}</ref><ref>{{저널 인용|성1=Granger|이름1=Clive W.J. |제목=Some properties of time series data and their use in econometric model specification |저널=Journal of Econometrics |날짜=1981 |권=16 |호=1 |쪽=121-130 |doi=10.1016/0304-4076(81)90079-8}}</ref> == 각주 == <references /> == 같이 보기 == * [[상관관계와 인과관계]] * [[누락변수 편의]] * [[혼재변수]] * [[공적분]] == 외부 링크 == * [https://www.tylervigen.com/spurious-correlations 허구적 상관의 예시] {{웹아카이브|url=https://web.archive.org/web/20190627155800/https://www.tylervigen.com/spurious-correlations}} [[분류:인과관계의 오류]] [[분류:통계학]]
이 문서에서 사용한 틀:
틀:Llang
(
원본 보기
)
틀:Rp
(
원본 보기
)
틀:서적 인용
(
원본 보기
)
틀:웹 인용
(
원본 보기
)
틀:웹아카이브
(
원본 보기
)
틀:위키데이터 속성 추적
(
원본 보기
)
틀:저널 인용
(
원본 보기
)
허위 상관
문서로 돌아갑니다.
둘러보기 메뉴
개인 도구
로그인
이름공간
문서
토론
한국어
보기
읽기
원본 보기
역사 보기
더 보기
검색
둘러보기
대문
최근 바뀜
임의의 문서로
미디어위키 도움말
특수 문서 목록
도구
여기를 가리키는 문서
가리키는 글의 최근 바뀜
문서 정보