통계적 유의성
통계적 유의성 (統計的 有意性, statistical significance)은 모집단에 대한 가설이 확률적으로 우연이라고 생각하기 어렵고, 의미가 있다고 생각되는 정도이다.[1][2] 즉, 어떤 실험 결과 자료를 두고 "통계적으로 유의하다."라고 하는 것은 단순한 우연이라고 생각되지 않을 정도로 의미가 있다는 뜻이다. 반대로 "통계적으로 유의하지 않다."라고 하는 것은 실험 결과가 단순한 우연일 수도 있다는 뜻이다. 통계적 유의성은 귀무 가설을 기각할 확률인 유의 확률(p-value)을 통해 평가하며, 이 값이 유의 수준 이하일 때 특별히 유의하다고 말한다.[3][4][5][6][7][8][9][10] 과학적 연구에서 유의 수준은 5%나 그 이하로 설정함이 일반적이다.[11] 적절한 유의수준은 학계의 관례를 따른다.[12]
다만, 검정통계량은 표본 크기의 함수이므로 표본 크기가 커질수록 검정통계량의 값은 커져서 실질적으로는 유의성이 없어도 통계적으로는 유의한 것으로 판정될 수 있다. 이때의 오류는 1종오류가 된다. 즉, 통계적 유의성은 오류가능성을 동반한다.
역사
통계적 유의성의 개념을 처음 언급한 이는 존 아버스넛(John Arbuthnot)과 피에르시몽 드 라플라스 후작이다. 이들은 인간의 성비를 논할 때 신생아의 성비가 1:1일 것이라는 귀무 가설을 수립하며 유의 확률의 개념을 처음 도입했다.[13][14][15][16][17][18][19]
1925년에는 로널드 피셔가 유의성 검정(tests of significance)이라는 개념을 도입하였다.[20][21][22] 여기서 0.05를 기준으로 이보다 유의 확률이 낮을 때 유의하다고 보며 이후로 통용될 관례를 처음으로 만들었다.[23] 1933년에는 예지 네이만과 이건 피어슨이 유의 확률을 평가하는 기준점을 유의 수준 라 명명했다. 이들은 이 값을 데이터 수집 전에 먼저 정하고 수집할 것을 권했다.[23][24]