공부일기/통계

p-값(p-value)과 통계적 유의성(Statistical Significance)

pipiiiiii 2024. 8. 16. 16:39

p값

귀무가설이 맞다는 전제 하에, 표본에서 실제로 관측된 통계치와 '같거나 더 극단적인' 통계치가 관측될 확률이다. 

 

좀 더 풀어서 설명하자면, 통계에서 가정을 검정할 땐 디폴트로 귀무가설이 맞다는 전제하에 진행된다. 그리고 확률이 클수록 샘플의 통계량은 귀무가설을 강하게 지지하기 때문에 귀무가설이 참이 된다. 반면 이 확률이 작을수록 통계량은 귀무가설을 지지하지 않기 때문에 귀무가설은 기각된다. 그러니 귀무가설을 참이라고 가정했을 때, 내가 관측한 데이터의 통계량이 귀무가설을 지지할 확률이라고 할 수 있다. 

 

 

 p값 해석 방법

낮은 p값

예를 들어 p값 < 0.05인 경우를 말한다. 

귀무가설이 참일 경우 관측된 결과가 드물게 발생한다는 것을 의미한다.

귀무가설을 기각하고, 연구 가설이 타당할 수 있다고 간주한다. 

 

높은 p값

귀무가설과 데이터 사이에 큰 불일치가 없으며, 이 경우 귀무가설을 기각할 충분한 근거가 없음을 의미한다. 

 

 

p값의 사용성 및  주의점 

사용성

  • 의사결정 도구
    실험 결과가 우연에 의한 것인지, 아니면 실제 효과에 의한 것인지 판단하는 데 중요한 도구로 사용된다. 

  • 과학적 연구의 표준 
    많은 과학적 연구에서는 p값을 결과의 통계적 유의성을 평가하는 기준으로 사용하고 있다. 

 

주의점

  • 임계값과 상황의 적용
    흔히 사용되는 0.05의 임계값은 절대적인 기준이 아니다. 연구의 맥락과 분야에 따라 달라질 수 있다.
    0.05는 통상적으로 사용되는 값이다. 

  • p값의 오용
    낮은 p값이 항상 우리의 가설이 옳다는 것을 의미하는 것이 아니다. 우연히 발생했을 가능성이 낮다는 것을 나타내는 것이다. 또한 반대로 p값이 높다고 우리의 가설이 틀렸다는 것을 의미하는 것이 아니다. 관찰한 결과가 우연히 발생했을 가능성이 더 높은 것을 의미한다. 

  • 효과 크기와 신뢰 구간 고려
    p값 이외에도 효과 크기와 신뢰 구간을 함께 고려해 결과를 해석하는 것이 중요하다. 
    • 효과 크기 : 실험 또는 관찰 연구에서 관찰된 현상이나 효과의 실질적인 중요성을 나타낸다. 
      • 중요성  : 유의성의 실질적인 크기를 나타낸다. 
      • 측정 : 'Cohen's d', 'Pearson's r' 등 다양한 방법으로 측정될 수 있으며, 이는 실험의 유형과 데이터의 종류에 따라 달라질 수 있다. 
    • 신뢰 구간 : 통계적 추정치의 정확도를 나타낸다. 특히 추정된 파라미터가 어느 범위 내에 존재할 것인지에 대한 구간을 제공한다. 
      • 중요성 : 추정치의 불확실성을 수치화한다. 
      • 해석 : 95% 신뢰 구간이라면 같은 방식으로 100번 실험했을 경우 그중 95번은 이 구간 내에 진짜 파라미터 값이 존재할 것이라는 것을 의미한다. 

 

 

P값과 관련된 3가지 오해

1. p값이 크다 = 유의한 차이가 없다. 

그래프의 모양은 표본 크기에 따라 달라진다. 그리고 정규 분포의 모양이 변하면 정규 분포의 꼬리와 그 이하 면적의 크기가 달라진다. 그래서 관찰된 값이 같더라도 표본 크기에 따라 통계적으로 유의하다고 평가될 수도, 아닐 수도 있다. 

 

이 오해를 피하기 위해서는 p값을 기준으로 판단을 내릴 때 해석에 유의하는 것이 좋다. 

즉, p값이 정해놓은 임계값 이상이라고 할 때, '귀무가설이 참'이라고 해석하는 것이 아니라 '귀무가설을 기각할 만한 근거가 충분하지 않다.'라고 해석하는 것이 더 적절할 것이다. 

 

2. 다중검정의 문제 

'귀무가설 하에서 1회 평가 시 관찰된 값이 얻어질 확률이 5% 미만인가'와 '현재 귀무가설 하에서 10회 평가 시 특정한 회차에서 관찰된 값이 얻어질 확률이 5% 미만인가'는 완전히 다른 상황이다. 

 

3. p값이 작으면 더 의미 있다는 생각 

물론 p값이 작으면 더 의미 있을 가능성도 있지만, 항상 이렇게 해석하는 것은 잘못된 판단일 수 있다.

 


통계적 유의성

모집단에 대한 가설이 확률적으로 우연이라고 생각하기 어렵고, 의미가 있다고 생각되는 정도를 말한다. 조금 더 쉽게 설명하자면 실험 또는 데이터 연구의 결과가 우연히 일어난 것인지 아니면 우연히 일어날 수 없는 극단적인 것인지를 판단한 방법이다. 어떤 실험 결과 자료를 두고 '통계적으로 유의하지 않다.'라고 하는 것은 실험 결과가 단순한 우연일 수도 있다는 뜻이다. 

 

 

P-값과 통계적 유의성

통계적 유의성은 귀무가설을 기각할 확률인 유의 확률(p값)을 통해 평가하며, 이 값이 유의 수준(alpha, 알파) 이하일 때 특별히 유의하다고 말한다. 과학적 연구에서 유의 수준은 5%나 그 이하로 설정함이 일반적이다. 

 

 

P-값과 통계적 유의성 코드 공부

< 추후 추가 예정 >

 

 

 

 

 

참고 자료