데일리 미션/Article

Article : A/B 테스트 제대로 이해하기 : ④ A/B 테스트 표본 크기와 유의미한 결과의 관계

pipiiiiii 2024. 5. 13. 09:37

https://yozm.wishket.com/magazine/detail/1667/

 

A/B 테스트 제대로 이해하기: ④ A/B 테스트 표본 크기와 유의미한 결과의 관계 | 요즘IT

이전 글에서 기초 통계 지식을 바탕으로 A/B 테스트 계산기의 세팅 방법과 해석에 관한 내용을 살펴보았다. 이때 해석 내용 중 계산기에서 ‘결과가 유의미하지 않다(Not Significant)’라고 했을 때

yozm.wishket.com

 

 

<아티클 내용 요약>

표본(트래픽) 사이즈와 유의미한 결과가 무슨 상관이 있나요?

  • 결론부터 말하자만 아주 상관이 많다. 
  • 표본이 많으면 많을수록 그룹 A와 B의 결과 차이가 적더라도 '유의미하다'라고 인정해주기 때문이다. 

 

우리의 생각 1 '잘은 모르지만 표본은 많을수록 좋은 것 같다.

  • 제일 정확안건 모집단 전체에게 물어보는 것이지만 사실상 불가능하다. 
  • 이왕이면 표본이  많을수록 더 정확할 것이다. 
  • 그렇다면 표본이 많을수록 '더 적은 차이도 인정해준다'는 건 어떤 의미일까
    • A그룹 : 10명 중 2명 - 20%, B그룹 : 10명 중 3명 - 30%
    • A그룹 : 10,000명 중 2,000명 - 20%, B그룹 : 10,000명 중 3,000명 - 30%
  • 전환율은 같지만 직관적으로 느낄 수 있다. 

 

우리의 생각 2 '차이가 커야 할 것 같은데, 이 트래픽에서 고작 이 정도 차이로 되나?'

  • 트래픽을 더 키워서 보자
    • A그룹 : 10,000명 중 2,000명 - 20%, B그룹 : 10,000명 중 3,000명 - 30% 
    • A그룹 : 100,000명 중 2,200명 - 2%, B그룹 : 100,000명 중 2,000명 - 2.2%
  • 두 그룹의 트래픽은 10배가 차이나지만 전환율이 차이가 난다.
  • 트래픽이 많아도 전환율이 작은데 괜찮은 것인지 걱정이 될 수 있다. 

 

표본 크기와 A/B 테스트 결과의 차이에서 우리가 착각하는 것 

  • 총 3번의 실험을 했을 때 첫번째와 두번째에서는 두번째가 낫다고 생각하지만 두번째와 세번째의 경우에는 아리송하게 느끼게 된다.
  • 그러나 세번째 실험 결과도 신뢰 수준 95%의 양측 검정 기준으로 P-value가 0.0018로 유의미하다. 
  • 그 이유는 0.2%p 수준이지만 표본이 100,000명이나 되니 이 정도면 충분하기에 우연이라고 볼 수 없기 때문이다. 
  • 아무리 차이가 적어 보이더라도 100,000명을 대상으로 해서 얻은 실험 결과이니 통계적으로 유의미하다. 
  • 우리는 단순히 비율을 비교하는 것이다 아니다. 이 비율의 차이가 정말로 믿을 수 있는 결과인지, 다른 경우에도 반복되어 우연이 아니란걸 증명할 수 있는지 알고 싶은 거다. 
  • 표본이 커서 모집단의 크기에 가까워질수록 추측은 정확해지고 우연에 의해 발생할 가능성은 줄어든다. 
  • '표본이 크면 클수록 같거나 더 작은 차이로도 유의미하다는 평가를 얻어낼 수 있다' 이 명제는 '표본이 작으면 이 차이가 정말로 유의미한지, 우연이 아닌지 아직은 알 수 없지만, 표본만 충분하다면 판단해줄 수 있다.'는 의미다. 더 나아가 '두 그룹의 차이가 똑같거나 심지어는 더 적더라도 두 그룹의 차이가 유의미하다고 판단해줄 수도 있겠다'와 같은 뜻이다. 

 

<알게 된 개념>

표본이 많을수록 좋다.