https://yozm.wishket.com/magazine/detail/1667/
A/B 테스트 제대로 이해하기: ④ A/B 테스트 표본 크기와 유의미한 결과의 관계 | 요즘IT
이전 글에서 기초 통계 지식을 바탕으로 A/B 테스트 계산기의 세팅 방법과 해석에 관한 내용을 살펴보았다. 이때 해석 내용 중 계산기에서 ‘결과가 유의미하지 않다(Not Significant)’라고 했을 때
yozm.wishket.com
<아티클 내용 요약>
표본(트래픽) 사이즈와 유의미한 결과가 무슨 상관이 있나요?
- 결론부터 말하자만 아주 상관이 많다.
- 표본이 많으면 많을수록 그룹 A와 B의 결과 차이가 적더라도 '유의미하다'라고 인정해주기 때문이다.
우리의 생각 1 '잘은 모르지만 표본은 많을수록 좋은 것 같다.
- 제일 정확안건 모집단 전체에게 물어보는 것이지만 사실상 불가능하다.
- 이왕이면 표본이 많을수록 더 정확할 것이다.
- 그렇다면 표본이 많을수록 '더 적은 차이도 인정해준다'는 건 어떤 의미일까
- A그룹 : 10명 중 2명 - 20%, B그룹 : 10명 중 3명 - 30%
- A그룹 : 10,000명 중 2,000명 - 20%, B그룹 : 10,000명 중 3,000명 - 30%
- 전환율은 같지만 직관적으로 느낄 수 있다.
우리의 생각 2 '차이가 커야 할 것 같은데, 이 트래픽에서 고작 이 정도 차이로 되나?'
- 트래픽을 더 키워서 보자
- A그룹 : 10,000명 중 2,000명 - 20%, B그룹 : 10,000명 중 3,000명 - 30%
- A그룹 : 100,000명 중 2,200명 - 2%, B그룹 : 100,000명 중 2,000명 - 2.2%
- 두 그룹의 트래픽은 10배가 차이나지만 전환율이 차이가 난다.
- 트래픽이 많아도 전환율이 작은데 괜찮은 것인지 걱정이 될 수 있다.
표본 크기와 A/B 테스트 결과의 차이에서 우리가 착각하는 것
- 총 3번의 실험을 했을 때 첫번째와 두번째에서는 두번째가 낫다고 생각하지만 두번째와 세번째의 경우에는 아리송하게 느끼게 된다.
- 그러나 세번째 실험 결과도 신뢰 수준 95%의 양측 검정 기준으로 P-value가 0.0018로 유의미하다.
- 그 이유는 0.2%p 수준이지만 표본이 100,000명이나 되니 이 정도면 충분하기에 우연이라고 볼 수 없기 때문이다.
- 아무리 차이가 적어 보이더라도 100,000명을 대상으로 해서 얻은 실험 결과이니 통계적으로 유의미하다.
- 우리는 단순히 비율을 비교하는 것이다 아니다. 이 비율의 차이가 정말로 믿을 수 있는 결과인지, 다른 경우에도 반복되어 우연이 아니란걸 증명할 수 있는지 알고 싶은 거다.
- 표본이 커서 모집단의 크기에 가까워질수록 추측은 정확해지고 우연에 의해 발생할 가능성은 줄어든다.
- '표본이 크면 클수록 같거나 더 작은 차이로도 유의미하다는 평가를 얻어낼 수 있다' 이 명제는 '표본이 작으면 이 차이가 정말로 유의미한지, 우연이 아닌지 아직은 알 수 없지만, 표본만 충분하다면 판단해줄 수 있다.'는 의미다. 더 나아가 '두 그룹의 차이가 똑같거나 심지어는 더 적더라도 두 그룹의 차이가 유의미하다고 판단해줄 수도 있겠다'와 같은 뜻이다.
<알게 된 개념>
표본이 많을수록 좋다.
'데일리 미션 > Article' 카테고리의 다른 글
Article : 새로운 데이터 직군, 데이터 애널리틱스 엔지니어란? (0) | 2024.05.16 |
---|---|
Article : A/B 테스트 제대로 이해하기 : ⑤ A/B 테스트에 적정한 표본과 주의 사항 (0) | 2024.05.14 |
Article : A/B 테스트 제대로 이해하기 : ③ A/B 테스트 계산기의 세팅과 해석 (0) | 2024.05.09 |
Article : A/B 테스트 제대로 이해하기 : ②A/B 테스트를 위한 기초 통계 이해하기 (0) | 2024.05.09 |
Article : A/B 테스트 제대로 이해하기 : ① 테스트를 설계할 때 우리의 진짜 질문은? (0) | 2024.05.07 |