데일리 미션/Article

Article : A/B 테스트 제대로 이해하기 : ②A/B 테스트를 위한 기초 통계 이해하기

pipiiiiii 2024. 5. 9. 10:05

 

https://yozm.wishket.com/magazine/detail/1644/

 

A/B 테스트 제대로 이해하기: ②A/B 테스트를 위한 기초 통계 이해하기 | 요즘IT

앞선 글에서 A/B 테스트를 설계하거나 수행할 때 ‘목표를 달성하기 위한 방안으로 A와 B 중 어느 게 더 나은가?’ 뒤에 숨은 진짜 질문에 관해 살펴보았다. 이번 글에서는 이러한 우리의 진짜 질

yozm.wishket.com

 

<아티클 내용 요약>

1. 모집단과 표본  

  • "우리는 결코 '전체'를 알 순 없다. 이번 실험의 대상은 어디까지나 '일부'다."
  • 실험의 기간은 한정되어 있고, 누군가는 참여를 안 할수도 있고, 누군가는 예비 고객일 수 있다는 것을 생각하면 실험군은 영원히 '일부'일 뿐이다. 
  • 결국 '전체'에 대해서 알 수 없다. 다만 실험을 통해 만나는 '일부'에 대해서만 알 수 있다. 그것도 실험 기간 동안 실험에 노출된 일부 고객에 대해서만 알 수 있다. 
  • 통계에서는 전체 대상자를 '모집단'이라고 부르고, 일부를 '표본'이라고 부른다. 

 

2. '일부'를 통해서 '전체'에 대해 추론할 수 있다. 

  • '일부'일지라도 수가 충분하면, 일부를 통해 전체에 대해서 추측, 추론, 추정할 수 있다. 
  • 다만 이는 A/B 테스트를 설계하거나 실행, 해석할 때의 고려 요소가 아니라 우리의 일상 속 모든 '통계적 추측' 뒤에 숨은 대전제에 가깝다. 

 

3. 귀무가설과 대립 가설, 양측 검정과 단측 검정

  • 우리는 '표본'을 대상으로 실험하고, 그 안에서 무수히 많은 그룹을 나눈 뒤 실험을 진행한다. 그리고 각 그룹의 결과에 '평소라면 차이가 없지만, 이번 실험으로 인해 차이가 생길 것'이라고 가정한다. 
  • 평소에는 무언가를 하지 않으면 아무런 일이 일어나지 않는다. 이러한 평소 상태에 대한 가설을 '귀무가설'이라고 한다. 
  • 표본을 A와 B 등으로 나누어 특정 조치를 한 뒤, A와 B 사이의 결과에 차이가 생길 것이라고 가정한다. 즉, 평소와 다른 반대되는 상황이 발생할 것이라고 가정하는 것이다. 이를 '대립 가설'이라고 한다.
    평소의 상황과 대립하는 결과가 나올 것이라고 가정하는 셈이다.
  • A/B 테스트를 하면, 두 그룹에 차이가 있어서 더 나은 결과가 있을 것이라고 가정한다. 이때 '정말 더 나은 결과인지' 확인하는 실험을 '단측 검정(한쪽으로 알아보는)'이라고 한다.
  • 차이가 있긴 있되 어느 쪽이 더 나을지 미리 가정할 수 없는 경우를 '양측 검정(양쪽으로 알아보는)'이라고 한다. 

 

4. 실험 결과도 결국 '추측'이다. 

  • A/B 테스트의 결과는 무조건 옮은 걸까? 당연히 아니다. 
  • A/B 테스트는 어디까지나 우리가 관심 있는 특정 유형의 고객 중 실험에 노출된 일부를 바탕으로 해당 유형 고객의 전체를 '추측'한 것이다. 다만, 우리는 이 추측이 제법 유효한지, 공정한지, 정확한지 알아가려는 과정이고, 최대한 유효하고 공정하고 정확한 A/B 테스트를 만들기 위해 노력할 뿐이다. 
  • '그럼 우리의 추측이 어느 정도로 신뢰할 수 있는가?'라는 질문을 한다면 이때 우리의 추측을 신뢰할 수 있는 수준을 '신뢰 수준'이라고 한다. 
  • 신뢰 수준에 관해 이야기하기 위해서는 점 추정과 구간 추정, 표준 오차, 신뢰 구간 등 여러 용어가  필요하다. 
    • 점 추정 
      우리는 콕 짚어 특정 숫자가 나올 것으로 추측하는 것이 아니라 얼추 40% ~ 50% 정도가 될 거라는 식으로 '범위'를 추정한다. 이처럼 한 점을 정확히 콕 짚어 추측하는 것을 말한다. 
    • 구간 추정
      특정 범위 / 구간을 기준으로 추측하는 것을 말한다. 
    • 표준 오차 
      동일하게 설계한 실험을 동일한 기준으로 선발한 서로 다른 표본 집단을 대상으로 진행했을 때 실험 설계는 동일해도 결과가 매번 다를 수 있다. 이렇게 생긴 차이를 말한다. 
    • 신뢰 구간
      실험 결과가 실제로 포함될 것으로 예측하는 범위를 말한다. 

 

5. 그래서 정말 우연이 아닌가?

  • 실험 결과가 꽤 차이가 있는데, 만약 이게 한 번만의 우연한 결과, 또는 극단적인 결과라면? 이번 결과가 우연인지 아닌지 어떻게 알 수 있는 걸까? 이는 실험 결과와 함께 표기되는 P-value를 통해 알 수 있다. 
  • 신뢰 수준이 95%의 실험에서 결과로 나온 'P-value'가 4%라면, 실험의 유의미함을 판단하는 기준으로 세운 5% 안에 안착했으므로 'A와 B는 정말로 차이가 있는 게 맞다'라고 판단하게 된다. 반면 'P-value'가 6%라면 신뢰 수준 기준인 5%를 넘겼으므로 실험은 타당하지 않은 것으로 판단한다. 
  • '우연'이라는 개념이 나오고 신경을 써야하는 이유는 우리가 '일부'를 통해 '전체'를 추측하기 때문이다. 그리고 매번 A/B 테스트에 노출되고 있는 '일부'는 동일 인물이 아닌 서로 다른 사람들이 모인 '일부'라서 결과가 매번 다를 수 있다. 
  • 매번 결과가 다르고 반복되면 어느 쪽이 확실하게 이겼다고 말하기 어렵다. 그렇기 때문에 ' P-value '와 유의 수준을 통해 비교 및 확인하는 것이 매우 중요하다.  

 

A/B 테스트에서 기초 통계가 중요한 이유

  • 가설을  통한 실험은 우연히 발생할 수밖에 없기 때문에 적절한 기초 통계를 활용해 우리가 원하는 답을 찾기 위해 노력해야 한다. 

 

 

<알게 된 개념>

A/B 테스트에 대해 안다기 보다는 사용되는 단어들과 전문적인 용어들에 대해서 알 수 있는 아티클이라고 생각한다. 그래도 전문적인 용어를 알게되고 A/B 테스트에 대해 전반적인 흐름과 신뢰할 수 있는 테스트를 만드는 방법에 대해 알 수 있어 좋았다.