[AB] A/B테스트 학습 도장깨기

T아카데미에서 진행한 A/B테스트 세미나를 요약했습니다. 다 알고 있는 내용이긴 했는데 한번 깔꼼하게 정리할 수 있었다. 주위에 A/B테스트 처음 공부해보려는 사람들께 추천드림!!

Jul 07, 2023

Contents

1. A/B테스트 정의 2. A/B테스트 설계 3. A/B테스트 평가

https://www.youtube.com/watch?v=aX056H4CP4g&t=30s

💡

1. A/B테스트 정의

임의로 나눈 두 집단에 서로 다른 콘텐츠 제시 후 어떤 집단이 더 좋은 성과를 보이는지 정량적으로 평가하는 방식. RCT를 서비스에 적용한 방법론.

고객분석

종단적 연구 : 코호트 분석
횡단적 연구 : A/B테스트, 다변량 분석

많은 요소들이 복합적으로 작용하여 외생성 및 고려변수의 영향으로 명확한 요인 및 원인 분석이 어렵다.

외생성이란 시스템 밖의 요소로 결정되거나 생성되는 것
내생성이란 해당 시스템 내에서 결정되거나 생성되는 것

2. A/B테스트 설계

유사실험 설계의 특징

사회현상에서 인과관계 판단용
대안적으로 통제 집단을 구성
외생변수 개입 가능성이 높음 (시계열 전후비교시 특히)
외적 타당성이 상대적으로 높아 현실 문제 해결에 유용함

2.1. 실험 설계 과정

대상 선정 → 사용자 및 지표 선정

실험환경 선정 → 실제 예정 환경

무작위표집 → 사용자 무작위 선정

무작위할당 → 추출된 표본을 무작위로 실험집단과 통제집단에 배치

사전검사 → 실험 환경 확인

실험조치 → 분기

사후검사 → 실험 환경 재확인

비교 및 검증 → 결과 분석

2.2. 목표 지표 선정

가설 검정에 가장 직관적이면서 구하기 용이한 지표 선정

양적으로 확인 가능한 실질적 지표

비율 : 사용 흐름상 전/후 (퍼널의 실험 참여 단계 → 실험 결과 반응 단계)

실험 대상 : 지표 대상도 사람이 되어야 정확한 결과를 얻을 수 있음 (클릭한 사용자/페이지 본 사용자)

지표 관련 대푯값 :

평균(소수의 이상치 값에 대한 민감도가 높음)
중앙값(분포가 쌍봉형이면 적절한 대푯값이 되지 못할 수도, 이상치 값에 민감도가 낮음)
최빈값(다양한 값을 가지는 경우 적절치 않음)

지표 관련 분포 :

히스토그램 : 대푯값만으로 판단이 어려울 때, 같이 확인. 이상치로 인해 대푯값이 기울어진 경우 파악 후 보정 진행.

3. A/B테스트 평가

3.1. 목표 지표의 해석

비교 전 확인

실험군과 대조군의 사용자 집합 크기 비교 → 비교 유의성 판단
실험군과 대조군의 사용자 분포의 차이 비교

유의 사항

실험으로 얻은 값은 항상 동일한 결과를 담보하는 것은 아님
실험 크기가 통제되지 않은 경우 사후 추정으로 판단 가능

3.2. 분포

실험에서 쓸 일이 많지 않습니다 (?) 아무 때나 함수를 막 쓰다가 망하는 경우가 많습니다. 테스트를 심플하게 만들었을 때 사용할 수 있는 분포를 소개해주셨습니다.

이항 분포

매회 사건 X가 일어날 확률이 동일한 독립시행의 경우에 있어서 확률변수 X가 따르는 분포
클릭 등 간단한 단일 이벤트 대상 A/B 테스트 경우 다른 서비스 내의 요인은 동일하게 통제된 상태로 사용하니까 이벤트 발생 확률을 동일하다고 가정하고 사용한다. 이항분포 조건에 들어맞음.

3.3. 가설 검정

통계적 추측으로, 모집단 실제 값이 얼마가 된다는 주장에 대해 표본의 정보를 사용해서 가설의 합당성 여부를 판정하는 과정

귀무가설과 대립가설

귀무가설 : 실험군, 대조군 결과의 차이가 없을 것이다

대립가설 : 양측검정, 단측검정

유의 수준

귀무가설의 기각 기준 (허용 오류의 수준을 결정함)

일반적으로 0.05 사용

유의 확률(p값) - 두 그룹간의 차이가 통계적으로 유의미한지를 확인

검정 통계량과 같거나 더 극단적인 결과가 귀무가설에서 예상되는 경우를 측정한 지표

귀무가설이 맞을 경우, 얻을 수 있는 결과보다 더 극단적인 값이 관측될 확률

유의 확률이 유의 수준보다 작을 경우, 귀무가설 기각하고 대립가설을 지지함

결과값 비교 - 두 그룹간의 차이가 실제로 유의미한지를 평가

이항분포의 상태 비교 : 집단의 크기가 np>5 인지 (정규 분포 적용할 수 있는지 확인)

비교군의 해당 지표에 대한 신뢰구간을 구한 뒤 실험군의 지표의 크기가 이 신뢰구간에 들어가는지 확인 (독립 t검정을 사용해서 유의성 및 차이 비교)

3.4. Case

목표 지표 : CTR

A CTR: 1.8%/ Impression 52만

B CTR: 7.4%/ Impression 51만

ab테스트 calculator를 사용하면 99.9% Significance가 나온다

파이썬으로 검정하기 : statsmodels 패키지의 z검정 함수 사용 → 목표 지표의 유형에 따라 검정방법이 달라집니당


import numpy as np
from statsmodels.stats.proportion import proportions_ztest

# A 그룹의 CTR 데이터
A_clicks = 1800  # A 그룹 클릭 수
A_impressions = 520000  # A 그룹 노출 수

# B 그룹의 CTR 데이터
B_clicks = 7400  # B 그룹 클릭 수
B_impressions = 510000  # B 그룹 노출 수

# CTR 계산
A_ctr = A_clicks / A_impressions
B_ctr = B_clicks / B_impressions

# A, B 그룹의 성공(클릭 수)과 시도(노출 수)를 통해 Z-검정 수행
successes = np.array([A_clicks, B_clicks])
trials = np.array([A_impressions, B_impressions])
stat, p_value = proportions_ztest(successes, trials)

# 결과 출력
print(f"A 그룹 CTR: {A_ctr:.2%}")
print(f"B 그룹 CTR: {B_ctr:.2%}")
print(f"p-값: {p_value}")

# 유의수준 0.05와 비교하여 유의미한지 평가
if p_value < 0.05:
    print("통계적으로 유의미한 차이가 있습니다.")
else:
    print("통계적으로 유의미한 차이가 없습니다.")