0. 가설검정의 서로 다른 접근1. p-value1.1. p-value를 오해하는 경우1.2. p-value를 해석하는 방법1.3. 효과 크기1.4. 적절한 표본 크기 정하기1.5. 실험이 끝나기 전 엿보기 하지 않기 (p-hacking)1.6. p-value와 confidence interval 을 같이 보기2. 베이지안2.1. 베이지안 확률2.2. 베이지안 검정 특징
0. 가설검정의 서로 다른 접근
- 빈도주의 : 표본 데이터에 기반하여 가설을 검정하고, 유의수준과 p-value를 사용하여 결론을 도출하는 방법
- 확률은 상대도수로 정의한다. 상대도수란 사건이 무한히 반복가능할 때, 관심있는 사건의 상대적인 빈도수를 이야기하는 것이다.
- 이 사건을 동일한 조건으로 무한히 반복 가능해야 한다는 전제한다.
- 베이지안 : 전 정보와 표본 데이터를 결합하여 사후 분포를 계산하고, 모수의 가능성을 평가하여 가설을 검정하는 방법
- 베이지안에서 확률은 믿음의 정도이다. 실제로 일어나지 않은 사건에도 사전확률을 바탕으로 설득력있는 확률값을 나타낸다.
- 가설을 사후 확률로 해석하며, 유의수준과 같은 엄격한 기준을 사용하지 않는다. 다만, 사후 분포를 통해 모수의 가능성을 평가하고, 두 가설 간의 상대적인 지지도를 비교하여 가설을 검정한다.
1. p-value
- p-value : 귀무가설이 참이고 다른 모든 가정들이 타당하다면, 관찰된 결과 이상으로 극단적인 결과를 얻을 확률(= 1종 오류)
- 일반적으로 1종 오류에 대한 기준(유의수준)은 10%/5%/1%(유의확률 0.1/0.05/0.01) 등으로 기준값을 설정할 수있는데,
- 통념상 유의확률을 0.05로 사용한다.
1.1. p-value를 오해하는 경우
- p-value를 모수에 대한 확률로 이해하는 오류 : p-value는 ‘효과가 없다는 귀무가설이 맞을 확률’, ‘효과가 있다는 대립가설이 틀릴 확률’ 이 아니다. p-value는 귀무가설이 참이라고 가정할때, 관찰된 결과 이상의 극단적 결과를 얻을 확률을 의미한다.
- 낮은 p-value가 항상 유의미 하다고 이해하는 오류 : 표본 크기가 커질수록 p-value는 낮아진다. (=가설검정의 민감도가 높아진다.)
- p-value가 크면 대립가설이 맞다 : 큰 p-value는 데이터가 주어진 가설을 지지하는 정도가 작다는 것을 의미한다. 하지만 큰 p-value를 가진 가설이 옳다고 단정짓기는 어렵다.
- 다중 비교 문제 : p-value는 2개 이상을 비교할 수 없다. 일반적으로 2개 이상의 변수(A/B/C 등)을 비교하려면 유의수준을 0.05보다 낮춰서 계산해야 한다.
1.2. p-value를 해석하는 방법
※ 중요: Pr(관찰|가설) ≠ Pr(가설|관찰)
사전적 정의 | 예시(신규구매 프로모션 효과가 있었나) | |
모집단(population) | 데이터가 (랜덤하게) 표본화되었다고 가정하는 분포/집단 | 신규 유입 고객 |
모수(population parameter) | 모집단을 정의하는 값을 모르는 상수 | 신규 유입 고객들의 구매전환율 증가 |
표본(sample) | 모집단으로부터 (랜덤하게) 추출된 일부 관측치 | 무작위 10명 추출 |
통계량(statistics) | 모수를 추정하기 위해 데이터로 부터 계산된 값 | 표본의 평균 구매전환율 증가 |
영가설(null hypothesis) | 모수에 대한 기존의 사실 또는 디폴트 값 | 신규 유입고객 대상으로 진행한 구매 프로모션은 효과가 없다. |
대립가설(alternative hypothesis) | 모수에 대해 영가설과 대립하여 증명하고 싶은 사실 | 신규 유입고객 대상으로 진행한 구매 프로모션은 효과가 있다. |
가설검정(hypothesis testing) | 통계량을 사용해 영가설을 기각하는 절차일 뿐, 영가설이 옳다는 것을 증명하기 위한 것이 아니다. | ㅤ |
1종 오류(Type 1 error) | 가설검정 결과, 참인 영가설을 기각(reject)하는 사건 | 실제로 구매전환 효과가 없는데 있다고 결론 짓는 오류 |
2종 오류(Type 2 error) | 가설검정 결과, 참인 대립가설을 기각(reject)하는 사건 | 실제로 구매전환 효과가 있는데 없었다고 결론 짓는 오류 |
유의수준(significance level) | 1종 오류를 범할 확률의 허용치 | 보통 0.05 |
P-value | 만약 영가설이 참일 때 영가설 데이터(분포)에서 검정통계량(ex 표본평균)보다 극단적인 값이 관측될 확률(데이터와 영가설이 어느정도 적합한지 그렇지 않은지를 나타낼 뿐) | 실제로 구매프로모션을 받지 않은 경우에도 프로모션을 받은만큼 증가한 경우 |
95% 신뢰구간(confidence interval) | 같은 모형에서 반복해서 표본을 얻고, 신뢰구간을 얻을 때(구간 추정) 신뢰 구간이 참이 모수값을 포함할 확률이 95%가 되도록 만들어진 구간 | 평균 구매전환율 증가 [-0.02,0.03] 일 때, 평균 구매전환율 증가가 -.02~0.03 사이일 확률은 95%이다(x) → 모수는 확률변수가 아니다
-.02~0.03 사이 구매전환 증가를 포함할 확률이 95%이다(o) |
1.3. 효과 크기
- 효과 크기(effect size)가 작다면, 아무리 통계적으로 유의한 차이가 있더라도 현실에서 큰 의미가 없다.
- 샘플 크기를 증가시키면 아주 작은 효과 크기에 대해서도 유의성을 확보할 수 있다. 하지만 아주 작은 효과(0.1% 증가) 밖에 없다면, 샘플 크기를 확보할 만큼 테스트를 계속 진행하는 것이 의미가 있을까?
- MDE(특정 확률로 탐지해야하는 최소 효과크기)를 사전에 설정하고 효과 크기와 비교해야한다. MDE가 작을수록, 결론을 내기 위해 더 많은 수의 샘플이 필요하다.
- overpowered test : MDE를 지나치게 높게 설정하면 이를 확인하기 위해 테스트를 오랫동안 해야 한다.
- underpowered test : MDE가 너무 낮은 경우, 실험에 쓰이는 돈과 시간의 비용이 낭비된다.
1.4. 적절한 표본 크기 정하기
- MDE(테스트 설계 시점에 어느 정도 lift가 있어야 효과가 있는지 최소 사이즈)를 선택하고,
- 검정력 계산기(power calculator)를 활용하여 적절한 샘플 크기, 적정 실험기간을 설정하고 테스트를 진행한다.
- 사전에 설정된 표본크기가 넘어서면 바로 테스트를 종료하고, 해당 부분에 대해서 결과를 확인해야 한다. p-value가 낮게 나오지 않았다고 무조건 실험 기간을 늘려서는 안 된다.
1.5. 실험이 끝나기 전 엿보기 하지 않기 (p-hacking)
- 빈도주의에서 p-value는 오늘 본 값과, 내일 본 값이 독립적이고 consistent가 의미 없다. 적절한 표본 크기를 정하고 해당 날짜가 지나면 그 시점의 값이 유일한 값이다.
1.6. p-value와 confidence interval 을 같이 보기
- 실험군이 confidence interval 에 포함 될 확률이 95%가 아니라 confidence interval이 실험군에 포함될 확률이 95% 이다. confidence interval의 low-high값을 보고 그 값이 기대한 효과 크기인지 보고 결정한다.
2. 베이지안
- 베이지안 확률은 ‘믿음의 정도’ 로 해석한다. 그렇기에 실제로 아직 일어나지 않은 사건에도 확률을 부여할 수 있다. 여기서 Prior(사전정보, 사전확률)의 개념이 들어오는데 아래와 같은 내용을 전부 포함할 수 있다.
- 사전확률은 어떤 사건의 확률을 계산하는데 이용하면서 꽤 설득력 있는 값을 확률값으로 내준다.
2.1. 베이지안 확률
- 베이지안에서 나오는 확률 값이란 현재까지 값, 사전이 알고 있는 지식 등 사전확률을 가지고, 사후확률을 계산하는 것으로 나온 결과값은 사람이 이해하기 쉬운 A보다 B가 좋은 확률을 정확하게 의미한다.
- 베이즈 통계는 "이 대안이 기존에 있던 대안보다 얼마나 더 효과적인가요?(기존 대비 신규안이 우수할 확률)" 또는 "이 대안의 실적이 전체 대안 중에서 가장 우수할 확률은 얼마나 되나요?(가장 우수할 확률)"라는 질문에 답할 수 있습니다.
2.2. 베이지안 검정 특징
- 나오는 값을 직관적으로 사용할 수 있다. : A/B 테스트에서 원하는 것처럼 B 대안이 좋을 확률을 계산하는 것이 목적이다.
- 다중 비교 문제, 엿보기 문제 해결할 수 있다. : 베이지안은 계산할 때, 모든 대안에 대해 직접 계산함으로, 다중 비교문제를 해결할 수 있고, 변화에 대해서 예측하는 것을 기본으로 함으로, 시간이 지남에 따라 확률에 대해서 직접 보는 것이 빈도주의와 다르게 오히려 맞다.
- Sample 수 문제 : 애초에 최소 Sample 수나 테스트를 통해 이루고자 하는 목표를 설계하지 않고, 현재까지 나온 데이터를 기반으로 추정하기 때문에 적은 Sample 수에서도 진행할 수 있다.
- 적은 Sample 수에서 민감하게 반응할 수 있다. : 초기 트래픽이 적은 경우 사용자가 한쪽에 치우치는 경우 바로 100% 라고 노출시킬 수 있다. 그래서 다른 곳들은 각자의 최소 트래픽이나 컨버전을 정의하고 사용하고 있다.
- 계산에 비용이 많이 든다. : 빈도주의는 객관적인 현재 상태 데이터로만 계산하기 때문에 계산이 쉽지만, 베이지안 확률은 계산하기 위해서 사전분포를 가지고 사후분포를 그리는 과정이 필요하다. 이 때 컴퓨팅 파워가 많이 들어간다.
Share article