[AB] p-value와 베이지안

Jul 12, 2023

[AB] p-value와 베이지안

Contents

0. 가설검정의 서로 다른 접근 1. p-value 2. 베이지안

0. 가설검정의 서로 다른 접근 1. p-value 1.1. p-value를 오해하는 경우 1.2. p-value를 해석하는 방법 1.3. 효과 크기 1.4. 적절한 표본 크기 정하기 1.5. 실험이 끝나기 전 엿보기 하지 않기 (p-hacking)1.6. p-value와 confidence interval 을 같이 보기 2. 베이지안 2.1. 베이지안 확률 2.2. 베이지안 검정 특징

0. 가설검정의 서로 다른 접근

빈도주의 : 표본 데이터에 기반하여 가설을 검정하고, 유의수준과 p-value를 사용하여 결론을 도출하는 방법

확률은 상대도수로 정의한다. 상대도수란 사건이 무한히 반복가능할 때, 관심있는 사건의 상대적인 빈도수를 이야기하는 것이다.
이 사건을 동일한 조건으로 무한히 반복 가능해야 한다는 전제한다.

베이지안 : 전 정보와 표본 데이터를 결합하여 사후 분포를 계산하고, 모수의 가능성을 평가하여 가설을 검정하는 방법

베이지안에서 확률은 믿음의 정도이다. 실제로 일어나지 않은 사건에도 사전확률을 바탕으로 설득력있는 확률값을 나타낸다.
가설을 사후 확률로 해석하며, 유의수준과 같은 엄격한 기준을 사용하지 않는다. 다만, 사후 분포를 통해 모수의 가능성을 평가하고, 두 가설 간의 상대적인 지지도를 비교하여 가설을 검정한다.

1. p-value

p-value : 귀무가설이 참이고 다른 모든 가정들이 타당하다면, 관찰된 결과 이상으로 극단적인 결과를 얻을 확률(= 1종 오류)

일반적으로 1종 오류에 대한 기준(유의수준)은 10%/5%/1%(유의확률 0.1/0.05/0.01) 등으로 기준값을 설정할 수있는데,

통념상 유의확률을 0.05로 사용한다.

1.1. p-value를 오해하는 경우

p-value를 모수에 대한 확률로 이해하는 오류 : p-value는 ‘효과가 없다는 귀무가설이 맞을 확률’, ‘효과가 있다는 대립가설이 틀릴 확률’ 이 아니다. p-value는 귀무가설이 참이라고 가정할때, 관찰된 결과 이상의 극단적 결과를 얻을 확률을 의미한다.

낮은 p-value가 항상 유의미 하다고 이해하는 오류 : 표본 크기가 커질수록 p-value는 낮아진다. (=가설검정의 민감도가 높아진다.)

p-value가 크면 대립가설이 맞다 : 큰 p-value는 데이터가 주어진 가설을 지지하는 정도가 작다는 것을 의미한다. 하지만 큰 p-value를 가진 가설이 옳다고 단정짓기는 어렵다.

다중 비교 문제 : p-value는 2개 이상을 비교할 수 없다. 일반적으로 2개 이상의 변수(A/B/C 등)을 비교하려면 유의수준을 0.05보다 낮춰서 계산해야 한다.

Misuse of p-values

Misuse of p-values is common in scientific research and scientific education. p-values are often used or interpreted incorrectly;[1] the American Statistical Association states that p-values can indicate how incompatible the data are with a specified statistical model.[2] From a Neyman–Pearson hypothesis testing approach to statistical inferences, the data obtained by comparing the p-value to a significance level will yield one of two results: either the null hypothesis is rejected (which however does not prove that the null hypothesis is false), or the null hypothesis cannot be rejected at that significance level (which however does not prove that the null hypothesis is true). From a Fisherian statistical testing approach to statistical inferences, a low p-value means either that the null hypothesis is true and a highly improbable event has occurred or that the null hypothesis is false.

Misuse of p-values

https://en.wikipedia.org/wiki/Misuse_of_p-values#Multiple_comparisons_problem

1.2. p-value를 해석하는 방법

※ 중요: Pr(관찰|가설) ≠ Pr(가설|관찰)

	사전적 정의	예시(신규구매 프로모션 효과가 있었나)
모집단(population)	데이터가 (랜덤하게) 표본화되었다고 가정하는 분포/집단	신규 유입 고객
모수(population parameter)	모집단을 정의하는 값을 모르는 상수	신규 유입 고객들의 구매전환율 증가
표본(sample)	모집단으로부터 (랜덤하게) 추출된 일부 관측치	무작위 10명 추출
통계량(statistics)	모수를 추정하기 위해 데이터로 부터 계산된 값	표본의 평균 구매전환율 증가
영가설(null hypothesis)	모수에 대한 기존의 사실 또는 디폴트 값	신규 유입고객 대상으로 진행한 구매 프로모션은 효과가 없다.
대립가설(alternative hypothesis)	모수에 대해 영가설과 대립하여 증명하고 싶은 사실	신규 유입고객 대상으로 진행한 구매 프로모션은 효과가 있다.
가설검정(hypothesis testing)	통계량을 사용해 영가설을 기각하는 절차일 뿐, 영가설이 옳다는 것을 증명하기 위한 것이 아니다.	ㅤ
1종 오류(Type 1 error)	가설검정 결과, 참인 영가설을 기각(reject)하는 사건	실제로 구매전환 효과가 없는데 있다고 결론 짓는 오류
2종 오류(Type 2 error)	가설검정 결과, 참인 대립가설을 기각(reject)하는 사건	실제로 구매전환 효과가 있는데 없었다고 결론 짓는 오류
유의수준(significance level)	1종 오류를 범할 확률의 허용치	보통 0.05
P-value	만약 영가설이 참일 때 영가설 데이터(분포)에서 검정통계량(ex 표본평균)보다 극단적인 값이 관측될 확률(데이터와 영가설이 어느정도 적합한지 그렇지 않은지를 나타낼 뿐)	실제로 구매프로모션을 받지 않은 경우에도 프로모션을 받은만큼 증가한 경우
95% 신뢰구간(confidence interval)	같은 모형에서 반복해서 표본을 얻고, 신뢰구간을 얻을 때(구간 추정) 신뢰 구간이 참이 모수값을 포함할 확률이 95%가 되도록 만들어진 구간	평균 구매전환율 증가 [-0.02,0.03] 일 때, 평균 구매전환율 증가가 -.02~0.03 사이일 확률은 95%이다(x) → 모수는 확률변수가 아니다 -.02~0.03 사이 구매전환 증가를 포함할 확률이 95%이다(o)

1.3. 효과 크기

효과 크기(effect size)가 작다면, 아무리 통계적으로 유의한 차이가 있더라도 현실에서 큰 의미가 없다.

샘플 크기를 증가시키면 아주 작은 효과 크기에 대해서도 유의성을 확보할 수 있다. 하지만 아주 작은 효과(0.1% 증가) 밖에 없다면, 샘플 크기를 확보할 만큼 테스트를 계속 진행하는 것이 의미가 있을까?

MDE(특정 확률로 탐지해야하는 최소 효과크기)를 사전에 설정하고 효과 크기와 비교해야한다. MDE가 작을수록, 결론을 내기 위해 더 많은 수의 샘플이 필요하다.

overpowered test : MDE를 지나치게 높게 설정하면 이를 확인하기 위해 테스트를 오랫동안 해야 한다.

underpowered test : MDE가 너무 낮은 경우, 실험에 쓰이는 돈과 시간의 비용이 낭비된다.

https://testview.wordpress.com/tag/significance/

1.4. 적절한 표본 크기 정하기

MDE(테스트 설계 시점에 어느 정도 lift가 있어야 효과가 있는지 최소 사이즈)를 선택하고,

검정력 계산기(power calculator)를 활용하여 적절한 샘플 크기, 적정 실험기간을 설정하고 테스트를 진행한다.

사전에 설정된 표본크기가 넘어서면 바로 테스트를 종료하고, 해당 부분에 대해서 결과를 확인해야 한다. p-value가 낮게 나오지 않았다고 무조건 실험 기간을 늘려서는 안 된다.

1.5. 실험이 끝나기 전 엿보기 하지 않기 (p-hacking)

빈도주의에서 p-value는 오늘 본 값과, 내일 본 값이 독립적이고 consistent가 의미 없다. 적절한 표본 크기를 정하고 해당 날짜가 지나면 그 시점의 값이 유일한 값이다.

https://www.evanmiller.org/how-not-to-run-an-ab-test.html

1.6. p-value와 confidence interval 을 같이 보기

실험군이 confidence interval 에 포함 될 확률이 95%가 아니라 confidence interval이 실험군에 포함될 확률이 95% 이다. confidence interval의 low-high값을 보고 그 값이 기대한 효과 크기인지 보고 결정한다.

2. 베이지안

베이지안 확률은 ‘믿음의 정도’ 로 해석한다. 그렇기에 실제로 아직 일어나지 않은 사건에도 확률을 부여할 수 있다. 여기서 Prior(사전정보, 사전확률)의 개념이 들어오는데 아래와 같은 내용을 전부 포함할 수 있다.

사전확률은 어떤 사건의 확률을 계산하는데 이용하면서 꽤 설득력 있는 값을 확률값으로 내준다.

2.1. 베이지안 확률

베이지안에서 나오는 확률 값이란 현재까지 값, 사전이 알고 있는 지식 등 사전확률을 가지고, 사후확률을 계산하는 것으로 나온 결과값은 사람이 이해하기 쉬운 A보다 B가 좋은 확률을 정확하게 의미한다.

베이즈 통계는 "이 대안이 기존에 있던 대안보다 얼마나 더 효과적인가요?(기존 대비 신규안이 우수할 확률)" 또는 "이 대안의 실적이 전체 대안 중에서 가장 우수할 확률은 얼마나 되나요?(가장 우수할 확률)"라는 질문에 답할 수 있습니다.

2.2. 베이지안 검정 특징

나오는 값을 직관적으로 사용할 수 있다. : A/B 테스트에서 원하는 것처럼 B 대안이 좋을 확률을 계산하는 것이 목적이다.

다중 비교 문제, 엿보기 문제 해결할 수 있다. : 베이지안은 계산할 때, 모든 대안에 대해 직접 계산함으로, 다중 비교문제를 해결할 수 있고, 변화에 대해서 예측하는 것을 기본으로 함으로, 시간이 지남에 따라 확률에 대해서 직접 보는 것이 빈도주의와 다르게 오히려 맞다.

Sample 수 문제 : 애초에 최소 Sample 수나 테스트를 통해 이루고자 하는 목표를 설계하지 않고, 현재까지 나온 데이터를 기반으로 추정하기 때문에 적은 Sample 수에서도 진행할 수 있다.

적은 Sample 수에서 민감하게 반응할 수 있다. : 초기 트래픽이 적은 경우 사용자가 한쪽에 치우치는 경우 바로 100% 라고 노출시킬 수 있다. 그래서 다른 곳들은 각자의 최소 트래픽이나 컨버전을 정의하고 사용하고 있다.

계산에 비용이 많이 든다. : 빈도주의는 객관적인 현재 상태 데이터로만 계산하기 때문에 계산이 쉽지만, 베이지안 확률은 계산하기 위해서 사전분포를 가지고 사후분포를 그리는 과정이 필요하다. 이 때 컴퓨팅 파워가 많이 들어간다.

Share article

hollyisyoon

RSS·Powered by Inblog