[GA] 인과효과 분석

매칭, DiD, RD

Jun 28, 2023

[GA] 인과효과 분석

1. A/B 테스트

A/B 테스트가 중요한 이유

사용자 환경을 개선하는데 효과적
리스크 감소

A/B 테스트의 용어

가설 : 실험을 통해 확인하고 싶은 주장
실험집단, 통제집단
독립변수, 종속변수, 통제변수
종속변수에 대한 현재치와 목표치
샘플 크기 : 가설검증을 위한 샘플 크기
실험기간 : 샘플 크기를 고려하여 잡는 실험 진행 기간

A/B 테스트 샘플 크기

Sample size calculator

Plan and estimate needed audience sizes for experiments by entering a couple of quick metrics

Sample size calculator

https://www.optimizely.com/sample-size-calculator/#/?conversion=3&effect=20&significance=95

Sample size calculator

배너 A의 CTR이 기존 5%(Baseline Conversion Rate)였고, 실험을 통해 20%(MDE; Minimum Detectable Effect)개선시키고 싶다면 필요한 샘플 사이즈는 6,900

실험에 대한 판단

가설의 검증 방식(빈도주의적 관점)

우리가 확인하고자하는 것은 A군의 클릭률이 B군보다 낮냐 높냐의 문제
우리는 귀무가설을 세운다(A군과 B군은 차이가 없다)
귀무가설에 대한 p 통계량이 극단적인 값이 나온다면(p<0.05) 두 집단 사이에 유의미한 차이가 있다고 판단하여 대립가설을 채택한다

종속변수의 종류에 따른 검증 방법의 차이

범주형 변수(ex. 클릭, 가입여부, 구매여부) → 로지스틱 회귀, 카이제곱
이산형 변수(ex. 클릭 횟수, 결제 금액) → T-test

p-value는 쉽게 조작이 가능하다

notion image

자주하는 실수

가설의 오류
통제변수 관리의 실패
Early Stop, Cherry picking
시간에 지남에 따른 변화
A/B테스트로 검증된 결과가 무한히 유효하지 않음( 시즌성, 경쟁자 등장 )

2. 인과효과

끝판왕 : RCT (A/B테스트) → 랜덤하게 분배하여 A,B그룹을 평균적으로 매우 유사하게 나눌 수 있기 때문. 비교가능한 상태가 됨.

다양한 인과추론 방법은 각 방법론마다 핵심 가정이 존재함. 따라서 데이터가 해당 가정을 벗어나고 있는지 확인해야함

인과관계를 왜곡하는 요소가 존재하나? : 교란변수, 선택편향

현재 데이터가 액션으로 인한 효과를 비교할 수 있는 상태인가? : 데이터가 많다고 답이 아님

데이터가 만들어지는 프로세스에 대해 고민하고 상황에 맞는 방법을 사용해야한다.

3. 잠재적 결과 방식

Treatment : 액션 대상자

Control : 액션 대상자가 아닌 사람들

Counterfactual : 액션 대상자인데 액션이 적용되지 않았을 경우 가정

우리가 원하는 인과효과 = Treatment와 Counterfactual의 차이

3-1. 매칭(Matching)

ex. 다른 서비스의 데이터분석 결과를 바탕으로 특정 서비스에 그로스 전략을 제안할 때, 우리 서비스의 유저들은 다른 성향이라서 도입하기가 어렵네요!

각 그룹의 데이터 중 변수들이 평균적으로 유사한 샘플로 매칭해서 인위적으로 유사한 그룹 제작

비슷한 그룹을 만드는 방법으로는 성향 점수(Propensity Score)를 기준으로 비교할 수 있음

Step1) 다른 변수들로 Treatment 여부를 설명하도록 학습해서 0과 1사이 값으로 예측 결과를 성향 점수로 사용(logistic regression)

Step2) Treatment 그룹의 데이터와 가장 유사한 항목을 Control그룹의 데이터에서 찾음(K nearest neighbor)

3-2. DiD(이중차분법)

ex. 여러 브랜드를 한 번에 모아서 제공하는 플랫폼 데이터 분석 중. 특정 브랜드 상품군이 SNS에 화제가 되어 파매량이 급증. SNS 화제가 매출에 미친 영향을 구체적으로 측정하자

이벤트 전후 지표차이가 모두 이벤트로 인한 효과인지 확신할 수 없음

이벤트 전후의 차이를 한 번 구하고, 영향을 받은 곳과 받지 않은 곳 차이를 비교

차이 안에서 차이를 한 번더 비교하여 이벤트의 효과를 분리하는 것

DiD의 조건

Parallel Trends Assuption : 시간에 따른 추이 변화가 이벤트 대상과 대조군에서 동일하게 나타나야함

3-3. 회귀단절(Regression Discontinuity)

ex. 서비스 내에 활동성이 높은 유저 대상으로 푸시메시지를 보내 구매 유도하기로 함. 활동점수 90점 이상에게만 푸시메시지를 보냄. 푸시메시지가 구매에 미치는 영향이 어떻게 될까?

푸시 메시지로 인한 영향이 있었다면 80점 부근에서 큰 변화가 있었을 것.

기준점보다 낮은 구간과 높은 구간으로 데이터를 나누어 별개의 모형으로 학습. 두 모형을 통해 기준점 부근의 목표 변수값을 예측. 두 모형의 예측값에 유의미한 차이가 있다면 해당 값을 컷오프로 인한 인과효과라고 추정.

RD의 조건

컷오프 주위의 데이터는 랜덤하게 선택된다는 것을 가정
컷오프 지점 기준으로 데이터를 두그룹으로 나누었을 때, 두 그룹에서 컷오프 주위에 있는 데이터가 가장 비슷한 특징을 가질 것이라고 가정

Bradford Hill Causual Criteria

강한 상관관계

일관적인 결과(재현성) : 분석대상을 바꿔도 반복적으로 현상이 발생한 경우

구체성 : 관계가 구체적일 수록

시간적 선후관계 : 원인이 결과에 영향을 미치려면 순서상 먼저 발생해야함

투입-결과 관계 : 투입하는 양이 늘릴수록 결과 변수가 계속 변화하는지 확인해야함

개연성

실험에 의한 결과

기존 인과관계와의 유사성

→ 비즈니스 임팩트가 큰 작업을 확인해 우선순위를 결정하는데 활용할 수 있다. 얼마나 임팩트가 있는 작업인지, 리소스가 낭비되는 일을 막을 수 있다.

Study Material

CLASS101+ | 세상의 모든 클래스를 하나의 구독으로

5100개 이상의 클래스로 일러스트, 공예, 코딩, 부업, 주식까지 세상의 모든 분야를 배워보세요.

https://class101.net/ko/classes/62404f1d2e92da0014a2b469/lectures/6249a09f4b069e0010dd1f3a

CLASS101+ | 세상의 모든 클래스를 하나의 구독으로

Share article