코호트 분석
코호트 분석에 대해 간략하게 정리해봤다 Study with 희연!
Feb 11, 2023
코호트란?
분석을 시작하는 시간 기준으로 동일한 특징을 지닌 집단 (공통적인 특성에 따라 여러 집단으로 분류한 사용자 그룹)
세그먼트 vs 코호트
세그먼트는 시작날짜와 관계없이 특정 시기에 동일한 특성을 공유하는 사용자 그룹을 의미함
코호트 분석이란?
시간에 따른 개체 그룹 간의 차이를 비교하는 방법
코호트 분석이 필요한 이유
- 집단 특성과 장기간 트렌드의 상관관계를 파악하기에 유용하다.
- 원인을 밝히기 위한 가설을 세울 수 있다.
- ex. 광고/지인 추천을 통한 유입의 경우 서로 다른 장기 구매 패턴을 보일 수 있다.
- 사용자 단위에서 현 사업의 상황을 파악하고, 개선 방법을 찾을 수 있다.
- 주로 리텐션 지표를 많이 본다.
- 다만, 인과관계적 의미를 부여하지 않아야한다. 고객을 이해하고 엄격하게 테스트할 수 있는 가설을 만드는데 활용해야 한다.
코호트 분석의 중요한 3가지 요소
- 코호트 그룹화 : 시작날짜나 여러가지 특징을 통한 그룹화
- 시계열 : 집단으로 분류할 수 있는 고객이 취한 여러가지 행동 이력은 개체의 전체 일생을 포함해야 한다. 충분한 양의 시계열 데이터를 포함해야한다. (달에 1번 구매한다면, 여러 달에 걸친 시계열 데이터가 필요함)
- 집계 지표 : 고객의 지속적인 사용, 제품 구매등 조직의 현황을 나타내는 지표를 사용함.
ㅤ | 클래식 리텐션 (N-day 리텐션) | 범위 리텐션 (Range 리텐션) | 롤링 리텐션 |
계산 방법 | 특정일에 이벤트를 발생시킨 유저의 비율을 계산하는 방식 | 특정 기간에 이벤트를 발생시킨 유저의 비율을 계산하는 방식 | 더 이상 이벤트가 발생하지 않는 비율은 얼마인가?를 기준으로 계산하는 방식 |
장점 | 쉽고 간단하다는 장점 | 측정일에 따른 노이즈에 민감하지 않다는 장점. | 모든 기록이 필요하지 않고, 최초-마지막 이벤트 데이터만 있으면 됨. 계산이 쉽다 |
단점 | 특정일 노이즈에 민감하고 꾸준히 반복적으로 들어왔는지 여부를 확인하기엔 부족함 | 기준이 되는 기간이 길어지면 과대 추정(over-estimated)되는 문제가 있음 | 단 한 번의 이벤트가 이전까지의 모든 기간을 활동한 기간으로 인정해서 유지율이 과대 추정되는 경향이 있음 |
사용 예시 | 매일 접속해서 사용할 것으로 기대되는 서비스에 주로 사용. 기준일을 여러 개 두고 각 기준일의 day N을 측정하고 평균값을 계산해서 구하는 방법을 사용할 수 있음. | 사용 주기가 길고 주기적인 서비스에 많이 활용됨 (가계부나 음식 배달 서비스) | 지표가 계속해서 변화하기 떄문에, 절대적 수치보다 지표의 움직임 추이에 초점을 맞춰야함. 사용빈도가 높지 않은 서비스에 유용함. (의류 쇼핑, 여행) |
코호트 분석 + 퍼널 분석
- 퍼널 분석의 진정한 가치는 주요 퍼널의 단편적인 전환율을 계산하는 것을 넘어, 전환율에 영향을 미치는 유의미한 선행 지표를 발견하는 것
- 결제 전환율에 대한 퍼널을 살펴볼 때, 전환율에 차이를 만드는 코호트를 먼저 찾아볼 수 있다면? 전환된 사용자와 전환되지 않은 사용자는 무엇이 다른가?를 알 수 있게 된다
코호트 분석의 프로세스
- Core Event를 정의하기 : 모든 서비스에는 유저에게 꼭 주고 싶은 가치와 연관된 이벤트가 있는데 이를 Core event라 한다. 쉽게 설명하면 유저가 제품을 이용하면서 계속 하면 좋겠는 행동을 의미한다.
- Usage Interval 구하기 : Amplitude Retention V1에 따르면, 일정 기간 내 core event를 최소 2번 수행한 유저 데이터를 수집 → 두번째로 수행하는데까지 걸린 시간을 측정 → 80%의 유저가 반복한 시점을 찾는다.
- Cohort Chart 그리기 : 해당 Usage Interval을 기반으로 Retention을 구한다.
- Retention Curve 구하기 : Retention curve는 usage interval 별로 retention을 평균 내서 그리는 그래프로 서비스의 retention 현황을 한 번에 볼 수 있습니다.
이커머스 데이터로 실습해보기
—
참고 자료 : 양승화 <그로스해킹>
<SQL로 시작하는 데이터 분석>
Amplitude Playbook
Share article