[GA] 루빈 인과모형 기반 인과추론

R기반 루빈인과모형 책을 참고해서 정리했는데,, 이 책 정말 친절하고 깔꼼 👐🏻😵
Jul 07, 2023
[GA] 루빈 인과모형 기반 인과추론

인과관계의 3가지 조건 (내적 타당성을 확보하기 위한)

  • 원인변수의 변화와 결과변수의 변화는 서로 상관관계를 갖는다
  • 원인변수의 변화가 결과변수의 변화보다 시간적으로 먼저 발생한다
  • 원인변수의 변화와 결과변수의 변화 사이의 상관관계를 설명할 수 있는 다른 요인들은 존재하지 않는다
 

Why We do Propensity Score Analysis

  • RCT는 무작위 배치를 통해 자기선택 편향을 통제하지만, 관측연구에서는 무작위배치가 적용되지 않아 이런 편향 위험성에서 자유롭지 않다.
  • 따라서 성향점수분석을 통해 교란변수들을 활용해 개체가 처치집단에 배치될 확률을 의미하는 성향점수를 추정하고, 이를 모형화하여 무작위배치와 동등하거나 혹은 매우 유사한 상황을 창출한다.
 

🔎 용어 정리

  • 원인변수(cause variable) : 인과관계에서 원인이 되는 사건의 발생여부를 기록한 변수
  • 처치집단(treated group) : 원인이 되는 사건에 노출된 사례 (ex 약을 처방받은 집단)
  • 통제집단(control group) : 원인 사건에 노출되지 않은, 혹은 원인 사건과 비교가능한 다른 사건을 경험한 집단 (ex약효가 없는 위약을 처방받거나 투약받지 않은 집단)
  • 결과변수(outcome variable) : 인과관계에서 결과가 되는 사건 혹은 속성의 수준을 측정한 변수
  • 처치효과(treatment effect) : 원인사건이 발생하지 않은 경우 나타나는 결과변수의 기댓값 대비 원인사건이 발생했을 경우 나타나는 결과변수 기댓값의 차이
  • 공변량(covariate) : 원인변수의 변화와 결과변수의 변화와 연관관계를 가질 것으로 기대되는 변수 (원인변수와 결과변수 사이의 인과관게에 대한 대안적 설명을 제공하는 공변량은 교란변수라고 부름)
 

루빈 인과모형 : 잠재결과와 인과관계 추론

  • 사실(시현된 잠재결과)과 대안사실(실현되지 않은 잠재결과)를 바탕으로 인과효과를 추론하는 것
(가상의 사례) 해열제 처치여부에 따른 잠재적 결과는 다음과 같다
notion image
여기에 공변량(연령)에 대한 고려가 필요하다
  • 원인변수(해열제 유무)와 결과변수(체온) 모두에 영향을 미치는 공변량이 존재한다면?
  • 처치집단 대상 평균처치효과(ATT) + 통제집단 대상 평균처치효과(ATC) + 전체 집단 내 처치집단 비율을 바탕으로 전체집단 대상 평균처지효과(ATE)를 구할 수 있다.
    • notion image
notion image
그러나, 우리는 잠재적 결과를 모두 관찰할 수 없다
처치 효과를 계산하기 위해서는 Y0, Y1을 모두 알아야하나, 둘다 얻는 것은 불가능하다.
인과추정의 근본문제의 해결방법
  • 과학적인 해결방법 : 실험
  • 통계적인 해결방법 : 무작위배치가 일어나지 않아 자기선택 편향이 발생시, 자기선택 편향을 일으키는 요인들을 확정하고 이 요인에 따른 처치집단 배치확률을 계산한 후, 이를 이용해 관측연구 데이터를 무작위 배치와 동일하거나 무작위배치에 가까운 상황에 맞춰주는 방법
 

성향점수란 무엇이고 어떻게 사용하나

  • 성향점수는 특정 개체가 통제집단이 아닌 처치집단에 배치될 확률
  • 실험연구는 무작위배치로 인해 모든 개체는 (이론적으로) 0.5의 성향점수를 갖는다
  • 그러나 관측연구는 다르다.
    • 마스크 착용 → 코로나 감염률 감소 연구에 있어서
    • 위생수칙을 중요하게 생각하는 사람일수록 마스크 착용이라는 처치집단에 배치될 확률이 높다.
    • 즉 위생수칙을 중요하게 생각하는 사람들은 성향점수가 1에 가깝게 나타날 것
  • 따라서 타당한 인과추론을 위해서,
    • 매칭 : 처치집단 사례의 성향점수와 동일한 성향점수를 가진 통제집단을 찾아 매칭하는 방법
    • 가중치 : 처치집단의 성향점수와 통제집단의 성향점수가 동등하도록 가중치를 부여하는 방법
    • 층화 : 처치집단과 통제집단의 성향점수가 비슷한 사례끼리 층화시킨 후 처치효과를 계산하여 통합하는 방법
 

성향점수가 만능이 아닌 이유 - Problems

  • 우리는 원인처치 배치와 관련된 공변량을 모두 파악할 수 없다.
    • 성향점수 추정과정 중에 누락변수편향이 발생할 수 있음 → 민감도분석을 제안함
  • 어떤 변수가 공변량인지에 대해 다르게 판단할 수 있다.
    • 인과관계를 매개하는 매개변수인지? 공변량인지? 에 따라 추정된 처치효과는 실제 처치효과와 다를 수 밖에 없다.
  • 성향점수 추정방법에 따라 성향점수분석 결과가 달라질 수도 있다.
    • 주로 로지스틱 회귀분석을 사용하여 추정하나,,
  • 처치집단 사례와 유사하거나 동등한 성향점수를 갖는 통제집단이 존재하지 않는 경우가 발생한다.. (공통지지영역이 충분하지 않아 분리 현상이 나타났다고 함)
    • 공통지지영역 벗어나면 분석에서 제외한 후 처치효과를 추정하나, 분석에서 제외되는 케이스가 많으면 처치효과의 적용범위가 제한될 수밖에 없어,,
 

성향점수분석의 진행 절차

  • 연구설계 : RCT로 진행할 수 없나? 인과관계의 원인변수가 외생성을 확보했나? 연구 설계에 원인변수와 결과변수 관계에 대한 교란변수 확인후 공변량으로 측정했나?
  • 데이터 전처리 : 결과변수, 원인변수, 공변량은 적절히 리코딩되었나? 결측값 발생시 적절한 방식으로 처리했나?
  • 성향점수 추정 : 성향점수를 추정할 방법을 충분히 고려하여 적절한 방법을 선택했나? 투입되는 공변량 사이의 상호작용 효과를 고려했나?
  • 성향점수분석 실행 : 성향점수매칭기법이 연구목적에 맞게 시행되었나? 공통지지영역에서 벗어나는 사례에 대한 처리는 적절했나?
  • 균형성 점검 : 성향점수분석 실시 후 처치, 통제집단 사이의 성향점수 및 공변량 평균 차이 및 분산비율은 각각 0 혹은 0에 근접한가? 1 혹은 1에 근접한가?
  • 처치효과 추정 : 적절한 방법으로 처치효과를 추정했나?
  • 민감도 분석 : 누락변수편향 수준에 따라 얼마나 달라지나? 이에 불구하고 추정된 처치효과는 충분히 강건한가?
 
 

R기반 루빈인과모형 책을 참고해서 정리했는데,, 이 책 정말 친절하고 깔꼼 👐🏻😵
 
 
Share article

hollyisyoon