라이프로그 & MRI 데이터 활용 치매 판별 모델 프로젝트

#라이프로그 #MRI #CNN #이미지증강
May 08, 2023
라이프로그 & MRI 데이터 활용 치매 판별 모델 프로젝트
프로젝트명
라이프로그 & MRI 데이터 활용 치매 판별 모델 프로젝트 (LikeLion AI School Final Project)
기간
2023.04.19 ~ 2023.05.09 (3주)
참여 인원
팀 프로젝트 (6인)
나의 기여도
◼︎◼︎◻︎◻︎◻︎◻︎◻︎◻︎◻︎◻︎ (15%)
나의 역할
1. 이미지 데이터 전처리 (특정 부분 제거, 위치 조정, 사이즈 조정 등) 함수로 작성 2. CNN 모델 학습
활용 데이터 (출처)
- 라이프로그 데이터 (AI Hub 치매 고위험군 웨어러블기기 데이터) - MRI 데이터 (Kaggle, OASIS-2)
분석 방법
- 정형데이터 분석 : ANOVA, PCA, Ensemble, DNN - 이미지 데이터 전처리 : CANNY, CONTOUR, Augmentation - 이미지 데이터 분석 : CNN

1. 프로젝트 배경 · 목표

프로젝트 배경

  • 고령화, 수도권 집중으로 인한 의료산업 문제
    • 초고령사회 : 대한민국은 2023년 기준 노인(65세 이상) 인구가 전체 인구의 18.4%, 2025년에는 20.6%로 초고령사회(노인인구가 전체 20% 기준) 진입이 예상된다.
    • 치매유병률의 증가 : 인구 고령화에 따른 치매 유병률 또한 꾸준히 증가하는 추세다. 2023년 기준 치매 유병률은 전체 노인 인구의 10.3%로 추정된다.
    • 의료 불균형 : 동시에 지역에 따른 의료 불균형도 가속화되고 있다. 지방에서는 의료시설과 인력 부족으로 인한 문제가 이미 발생하고 있다. 최근 일부 시행중인 원격진료, 원격케어 등의 서비스도 이러한 불균형 문제 해결을 목표로 하고 있다.
    • 자세히 보기
      notion image
  • 의료(헬스케어) & AI
    • 조기진단 및 예측 : 알츠하이머와 같은 질병을 판별하는 것은 MRI 검사만 이루어진다면 쉬운 일이다. 하지만 이런 질병은 이미 발병한 후에는 발견하는 것이 큰 의미가 없다. 조기에 예측하고 예방하는(혹은 늦추는) 것이 무엇보다 중요하다.
    • 정확도, 시간 단축 : MRI, PET 등의 분석을 통한 질병 유무 판별은 많은 시간이 소요되는 과정이다. (전문 고급인력이 장시간 투입되고, 사람마다 판단의 기준에 어느정도 차이가 발생할 수 있다는 단점이 있다.) M.L, D.L 모델은 이런 과정을 단축하고 정확도 면에서 매우 우수하다.
    • AI 서비스 : 의료 분야의 효율성 향상을 위해 이미 클라우드, AI를 도입한 많은 연구와 서비스 출시가 이루어지고 있다. 최근에는 구글, 애플, 아마존과 같은 글로벌 빅테크 기업에서도 의료분야에 적극적인 투자를 하고 있다.
 

프로젝트 목표

  • 정형데이터, 비정형데이터를 활용한 판별 모델
    • 멀티 모달 : 동일한 대상(환자)에 대한 정형데이터, 비정형데이터를 통해 종합적인 분석을 제공한다. ⇒ 데이터 확보 실패
    • 치매 위험군 판별 : 치매 분야에서 AI모델은 예방 차원에서 그 효용이 높을 것으로 예상된다. 비치매군, 치매위험군(경도인지장애), 치매군(중증인지장애) 3개의 클래스로 판별하고, 치매위험군에 대한 정보를 전달하는 것을 목적으로 한다.
    • 모델 성능 비교 : 화이트박스, 블랙박스, 딥러닝의 성능 비교
  • 모델의 판별 결과에 대한 근거 제공
    • 라이프로그 데이터 : 정형데이터(인구통계학적 정보, 웨어러블기기 데이터) 중 치매 위험군 여부와 높은 상관관계를 갖는 의미 있는 변수를 추출하여 모델에 사용한다. (ANOVA, PCA)
    • MRI 데이터 : 객체 탐지를 활용하여 치매에 결정적인 영향을 주는 것으로 알려진 기관(대뇌피질, 해마)을 특정하고, 그 크기와 비율을 수치로 나타낸다 (정형데이터로 추출). ⇒ 시간 제약 및 기술적인 한계 (Detectron2, R-CNN, Semantic Segmentation 모델을 활용해야 하는 것으로 보임)
  • 새로운 데이터에 대한 예측값 제공
    • 전처리 과정 함수화 : 이미지 전처리 과정을 통해 다른 출처의 이미지를 입력하면 일괄적인 형식으로 변환한다. (일반적으로 의료이미지는 FreeSurfer라는 별도의 소프트웨어를 활용해서 필요한 부분을 제거, 마킹한다.)
    • 대시보드 제작 : 학습된 모델을 대시보드에 업로드하여 배포한다.

2. 진행 과정

기간
진행내용
2023.04.19 ~ 2023.04.24
0. 배경 조사
- 프로젝트 주제 선정 - 도메인 이해를 위한 배경 조사
2023.04.25 ~ 2023.04.30
1. 분석 계획 수립
- 분석 활용 가능 데이터셋 수집/확정 - 분석 방법 결정 - 예상 결과물 / 분석계획서
2023.05.01 ~ 2023.05.05
2. 라이프로그 데이터 분석 모델
- 전처리 및 탐색 - 통계적 검증 - 화이트박스, 블랙박스, 딥러닝 모델
2023.05.01 ~ 2023.05.06
3. MRI데이터 분석 모델
- 의료영상이미지 전처리 (CANNY, CONTOUR) - 이미지 증강 (Augmentation) - CNN 모델
2023.05.06 ~ 2023.05.08
4. 대시보드 제작
- Streamlit 대시보드 제작 - 보고서 작성
2023.05.09
발표 / 최종 피드백

3. 결과물 요약

프로젝트 개요

notion image
notion image
notion image
 

라이프로그 데이터를 활용한 예측모델

notion image
notion image
notion image
notion image
notion image
notion image
notion image
notion image
notion image
notion image
 
 

MRI 데이터를 활용한 예측모델

notion image
notion image
notion image
notion image
notion image
notion image
notion image
notion image
notion image
notion image
notion image
notion image
notion image
notion image
notion image

Streamlit 대시보드

4. 회고 · 피드백

회고·한계점 (팀 내부)

라이프로그 데이터 활용 모델

  • 일반화 성능 부족 : 모든 모델들이 대부분 비치매군에 대한 예측 정확도가 높았다. 반면, 경도 인지 장애군과 치매 군에 대한 정확도가 매우 낮았다. 학습 데이터의 절대적인 양이 부족하고, 그에 비해 모델의 패턴이 복잡해서 성능이 저하된 것으로 보인다.

MRI 데이터 활용 모델

  • 블랙박스 모델 : CNN모델이 치매 위험 여부에 대한 판별결과를 알려주지만, 그 판단근거를 알 수 없다. 이를 위해 진행하려 했던 객체탐지를 통함 정형데이터로의 추출 과정이 필요하다고 생각한다. (과거에 출시된 객체탐지 모델은 버전 호환 문제로 실행되지 않는 경우가 많아서 비교적 최근 출시된 모델을 활용해야한다.)
  • 이미지 형식 : 전처리 과정 함수는 영상이미지 중 특정 부분을 슬라이싱하여 1개의 단면이미지만을 추출하고, 이를 기반으로 치매 위험 여부를 판별했다. 정확도를 높이기 위해서는 영상 전체를 input으로 받을 수 있도록 수정을 고려해볼 수 있다.
  • 일반화 성능 부족 : OASIS-2와 Kaggle 데이터에 대한 예측정확도는 높았지만, 외부의 다른 기관에서 촬영된 MRI에 대한 예측 정확도가 떨어졌다. 위의 이유와 비슷하게 전처리 과정이 있음에도 기관이나 출처마다 어떤 차이가 있는 것으로 보인다. 일반화 성능 향상을 위해서는 더 많은 전처리 과정과 데이터, 증강을 고려해볼 수 있다.
 

피드백 (by 노상래 분석가님)

계획서 피드백

  • 좋은 점
    • 목표 수립 : 배경 조사, 주제 선정, 데이터셋 선정의 흐름이 통일감 있고 논리적으로 잘 설명됨.
    • 방법 설계 : 본인팀의 수준과 현실적인 제약(개인정보 데이터라는 점)을 현실적으로 지각하고 있음. 시각과 취지를 고려할 때 설정한 통계적 검증(ANOVA, PCA)과 모델링(CNN) 기반의 접근법이 스코프 상 충분히 적절함.
  • 부족한 점
    • 타임라인 : 분석계획서에서 각 단계별 세부 일정이 포함되도록 타임라인을 더 구체화할 필요가 있어보임.
  • 그 외
    • 예상 결과물 : 짧은 기간과 여러 제약, 의료 데이터라는 한계상 완벽한 결과물(해결책)을 제시하기는 어려움. 그럼에도 결과물에서 어떤 지점에서 충분히 효용성이 있고, 어떤 지점에서 제한점이 있는지 잘 구분하여 표현하면 충분히 의미가 있을 것으로 생각됨.
 

최종 피드백

  • 좋은 점
    • 주제 선정 : 주제 선정에 대한 진정성이 느껴지도록 발표를 진행했음.
    • 프로젝트 가치 : 라이프로그, 웨어러블기기 데이터 분석은 예방 측면에서 사업적 가치가 매우 높음. 팀에서 데이터와 프로젝트의 가치에 대해 충분히 이해하고 있는 것으로 보임.
    • 개인 정보 데이터의 한계 : 개인 정보가 포함된 데이터는 비용 뿐만 아니라 얻는 데에 소요되는 시간과 절차가 매우 까다로움. 데이터와 관련 자료 조사에 어려움이 많았을 것으로 생각됨. 그럼에도 기간 안에 가능한 리소스를 활용하여 진행했다는 점에 진지함과 가치를 높게 평가함.
  • 부족한 점
    • 발표의 초점 : 발표에서 모델의 퍼포먼스, 성능에 대한 결과에 집중한 것으로 보임. 논리적인 흐름은 좋았지만 이런 발표는 프로젝트 팀 내부에서 이뤄지는 중간공유 목적의 발표에 더 적합한 방식임. (웨어러블기기 데이터로 위험도를 쉽게 측정하는) 프로젝트와 데이터의 특성, 정보를 제공받는 사람을 고려한다면 최종 발표에서는 모델의 성능보다는 타겟을 이해시키고 설득하는 방식으로 진행했으면 더 좋았을 것으로 생각됨.
Share article

김지민(kjmn1105)