Building a Dementia Diagnosis Pipeline

고령화 시대의 의료 불균형 해소를 위한 치매 진단 파이프라인 구축

May 17, 2023

Contents

진행 상황 회의록 1. 프로젝트 개요 2. 프로젝트 팀 구성 및 역할 3. 프로젝트 수행 절차 및 방법 4. 프로젝트 회고 및 개선점 5. 부록

📄

계획서

진행 상황

회의록

1. 프로젝트 개요

1-1. 주제

고령화 시대의 의료 불균형 해소를 위한 치매 진단 파이프라인 구축 -Kim Oh Choi-

퇴행성 질환인 치매 관련 AI 기술의 필요성을 탐색하고 비정형, 정형 데이터를 통해 치매의 위험 인자를 탐색, 예측, 판단 할 수 있는 모델을 개발한다.

라이프로그 데이터 : 웨어러블 기기를 통해 수집한 정형 데이터로 치매 위험 인자를 판별하고 M.L / D.L 모델을 통해 경도 인지 장애 단계를 조기에 예측한다.

비정형 데이터(MRI) : 영상 이미지 데이터를 통해 치매를 판단한다.

1-2. 주제 선정의 배경

👵🏼 치매 유병률 증가와 가속화되는 의료 불균형

고령화 : 고령화에 따른 치매 유병률은 기하급수적으로 늘어나는데, 의료 불균형은 가속화 되고 있다. 의료인력 부족 문제가 지방에서는 이미 발생하고 있으며, 이런 추세라면 의료 공백 문제가 더욱 심화될 것이다.

의료산업 : 의료 인력을 도울 수 있고 효율성을 향상시키는 'AI(인공지능)'를 활용한 의료기술 산업은 성장성이 높고 낮음을 떠나서 '반드시 성장해야 하는 분야'라고 생각한다. 실제로 구글이나 애플, 아마존과 같은 글로벌 선도기업들도 관련 분야에 엄청난 투자를 쏟고 있다.

구글, 의료전문 LLM '메드-PaLM' 공개...헬스케어 AI 소개

구글이 의료 전문 LLM(대규모 언어 모델)을 공개하는 등 헬스케어 분야의 인공지능(AI) 기술을 대거 소개했다.구글은 연례행사인 '체크 업'을 통해 LLM 연구의 진행 상황과 초음파 및 엑스레이 사진을 판독하는 AI 솔루션 등을 공개했다고 로이터와 블룸버그 등이 14일(현지시간) 보도했다.이에 따르면 구글은 지난해 LLM인 PaLM을 의료용으로 조정한 '메드-PaLM'을 구축, AI 회사 중 처음으로 미국 의사면허시험과 같은 테스트에서 통과 기준(60% 이상)을 넘겼다고 설명했다. 최근에는 이를 업그레이드한 '메드-PaLM 2'가

https://www.aitimes.com/news/articleView.html?idxno=149965

애플, 건강 모니터링 서비스… 아마존, 5조 들여 원격의료 기업 인수

애플, 건강 모니터링 서비스 아마존, 5조 들여 원격의료 기업 인수 빅테크들 헬스케어 선점 나서

https://www.chosun.com/economy/science/2023/02/16/3BEKAY3DY5DUZM3BNF7INVAGWI/

🏥 의료분야에서의 AI모델 활용?

조기진단 및 예측 : 알츠하이머와 같은 질병은 사실 MRI 상으로 판별하기 쉽다. 하지만 치료법이 없는 이런 질병은 발병 후 발견하면 큰 의미가 없다. 조기에 예측하는 것이 무엇보다 중요하다.

"AI 활용한 치매치료 기술, 고령화 시대에 가장 필요한 솔루션"

DAC 글로벌 브릿지 시리즈 인터뷰 1편. BDMT Global 임수지 대표DAC 글로벌 브릿지 시리즈 인터뷰 2편. 오렌지바이오메드 박예슬 대표DAC 글로벌 브릿지 시리즈 인터뷰 3편. 뷰노 임석훈 신사업본부장DAC 글로벌 브릿지 시리즈 인터뷰 4편. 세븐포인트원 이현준 대표 저출산과 노령 인구 증가로 우리나라가 '고령화 사회'에 빠르게 접어들면서 치매에 대한 관심이 높아지고 있다. 문재인 전 대통령은 핵심 정책으로 '치매국가책임제'를 내세워 실시했을 정도로 사회적 인식이 상당한 수준이다.실제로 최근 중앙치매센터가 발표한 자료에

https://www.pharmnews.com/news/articleView.html?idxno=220533

정확도, 시간 단축 : MRI, PET 등의 분석을 통한 질병 유무 판별은 많은 시간이 소요되는 과정이다. M.L / D.L 모델은 이런 과정을 단축하고 정확도 면에서도 더 우수하다.

1-3. 본 프로젝트의 활용 방안 제시

라이프 로그 데이터를 통해 치매 예측 모델 개발

라이프 로그 데이터로 예측 후 직접 만든 MRI 분류 모델로 검증

💡

효용성

병원 밖에서 수집 가능한 데이터를 가지고 진단 모델을 만듦으로써 지역 사회에서도 의료 서비스를 이용 할 수 있다.

생활하며 수집되는 데이터를 활용한 모델로써, 더욱 많은 데이터를 쉽게 수집할 수 있으며 금전적인 부담이 없다.

AI 기술을 활용해 부족한 영상의학과 및 신경과 등 불균형한 의료 인력에서 오는 부담을 줄일 수 있다.

제한점

치매란 인지 기능 및 다양한 의학적 근거를 통해 진단되어야 하기에 완벽한 조기 진단을 보기 위해선 다양한 전문 의료 인력이 필요하다.

라이프로그 데이터에서는 치매 환자의 표본이 부족한 문제점을 가지고 있으며 치매의 증상은 생활 수준의 변화 뿐이 아니라 다양한 변화를 가지고 오기에 다양한 변수를 수집해 모델링하여 더욱 정확도 높은 예측 결과를 제공해야 한다.

웨어러블 기기의 보편화가 이루어지지 않는다면 조기진단 모델 적용이 어렵다.

신뢰도가 높은 웨어러블 기기를 활용해야 하며, 수집 시 사용한 웨어러블 기기의 신뢰도에 따라 모델링의 결과가 달라질 수 있다.

1-4. 프로젝트 결과물 (Output)

2. 프로젝트 팀 구성 및 역할

김민기	라이프로그 데이터 및 이미지 데이터 분석 결과를 활용한 대시보드 제작
최용현	라이프로그 데이터 분석 및 머신러닝 및 딥러닝을 활용한 예측 모델 개발
김지민	두개골 없앤 MRI를 학습한 모델에 OASIS2데이터 적용
김희묵	CANNY로 MR외곽선을 학습한 모델에 OASIS2데이터 적용
오정현	데이터 증강을 통해 일반화한 학습한 모델에 OASIS2데이터 적용
최유현	OASIS-2 demographics 데이터로 치매 예측에 유의미한 변수 탐색

3. 프로젝트 수행 절차 및 방법

3-1. 활용 데이터 설명 (데이터 출처, 데이터 개요)

치매 관련 뉴스 기사 수집

빅카인즈(BIG KINDS) - 뉴스 검색·분석

뉴스빅데이터 분석시스템, 뉴스 속 키워드 관계망, 주요 이슈, 정보원, 이슈 트렌드 분석 정보 제공

https://www.bigkinds.or.kr/v2/news/search.do;Bigkinds=FA8F142FAAE8254DFDDFDE69DCFBE23C

치매 고위험군 라이프로그 데이터 (AI Hub)

AI-Hub

https://aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=realm&dataSetSn=226

데이터 개요

20. [치매 고위험군 라이프로그 과제] 치매 고위험군 라이프로그.pdf

473.0KB

출처링크

선행 모델 데이터 (Alzheimer MRI Preprocessed Dataset)

Preprocessed Alzheimer Disease MRI (Magnetic Resonance Imaging)

Alzheimer MRI Preprocessed Dataset

Preprocessed Alzheimer Disease MRI (Magnetic Resonance Imaging)

https://www.kaggle.com/datasets/sachinkumar413/alzheimer-mri-dataset?datasetId=2029496&sortBy=voteCount

데이터 개요

New Dataset Description

포맷 : 데이터셋은 전처리된 MRI이미지로, 모두 128 x 128 픽셀로 조정되었습니다.

구성 : 데이터셋은 총 4개의 클래스로 나누어져 있습니다.

비치매 (3200개 이미지)
매우 경증 치매 (2240개 이미지)
경도 치매 (896개 이미지)
중증도 치매 (64개 이미지)

이 데이터가 양이 많아서 정확도가 높게 나옴

FreeSurfer로 두개골만 지우고 분석하면 어떨까?

OASIS 인구통계 데이터(Demographics) + 이미지 데이터(MRI)

OASIS Brains - Open Access Series of Imaging Studies

The Open Access Series of Imaging Studies (OASIS) is a project aimed at making MRI data sets of the brain freely available to the scientific community.

http://www.oasis-brains.org/

OASIS 데이터셋


# 데이터 : OASIS-2 데이터셋 중 인구통계학적 정보
# 형식 : xlsx
df_demographic = pd.read_excel('../OASIS-2 dataset/demographics.xlsx')
display(df_demographic.head(5))
df_demographic.shape


# 데이터 : OASIS-2 데이터셋 중 MRI 이미지 정보
# 형식 : nifti.img

data_dir = '../OASIS-2 dataset/'
img_paths = sorted(glob(os.path.join(data_dir, '**/*.nifti.img'), recursive=True))
imgs = []

for img_path in img_paths:
    try:
        img_arr = nib.load(img_path).get_fdata()
        imgs.append(img_arr)
    except Exception as e:
        print(f"{img_path} : {e}")

# 3차원 이미지(영상)이기 때문에 127개 차원 중 원하는 영역만 불러오기
fig, axes = plt.subplots(1, 5, figsize=(30, 5))
for i in range(5):
    axes[i].imshow(imgs[i][:, :, 60]);

print(len(imgs))

3-2. 활용 라이브러리 등 기술적 요소

pandas	Pandas는 데이터 분석 및 조작에 사용되는 Python 라이브러리입니다. 1차원 데이터와 2차원 데이터를 각각 처리하기 위한 Series와 DataFrame과 같은 데이터 구조를 제공합니다. Pandas는 또한 누락된 데이터, 데이터 시각화 및 다양한 파일 형식의 입력/출력을 처리하는 방법을 제공합니다.
numpy	NumPy는 수치 계산에 사용되는 Python 라이브러리입니다. 대규모 다차원 배열 및 행렬에 대한 지원과 이러한 배열에서 작동하는 광범위한 수학적 함수를 제공합니다. NumPy는 과학 컴퓨팅, 데이터 분석 및 기계 학습 애플리케이션에 널리 사용됩니다.
matplotlib	. Matplotlib는 다양한 플로팅 방법과 사용자 지정 옵션을 제공하는 Python의 포괄적인 데이터 시각화 라이브러리입니다.
seaborn	Seaborn은 Matplotlib를 기반으로 하는 Python 데이터 시각화 라이브러리로, 유익하고 매력적인 통계 그래픽을 만들기 위한 고급 인터페이스를 제공합니다. Seaborn은 또한 Matplotlib과 함께 사용하여 Matplotlib이 제공하는 그래프 기능을 보완할 수 있습니다.
plotly	Plotly는 사용자가 대화형 및 공유 가능한 플롯, 차트 및 대시보드를 만들 수 있는 웹 기반 데이터 시각화 라이브러리입니다.
sklearn	Scikit-learn(sklearn)은 분류, 회귀, 클러스터링 및 차원 감소를 포함하여 데이터 마이닝 및 분석을 위한 도구를 제공하는 기계 학습용 Python 라이브러리입니다.
tensorflow	TensorFlow는 Google에서 개발한 수치 계산 및 대규모 기계 학습을 위한 강력한 오픈 소스 소프트웨어 라이브러리입니다. 다양한 플랫폼과 장치에서 심층 신경망을 포함한 기계 학습 모델을 구축하고 교육하기 위한 도구를 제공합니다.
streamlit	Streamlit은 데이터 과학 및 기계 학습 프로젝트를 위한 맞춤형 웹 애플리케이션을 구축하는 데 사용되는 Python 라이브러리입니다. 이를 통해 개발자는 HTML, CSS 또는 JavaScript에 대한 지식 없이도 간단한 Python 스크립트를 사용하여 대화형 데이터 앱을 빠르게 만들고 배포할 수 있습니다.
networkx	NetworkX는 파이썬에서 복잡한 그래프 및 네트워크를 다루는 데 사용되는 라이브러리입니다. 그래프 객체를 만들고 Node와 Edge를 추가하는 도구뿐만 아니라, 연결성, 중심성, 최단 경로 길이와 같은 다양한 메트릭을 계산하는 기능을 제공합니다.

정형 데이터 모델

LogisticRegression	로지스틱 회귀분석은 데이터 집합의 관측된 개별 결과가 양성 또는 음성인 두 가지 결과 중 하나일 때, 독립 변수와 종속 변수 간의 관계를 모델링하는 데 사용됩니다.
DecisionTreeClassifier	의사결정나무 분류기는 입력 변수에 대한 결정 규칙을 학습하고, 이를 사용하여 관측 결과의 클래스를 예측하는 데 사용됩니다.
SVC	SVM은 고차원 공간에서 선형 및 비선형 분류, 회귀 및 이상치 탐지 문제를 해결하는 데 사용되는 강력한 분류 알고리즘입니다.
KNeighborsClassifier	KNN 분류기는 새로운 관측값의 클래스를 예측할 때 가장 가까운 이웃 데이터의 클래스를 사용하는 분류 알고리즘입니다.
RandomForestClassifier	랜덤 포레스트는 여러 개의 의사결정나무를 생성하고 그들의 예측을 조합하여 보다 정확한 예측을 수행하는 데 사용됩니다.
XGBClassifier	XGBoost는 Gradient Boosting 알고리즘을 기반으로 하며, 빠른 속도와 높은 예측 정확도를 제공하는 데 사용됩니다.
LGBMClassifier	LightGBM은 Gradient Boosting 알고리즘을 기반으로 하며, 대규모 데이터 집합에서 빠른 학습 및 높은 예측 정확도를 제공하는 데 사용됩니다.
Catboost	Catboost는 Gradient Boosting 알고리즘을 기반으로 하며, 범주형 변수를 처리하는 데 있어서 다른 Gradient Boosting 라이브러리와 비교하여 보다 뛰어난 예측 성능을 제공하는 데 사용됩니다.
DNN	Deep Neural Network는 여러 층으로 구성된 인공 신경망 모델로, 이미지, 음성, 텍스트 등 다양한 데이터 유형의 예측 및 분류에 사용됩니다.

비정형 데이터 모델

CNN	CNN은 Convolutional Neural Network의 약자로, 이미지와 같은 고차원 데이터를 처리하기 위한 인공 신경망의 한 종류입니다. 이미지 분류, 객체 검출, 분할 등 다양한 이미지 처리 작업에서 사용됩니다.
Canny	Canny Edge Detection은 이미지에서 에지(Edge)를 검출하는 알고리즘 중 하나입니다. 이미지의 밝기 변화가 큰 지점을 찾아서 에지로 인식합니다.
Contour	Contour는 이미지에서 최외곽의 경계선 위치를 검출하고, 그 위에 검은색 선을 덮어 씌워 두개골을 지우는 방식입니다.
Augmentation	Augmentation은 데이터 증강 기술로, 기존 데이터에 다양한 변형을 적용하여 데이터셋을 보강합니다. 예를 들어 이미지에서는 회전, 크기 조정, 반전 등의 변형을 적용하여 데이터를 다양하게 만들어 모델의 성능을 향상시킵니다.

4. 프로젝트 회고 및 개선점

4-1. 현업자 피드백 + 각종 질문

4-2. 회고(개인의 문제인식~극복과정)

이름	회고 내용
김민기	프로젝트 초기에 데이터 수집과정에서 개인 정보 및 의료 데이터다 보니 원하는 데이터를 얻어내는게 어려웠다. 처음 시각화를 진행할때 어떤 방식으로 시각화를 해야할까에 대해서 고민을 했는데 팀원들과 소통을 통해 방향성을 잡고 진행할 수 있었다.
김지민	분석에 용이한 좋은 데이터를 구하는게 얼마나 어려운지 실감했다. 비정형 데이터를 다뤄본 경험이 없어서 데이터를 가져오는 단계에서부터 굉장히 어려웠지만 팀원들과 서로 모르는 내용을 공유하면서 조금씩 해결할 수 있었다.
김희묵	의료데이터다보니 데이터를 구하기가 어려웠으며, 이미지 경로 설정 부분이 어려웠지만 팀원들의 도움으로 극복했습니다. 또한 CNN 모델을 만들 때 어떻게 쌓아야 적절한지를 이론적으로 이해하지 못하고 진행한 것이 아쉬웠습니다. 팀원들 덕분에 여러가지 전처리 방식을 배워 이미지 데이터를 다루는 것이 재밌었습니다. 또한 여러 시각화 기술을 배운 것도 많이 도움이 되었습니다.
오정현	의료데이터이다보니 데이터셋 구하기가 어려웠다. 또한 이미지 데이터를 다루어 본 경험이 부족하여 이미지 차원에 대한 에러나 의료데이터의 확장자를 로드하는 부분에서 어려움이 많았다. 팀원들과 협업하면서 에러 해결, 인사이트 공유 등으로 스킬 업할 수 있었다.
최용현	주제 선정이 초기에 쉽게 되어 진행하는데 어려움은 없었지만, 기술적 한계를 마주 칠 때 마다 많이 좌절했던 기억이 난다. 조원들과 같이 상의하고 다각적으로 접근하며 문제점을 해결 할 수 있었다.
최유현	데이터를 구하는 것에 어려움이 있었고 계획했던 방향이 쉽지 않아서 여러 번의 시행착오를 하게 되었다. 그 과정에서 많은 회의를 통해 방향을 잡아갈 수 있었고 팀원들의 다양한 의견과 스킬로 많은 인사이트를 얻을 수 있었다. 특히 예측 모델의 정확도가 높지 않은 점은 아쉽지만 더 많은 변수들로 훈련한다면 더 좋은 모델이 될 것 같다.