Chapter1. 인공 지능과 학습 데이터 - 1.4 업계 표준! ‘Data Centric AI’

가장 빠르고 효과적으로 인공 지능의 성능을 향상 시키는 방법은 무엇일까요? 이전까지의 내용을 정리 해보면, 우리는 좋은 인공 지능을 만들기 위해서 ‘파 라미터 개수와 구조가 적절한 신경망을 설계하고, 좋은 학습 데이터를 준비하고, 하이퍼파라미터를 알 맞게 설정해 학습 능률을 올려야 합니다.

Jan 04, 2024

Chapter1. 인공 지능과 학습 데이터 - 1.4 업계 표준! ‘Data Centric AI’

*본 내용은 셀렉트스타의 '23/24 인공지능 인사이트' 매거진에서 발췌한 것입니다.

이런 다양한 솔루션들은 Model-centric AI 와 Data-centric AI, 두 가지 인공지능 모델 개발 방법 론으로 요약됩니다. 모델 중심(Model-centric AI)은 알고리즘과 모델 구조 개선을 통해 AI 성능을 향상시 키는 방법이며, 데이터 중심(Data-centric AI)는 데이 터 관점에서 AI 성능을 향상시키는 방법론입니다.

먼저 Model-centric AI은 모델이 훈련 데이터셋을 잘 학습할 수 있는 최적의 파라미터를 찾는 것이 목적 입니다. 모델 개선을 위해 다양한 테크닉들이 적용 될 수 있는데, 대표적으로는 규제(regularization), 드롭아웃(dropout), 배치 정규화(batch normalization) 등이 있습니다.

Data-centric AI에서는 먼저 훈련 데이터세 트를 분석하고 데이터 품질을 향상시키는 과정이 선행됩니다. 이를 통해 데이터세트의 잠재적인 편향과 노이즈를 제거하고 데이터의 다양성을 높일 수 있습니다.

두 관점을 비교했을 때, 현시점에서는 ‘Data-Centric AI’가 업계 표준으로 여겨지고 있습니다. 인공 지능 이 데이터를 이해하고 처리하는 방식 및 구조(알고 리즘)에 대한 연구는 이미 상당 수준 고도화 및 상 향평준화 됐기 때문입니다. 이와 달리 인공지능 개 발 목적에 꼭 맞는 ‘학습 데이터’를 구하는 일은 아직도 매우 어렵습니다. 데이터 허브·캐글(Kaggle) 등 기존 플랫폼에 공개된 데이터셋을 실제 상용 서비스 개발에 곧바로 적용하기는 부적절하며, 기업이 직접 데이터를 수집하고 가공하는 일에는 많은 시간과 비 용이 들기 때문입니다.

이 ‘Data-Centric AI’ 패러다임을 메인스트림으로 가져온 기념비적 발표가 있습니다. 바로 2021년 3월 딥 러닝 AI(DeepLearningAI)의 수장 앤드류 응(Andrew Ng.) 교수가 공개한 ‘A Chat with Andrew on MLOps: From Model-centric to Data-centric AI’ 세션입니다. 인공지능 분야 세계 4대 석학으로 꼽히는 앤드류 응 교수는 미국 스탠퍼드 대학교(Stanford University) 교수이자, 기업 바이두(Baidu)의 부사장 겸 수석 과학자입니다.

출처: 유튜브 “MLOps에 대한 Andrew와의 채팅: 모델 중심에서 데이터 중심 AI로”

응 교수의 발표 내용을 요약하면 이렇습니다. “결함이 있는 철판을 찾는 AI 시스템을 개발하고 있 다고 가정해 봅시다. 현 시점에서 시스템은 정확도 76.2%로 결함을 찾아낼 수 있고, 개발 목표는 정확 도 90.0% 달성이 다. 위 문제 풀기 위해 모델과 데이터 중 어떤 것을 개선하는 것이 좋을까?(Model- Centric AI VS Data-Centric AI)”

실험 결과 AI 모델을 중심으로 성능 개선을 시도한 경우 정확도 증가는 0%p로 전혀 나아지지 않았다 고 합니다. 반면 AI 학습 데이터를 중심으로 방식으 로 시스템을 개선했더니 정확도가 무려 16.9%p만큼 올라갔습니다. 다른 AI 시스템 사례를 보아도, 데이터 중심 접근이 비교적 우수한 성능을 보였습니다.

실제 학습 데이터를 살펴보면 데이터 품질 개선을 통해 AI 성능이 어떻게 향상되는지 알 수 있습니다.

예를 들어 이구아나 이미지를 감지하는 컴 퓨터 비전 AI 시스템을 만들 때는 보통 사람이 가공 한 이미지 데이터가 필요합니다. 인공지능이 주변 사물과 이구아나를 정확히 구별할 수 있도록, 무엇이 이구아나고 무엇이 카멜레온인지 사람이 미리 분 류하고 표기해 놓은 라벨링 데이터요.

그렇다면 우리는 데이터 라벨러에게 3000장의 이구 아나 이미지를 보내, 이구아나가 있는 영역을 박스 로 표시해 달라고 요청할 수 있습니다. 작업자는 ‘ 이구아나가 위치한 영역을 박스로 표시해 주세요‘라 는 지시문을 읽고,사진속에서 두마리의 이구아나를 보게 됩니다. 하지만 이처럼 지시 사항이 간단하 다면 작업자마다 다른 기준을 적용할 위험이 있습니다.

먼저 라벨러A는 사진1처럼 이구아나 영역을겹치지않게각각따로바운딩박스를 그릴 수 있고, 라벨러 B는 사진2 처럼 왼쪽 이구아나 꼬리 까지 포함하는 긴 바운딩 박스 그린 다음 오른쪽 이구아나를 별도로 표시할 수 있습니다. 뿐만 아니라 라벨러 C는 사진3 처럼 이구아나를 구분하지 않고 두 마리 이구아나 영역을 박스 하나로 표시할 수도 있습니다.

위 예시는 학습 데이터의 일관성(consistency)이 부 족한 사례로, 머신러닝 알고리즘 성능에 치명적으로 작용합니다. 라벨러 A, B, C가 작업한 3가지 라벨링 데이터가 모두 잘못된 건 아닙니다. 다만 라벨러 3명 이 각각 다른 기준을 적용해 학습 데이터를 가공했 다는 점은 문제 될 수 있습니다. 학습 데이터에 일관성이 없다는 말은, 곧 해당 데이터를 학습한 AI 시스템이 일관성 없다는 뜻입니다.

알고리즘은 학습 데이터의 불량과 편향이 있으면, 그 불량과 편향까지 학습하여 결과물에 반영하게 되니까요. 각종 혐오 발언과 차별주의를 학습한 AI 시스템이, 윤리적 이슈로 서비스 중단된 사례는 어렵지 않게 찾아볼 수 있습니다.

앤드류 응 교수는 이처럼 AI 시스템에서 이슈가 발생 했을 때 많은 머신러닝 엔지니어들이 코드를 들여다 보며 문제를 찾고 해결하려 한다고 지적하며, 효율적인 해결을 위해선 데이터의 일관성을 높이고 라벨링 작업을 체계화해야 한다고 설명했습니다.

#인공지능 #AI성능향상 #데이터라벨링 #AI혁신 #데이터중심AI #ModelCentricAI #DeepLearning #MachineLearning #DataQuality #AI알고리즘 #TechTrends #AI패러다임 #AndrewNg #AI업계동향

#AI시스템개선 #데이터분석 #AI교육 #데이터허브 #AI개발 #데이터가공 #AI최적화 #AI기술 #데이터기반결정 #인공지능트렌드 #머신러닝모델 #인공지능개발 #AI연구 #데이터드리븐 #AI품질관리 #셀렉트스타