10분 안에 이런 걸 얻을 수 있어요.
- AI가 활용되기 시작하는 요즘, 데이터의 중요성.
- 데이터셋 분석 도구를 활용해서 데이터셋 커버리지를 빠르게 파악하기
“이제는 AI 산업에서 가장 중요한 개념이 바로 데이터 정보의 양과 질이라는 것을 알아가는 듯합니다. 셀렉트스타는 그 AI의 본질을 가장 선도적으로 파악하여 데이터 중심의 기술력을 갖추었습니다. 특히 최근에 공개한 Datumo Scope는 세부적인 데이터 품질과 엣지 케이스를 눈으로 바로 파악할 수 있는, 극한의 HCI를 갖춘 획기적이고 편리한 도구입니다.” 중소형 디스플레이사업부 AI추친 TF / Principal Engineer, AI Expert 박경태, 삼성디스플레이
데이터 기반 의사결정
따로 강조하지 않아도 우리는 데이터의 중요성을 잘 알고 있습니다. 고대 중국과 이집트에서는 기원전 3000년부터 과세와 징병 등을 목적으로 인구 조사를 했고, 1936년 미국 시사 잡지 리터러리 다이제스트(Literary Digest)는 대통령 선거 예측을 위해 1,000만 명에게 우편엽서를 발송하여 236만 장을 회수했습니다. 이처럼 사회는 시대와 지역을 막론하고 데이터 기반 의사 결정을 지속해 오며 발전해 왔습니다.
하지만 모든 분야에 AI가 활용되기 시작하는 요즘, 데이터의 중요성을 조금 더 강조해도 될 듯합니다. AI는 데이터를 통한 ‘학습(Train)’으로 일어난 과거를 이해하고 일어날 미래에 대비합니다. ‘학습’은 알고리즘이 데이터를 입력받아 정해진 연산을 수행하고, 연산 결과와 실제 정답 사이 오차를 점진적으로 줄여나가는 과정입니다. 그래서 학습 데이터가 없는, 아직 데이터를 학습하지 않는 AI 알고리즘을 빈 깡통이라고도 합니다.
이 때문에 현업에서는 AI를 위한 학습 데이터를 마련하고 정제하는 데 많은 시간과 자본을 투자하고 있습니다. 적절한 학습 데이터가 충분한 규모로 마련되어 있다면 AI 개발 작업이 수월할 텐데 쉽지가 않습니다. 지난 4월 소프트웨어정책연구소가 발표한 ‘2022 인공지능산업실태조사 보고’에 따르면, 국내 AI 관련 사업을 운영하는 1인 이상 기업체 1,915곳 중 74.9%가 데이터 확보 및 품질 문제를 겪고 있었습니다. 기술이 발전하고, 인간이 수집하고 저장할 수 있는 데이터 규모가 늘어났다는 데도 산업 현장에서는 여전히 데이터 문제를 겪고 있는 셈입니다.
한가지 이유를 꼽자면, 과거엔 데이터로 인식하지 못했던 정보들을 이제는 데이터로 여기고 활용하려 하기 때문입니다. 이제 우리는 도시 소음 데이터를 분석하여 교통 체계를 개선하거나, 야생 동물의 소리를 분석하여 생태계를 모니터링할 수 있습니다. 뿐만아니라 도로 사진과 의료 영상을 활용해 자율 주행과 원격 의료 진단 서비스를 고도화할 수 있습니다. 과거에는 소리와 이미지, 영상 데이터를 저장하고 활용하기 어려웠지만, 기술 발전으로 보다 많은 정보들이 산업적으로 활용 가능한 데이터로 전환되었습니다.
그 결과 우리 모두는 일상에서 새로운 데이터를 활용한 서비스를 마주하는 데 제법 익숙해졌습니다. 어느 날 AI가 나에게 꼭 맞는 음악과 사진을 추천해 줘도 TV와 인터넷을 처음 접한 그 시절 사람만큼 놀라진 않을 겁니다.
하지만 아직 우리에게 수만 혹은 수십만 건의 비정형 데이터를 분석하는 일은 낯설 수 있습니다. 대부분 숫자와 문자로 이루어진 기존 정형 데이터는 통계학과 업무 지원 도구의 도움을 받아 누구나 쉽게 고도로 분석하고 활용할 수 있게 됐지만, 아직 비정형 데이터 분석 작업에는 ‘정답’이라고 할만한 체계적이고 우수한 방법론이 없기 때문입니다. 보다 정확히는, 현재 개발된 비정형 데이터 분석 방법들이 다양한 분야에서 적절히 쓰이고 있지 않는 실정이라고 할 수 있겠습니다.
실제 비전 데이터 분석 작업을 예시로 들어보겠습니다. 도로를 주행하고 있는 차량에서 촬영한 사진 ‘A’ ‘B’ ‘C’가 있습니다. 대표적인 자율 주행 데이터셋 BDD(berkeley deep drive dataset) 8만 장에서 골라낸 사진 3장입니다. 데이터 분석 작업을 맡은 저는 사진 A와 B가 얼마나 유사한지, 또 사진 B와 C 중 A와 더 가까운 건 무엇인지 분석해야 합니다.
제 나름의 이유를 들어 사진 B보다는 사진 C가 A와 더 비슷하다고 설명할 수는 있을 거 같습니다. 뭔가 도로 모양도 비슷한 거 같고, B와 달리 A와 C 두 사진은 주택가가 아니라 도심에서 촬영한 사진 같습니다. 저는 합리적이고 일관된 기준에 따라 이미지를 분석하고 그 결과를 설명해야 할 테지만, 아마도 매우 주관적인 작업이 될 것 같습니다.
이처럼 비정형 데이터 분석에는 고려해야 할 요소가 너무 많습니다. 뿐만아니라 적당한 기준을 설정하는 데 성공했더라도 사람마다 다르게 적용할 위험이 있습니다. 예를 들어 수집된 사진을 ‘낮’과 ‘밤’에 따라 분류하기로 했는데, 제가 ‘낮’이라고 분류한 사진을, 다른 분이 보기에 너무 어둡다며 ‘밤’이라고 분류할 수도 있을 겁니다.
물론 이런 상황에 적용할 만한 몇 가지 데이터 분석 기법이 있습니다. 대표적으로는 메타 데이터를 활용하는 방법입니다. 메타 데이터는 간단히 말해 데이터의 정보를 설명하는 데이터, 데이터에 대한 데이터입니다. 원천 데이터가 사진이라면, 촬영 기기로부터 촬영 당시 시간이나 위치 정보 등을 메타 데이터로 수집할 수 있습니다. 만약 사진의 메타 데이터를 기상청 DB와 연동한다면, 지역별 일몰 시각 정보를 사진 분류 작업에 활용해 더욱 정확하고 합리적인 데이터 분석을 진행할 수 있습니다.
Use case
하지만 메타 데이터나 고도의 특성 공학(Feature Engineering)을 활용하는 일은 간단하지 않습니다. 비정형 데이터는 매우 다양한 형태와 구조를 가지고 있어 일반화하기 어렵기 때문입니다. 또한 비정형 데이터에서 유용한 특성을 추출하려면 데이터 공학과 사업 영역에 대한 도메인 전문성을 함께 갖추고 있어야 합니다. 이와 같이 데이터와 산업에 대한 이해를 두루 갖춘 인력은 많지 않습니다.
그렇기에 시장에서는 AI 학습용 데이터를 다루는 데 적합한, 새로운 데이터 분석 도구에 대한 수요가 생겼습니다. 비전공자도 쉽게 복잡하고 다양한 대규모 데이터셋을 분석할 수 있는 솔루션이 있다면, 전체 프로젝트 일정과 예산 계획을 개선할 수 있을 테니까요. 셀렉트스타가 개발한 데이터셋 분석 도구 ‘다투모 스코프(Datumo Scope)’ 사례를 들어보겠습니다. 다투모 스코프는 비전 데이터에 최적화된 데이터셋 분석-기획 솔루션입니다.
다투모 스코프는 데이터의 정보를 담은 피처 벡터(Feature Vector)를 다차원 점으로 압축하여 표현한 공간 ‘피처 스페이스(Feature Space)’를 시각화합니다. 비슷한 데이터는 가까이 상이한 데이터는 멀리 배치한 평면 그래프를 제공하고, 쉬운 조작과 가독성 높은 UI 디자인으로 전체 데이터셋의 커버리지를 빠르게 파악할 수 있습니다.
예시로 들었던 자율 주행 데이터셋 BDD(berkeley deep drive dataset) 사진 분석을 이어가 보겠습니다. 다투모 스코프에 도로 주행 사진 약 8만 장을 업로드 하니, 수많은 점들의 분포 그래프가 제공됐습니다. 점 각각은 원천 데이터 한 건(사진 한 장)을 의미합니다.
아래 이미지를 보면 좌우로 점들의 군집이 2개 형성된 모습을 확인할 수 있습니다. 어두운 사진, 주로 밤에 촬영된 데이터는 왼쪽에 모여있고 밝은 사진, 주로 낮에 촬영된 데이터는 오른쪽에 모여 있기 때문입니다.
또한 앞서 언급한 A와 C 사진에 해당하는 점은 비교적 서로 가까이 위치한 반면, 사진 B에 해당하는 점은 멀리 떨어져 있는 걸 확인할 수 있습니다. 이처럼 데이터 수 만건을 적절한 방식으로 시각화하는 데 성공했다면, 이를 기반으로 다양하고 전문적인 분석을 이어갈 수 있습니다. 다투모 스코프의 주요 기능 몇 가지를 소개하겠습니다.
Use case. 시각화(Visualization)
“SELECT * FROM “BDD” WHERE WEATHER = “SNOWY”“
메타 데이터(Meta data)와 모델 메트릭(Model Metric) 정보를 반영한 데이터 분포 그래프를 제공합니다. 데이터를 수집한 환경(고속도로, 주차장, 도심지, 주거 지역 등)과 모델 성능 지표 등을 쿼리로 활용해 데이터를 쉽게 눈으로 분석할 수 있습니다.
Use case. 선별(Curation)
“전체 중 Train set 쓰기 위한 10%에 해당하는 Sub-Dataset 을 추출해줘”
원하는 속성의 데이터를 일정 비율로 선별해주는 큐레이션 기능을 활용할 수 있습니다. 선별 과정에서 데이터셋 커버리지(Coverage)를 최대한 유지합니다. 선별 기능은 전체 데이터셋을 빠르고 간단하게 분석하거나, 용도에 맞게 데이터셋을 분류하는 (Train/Test set split) 등 다양한 작업에 활용될 수 있습니다.
다투모 스코프의 큐레이션 기능을 더 알고 싶다면? 👉🏻 더 알아보기
Use case. 검색/조회(Search)
지정한 데이터와 유사한 데이터를 자동으로 조회합니다. 설정한 범위 내에서 검색과 편집을 반복하며 데이터셋을 원하는 대로 구성할 수 있습니다. 이제 필요한 데이터를 찾기 위해 수많은 데이터를 일일이 들여다 볼 필요 없습니다.
이 밖에도 다투모 스코프에는 다양한 기능들을 활용하면 지금 내 AI에 필요한 데이터가 무엇인지 정확히 알 수 있습니다. 이는 어떤 데이터를 수집하고 어떤 데이터를 가공해야 하는 지를 더욱 빠르고 효율적으로 파악하는 작업이며, 데이터 수집 및 가공에 따르는 비용과 시간을 절감하는 일입니다.
1936년 미국 대통령 선거 당시 236만 명의 설문을 수집한 리터러리 다이제스트(Literary Digest)는 여론조사 사상 최대인 19%의 오차를 기록했습니다. 반면 엄선한 1,500명을 대상으로 면접 조사를 실시한 갤럽(Gallup)은 6% 오차로 루스벨트 당선을 예측하는 데 성공하며 현재까지 대표 여론조사기관으로 남아있습니다. 데이터, 규모만큼 품질도 중요합니다. 다투모 스코프로 학습 데이터를 똑똑하게 만들어 가세요.
Share article