AI의 생명을 불어넣어 주는 ‘학습데이터’ 2편 – COVERAGE, BALANCE
AI의 생명을 불어넣어주는 ‘학습데이터’. 셀렉트스타 김세엽 대표가 들려주는 인공지능 학습데이터 이야기입니다.
May 02, 2022
Contents
고품질 데이터란 무엇인가? 어떻게 만들어지는가?“학습데이터 없이는 인공지능을 개발할 수 없고, 양질의 데이터가 없으면 더더욱 좋은 인공지능을 개발할 수 없다”“좋은 데이터를 수집하고 가공하는 것이 AI를 만드는 과정의 80%를 차지한다. 이는 데이터가 인공지능의 Core Part임을 의미한다.”그렇다면 좋은 데이터란 무엇일까요?3. Coverage다양한 데이터로 충분한 케이스 스터디를 AI모델에게 제공음성인식용 데이터셋의 경우+서비스 운영 상황에 맞춰 데이터를 최신화해야 한다.AI가 마주할 다양한 케이스를 포함하고 있는 데이터AI 운영 상황을 고려한 수집 시나리오AI 운영 상황을 고려한 수집 시나리오 정의다양한 데이터를 위한 유사 데이터 수집 필터링딥러닝 기술을 통한 유사 데이터 수집 필터링4. Balance편향되지 않고 고르게 구성된 데이터학습데이터가 고르게 구성돼야 한다.다양한 Classification을 통해 편향성을 지양한다데이터 Balance를 고려한 프로젝트 설계From Model-centrci to Data-centric AI10분 안에 이런 걸 얻을 수 있어요.
- ‘고품질 데이터’란 무엇인가?
- 좋은 데이터를 위해 셀렉트스타에서 집중하는 부분
- AI에게 ‘학습데이터가’가 중요한 이유
* AI의 생명을 불어넣어 주는 ‘학습데이터’ 1편 먼저 보기
AI의 생명을 불어넣어주는 ‘학습데이터’. 셀렉트스타 김세엽 대표가 들려주는 인공지능 학습데이터 이야기입니다.
세엽님의 강의를 축약한 것으로 ‘여기 👇’에서 전체 강의를 들을 수 있습니다 😃
고품질 데이터란 무엇인가? 어떻게 만들어지는가?
인공지능은 사람이 작업한 데이터를 보고 따라하면서 지능을 얻습니다. 그걸 우리는 인공지능 ‘학습데이터’라 일컫습니다.
인공지능과 그 생명력을 불어넣어주는 학습데이터는 우리의 일상생활 속 곳곳에 자리매김하고 있습니다.
쉬운 예를 들어보면, 사람이 직업 레이블링한 데이터를 바탕으로 인공지능이 물체 위치 및 종류 파악하고 이것을 바탕으로 만들어 지는 것이 바로 자동차의 ‘자율주행’입니다.
이제는 Data-centric AI 시대입니다.
“학습데이터 없이는 인공지능을 개발할 수 없고, 양질의 데이터가 없으면 더더욱 좋은 인공지능을 개발할 수 없다”
“좋은 데이터를 수집하고 가공하는 것이 AI를 만드는 과정의 80%를 차지한다. 이는 데이터가 인공지능의 Core Part임을 의미한다.”
by Andrew Ng, co-founder of Landing AI (세계적 인공지능 석학)
기존에는 AI개발에 대한 고민을 하는 시대였다면, 지금은 학습데이터를 어떻게 만들까 라는 고민이 더 중요해지는 시대가 도래했습니다.
-From model-centric to Data-centric AI
그렇다면 좋은 데이터란 무엇일까요?
김세엽 대표는 좋은 데이터를 이렇게 4가지로 분류하여 정의했습니다.
ACCURACY
CONSISTENCY
COVERAGE
BALANCE
이번에는 1편(바로가기)에 이어서 COVERAGE, BALANCE를 소개해드리도록 하겠습니다.
3. Coverage
다양한 데이터로 충분한 케이스 스터디를 AI모델에게 제공
음성인식용 데이터셋의 경우
학습 데이터에 적거나 없었던 신조어, 유행어 등에 맞춰 데이터 최신화
+서비스 운영 상황에 맞춰 데이터를 최신화해야 한다.
AI가 마주할 다양한 케이스를 포함하고 있는 데이터
AI운영 상황을 고려하여 수집 시나리오를 정하고 가능한 한 다양한 데이터를 수집하여 ‘Coverage’ 를 넓혀야 합니다.
AI 운영 상황을 고려한 수집 시나리오
Coverage를 더욱 높이기 위해 AI가 마주할 수 있는 다양한 케이스의 데이터를 충분하게 만들어 주는 것이 관건입니다.
예전에 셀렉트스타가 구축했던 ‘얼굴 데이터셋’을 예시로 들어 본다면, 자사의 크라우드소싱 플랫폼 ‘캐시미션’을 통해 1,100여 명의 유저를 모았고, 아래의 표와 같이, 3개의 조명 조건, 8개의 상황조건 그리고 11개의 각도 조건을 만들어 총 264개의 경우의 수를 모아 데이터를 구축하였습니다.
AI 운영 상황을 고려한 수집 시나리오 정의
1,100여 명의 크라우드 소싱 및 오프라인 참여로 다양한 데이터 수집
예시 - 마스크 착용 얼굴 데이터셋 구축
촬영 조건 정의 (264개 경우의 수)
조명 조건 (3개)
실내 조명, 실외 자연광, 어두움
상황 (8개)
마스크 착용, 코스크 착용, 턱스크 착용, 손으로 눈 가림, 손으로 입 가림, 모자 착용, 안경 착용, 맨 얼굴
촬영 조건 (11개)
정면, 오른쪽 22.5º, 오른쪽 45º. 오른쪽 90º, 왼쪽 22.5º, 왼쪽 45º, 왼쪽 90º, 위쪽 45º, 위쪽 90º, 아래쪽 45º, 아래쪽 90º
다양한 데이터를 위한 유사 데이터 수집 필터링
데이터를 수집하다 보면 유사한 데이터를 제출하는 경우가 상당히 많습니다.
최대한 다양한 데이터를 모으는 것이 중요한 것이기 때문에 유사도가 높은 데이터는 가치가 떨어질 수 밖에 없습니다. 이 경우 일일이 사람이 수작업으로 유사도를 확인하고 필터링을 하기는 거의 불가능에 가깝습니다.
셀렉트스타는 더욱 확실한 필터링을 위해 딥러닝을 통해 AI가 데이터 간의 유사도를 판별하고 필터링을 해주는 기술을 적용하여 보다 다양성 있는 데이터를 모으는데 힘을 쏟고 있습니다.
아래의 예시와 같이 각도만 살짝 다르고 거의 동일한 사진들은 ‘유사 데이터 수집 필터링’ 기술을 통해 걸러지게 되고, 이렇게 구축된 데이터는 더욱 뛰어난 데이터로 거듭납니다.
딥러닝 기술을 통한 유사 데이터 수집 필터링
국내외 주요 데이터 플랫폼 중 유일하게 적용
4. Balance
편향되지 않고 고르게 구성된 데이터
좋은 데이터 구축을 위해서는 편향성을 없애는 것이 중요합니다.
견종 분류용 데이터셋
학습데이터가 고르게 구성돼야 한다.
다양한 Classification을 통해 편향성을 지양한다
자동차 이상 증상 문의 텍스트 데이터를 수집했던 경험이 있습니다.
단순히 자동차 이상 증상 문의에 대한 텍스트를 수집했다면, 문제가 빈번하게 일어나는 특정 경우에 대한 데이터만이 월등히 많이 수집 될 것이 분명했습니다. 이러한 편향성을 최대한 줄이고자 하는 측면에서 아래의 예시와 같이 미작동/시각/청각/촉각/후각으로 증상을 세부화하여 데이터를 수집하였습니다.
데이터 Balance를 고려한 프로젝트 설계
예시- 자동차 이상 증상 문의 텍스트 수집약 750명이 데이터 수집에 참여
미작동
자동차 유리창이 닫히지 않습니다.
시각
주행중인 차에서 ESP 경고등이 뜨네요.
청각
시속 50km 정도로 주행 시 차체에서 깡통소리 비슷한 소음이 발생됩니다.
촉각
공회전 및 차량 정차 시 차체가 심하게 떨립니다.
후각
에어컨 키면 퀴퀴한 냄새가 나요
이렇게 증상에 대한 class를 세부화함으로써 한쪽으로 치우지는 편향성을 최소화하고 고객사가 원하는 퀄리티의 데이터를 구축할 수 있었습니다.
From Model-centrci to Data-centric AI
위에서 언급한 노력들을 바탕으로 우리는 ‘좋은 데이터’를 얻어 냅니다.
데이터 품질은 설립 초기부터 셀렉트스타의 핵심 코어였습니다.
어떻게 데이터를 구축하고 파이프라인을 통한 최신화와 고도화하는 전략이 AI Flywheel의 Key입니다. Data-centric AI 관점에서 정확하고 일관된 양질의 학습데이터는 가장 높은 가치이며, 가장 중요한 것 입니다.
AI 시장의 가장 큰 병목이라고 할 수 있는 학습 데이터 시장을 셀렉트스타의 기술 통해 혁신 하고자 합니다.
데이터는 셀렉트스타!
Share article