AI 전문 기업이 말하는 'AI 학습 데이터 구축' 노하우

AI 학습 데이터는 인공지능의 뇌와 같습니다. 데이터를 올바르게 수집하고 구축하는 일은 AI 개발을 위한 첫 단추인 셈이죠.
Jan 12, 2024
AI 전문 기업이 말하는 'AI 학습 데이터 구축' 노하우

⏳5min

AI 학습 데이터는 인공지능을 위한 필수 영양소와 같습니다. 사람의 성장과 학습을 위해 필수 영양소 공급이 중요한 것처럼, 인공지능 역시 모델에 적합한 양질의 데이터를 공급받아야 제 성능을 발휘할 수 있습니다. AI는 데이터에서 패턴을 학습하고 추론하여 문제를 해결하기 때문에, AI 학습 데이터의 품질이 좋을수록 AI는 현실 세계에서 다양한 상황에 대응할 수 있게 됩니다. 반대로 유의미한 데이터가 없거나 제대로 구축하지 못해 학습 데이터 품질이 낮을 경우, AI 성능도 그에 비례하여 함께 낮아집니다. 데이터를 다루는 업계라면 다들 알고 계실 ‘GIGO(garbage in, garbage out)라는 말처럼, 쓰레기를 넣은 곳에는 쓰레기가 나오기 마련이니까요.

만약 기업에서 보유한 데이터가 부족해 AI 개발 결과가 나쁠 것이 분명한 상황이라면, AI 개발 프로젝트를 진행할 수 있을까요? AI를 내 사업에 적용하고 싶은 사람도, AI 프로젝트를 통해 성과를 내고 싶은 실력 있는 기업도 모두 원치 않을 일입니다. 결국 데이터를 올바르게 수집하고 구축하는 일은 AI 개발을 위한 첫 단추인 셈이죠. 그렇다면 좋은 데이터란 무엇이고, 이를 구축하기 위해서는 어떻게 해야 할까요?

1. 좋은 데이터란?

ai 학습 데이터 품질 측정 기준.webp

AI 학습 데이터 품질을 측정하고 평가하기 위한 7가지 기준은 ‘완전성, 고유성, 유효성, 적시성, 정확성, 일관성, 목적에 대한 적합성’입니다. 각각 어떤 의미인지 쉽고 간단하게 알아볼까요?

- 완전성: 누락된 값 없이 필요한 정보를 담고 있는가?

- 고유성: 중복되지 않는 고유한 값인가?

- 유효성: 데이터가 정의된 형식과 규칙을 따르고 있는가?

- 적시성: 데이터가 실시간으로 업데이트되고 있는가?

- 정확성: 데이터가 사실과 얼마나 일치하는가?

- 일관성: 데이터 간에 서로 모순되지 않고 일치하는가?

- 목적에 대한 적합성: 데이터가 특정 사용 목적에 얼마나 적합한가?

예를 들어, 날씨를 예측하는 AI를 만들어 사람들에게 정확한 날씨 예보 서비스를 제공해야 한다고 가정해 보겠습니다. 매일, 매시간 누락 없이 규칙적으로, 정확히 기록한 날씨 데이터일수록 예측에 도움이 되겠죠? 지역이나 시간 데이터가 중복되거나 측정값이 서로 상충하여서도 안 될 것입니다. 실시간 데이터를 계속해서 전달받아 업데이트하는 것도 정확한 날씨를 전달하는 데 필요한 일일 테고요.

그 외에 데이터양이 충분한지, 데이터 다양성을 갖추었는지도 중요한 요소입니다. 여기서 데이터 다양성이란 데이터 유형과 출처의 다양성이라고 말씀드릴 수 있는데요. 전자 기기나 플랫폼, 센서 등 여러 출처를 통해 수집하거나, 온도, 습도, 풍속 등 다양한 속성의 변수를 가진 데이터를 수집하는 것 등을 의미합니다. AI를 통해 해결하고자 하는 문제의 다양한 케이스를 커버할 수 있도록, 특정 유형이나 속성에 국한되지 않고 다양한 측면에서 데이터를 확보하기 위함입니다.

2. 좋은 데이터, 어떻게 구축할 수 있을까?

ai 학습 데이터 구축 프로세스.webp

그렇다면 좋은 데이터를 구축하기 위해서는 어떻게 해야 할까요? 데이터 구축 시 고려해야 할 사항과 함께, 데이터 구축 프로세스에 관하여 알아보겠습니다.

1️⃣ 목표 설정 및 데이터 수집 계획 수립

먼저 인공지능을 통해 해결하고자 하는 문제나 달성하고자 하는 목표를 명확하게 정의해야 합니다. 그리고 문제 해결 및 목표 달성을 위해 어떤 종류의 학습용 데이터가 필요한지 정의합니다. 이후 어디서 데이터를 수집할 것인지, 어떤 방법을 사용할 것인지, 어느정도 규모의 데이터를 획득해야 하는지, 시간 및 비용은 얼마나 들일지 등을 종합적으로 고려하여 계획을 수립합니다.

2️⃣ 데이터 수집

정해진 계획에 따라 텍스트, 이미지, 음성 등의 RAW(원시) 데이터를 수집합니다. 데이터가 없는 경우에는 크라우드 소싱*을 활용해 수집하거나 데이터를 합성하여 신규 데이터를 직접 생산할 수도 있습니다. 이미 조직이나 시스템 내에 기존 데이터를 보유하고 있는 경우에는 보완 및 통합, 재가공을 거쳐 데이터를 얻습니다.

*크라우드 소싱: 대중을 의미하는 ‘크라우드’와 ‘아웃소싱’의 합성어로, 클라우드 기술과 서비스를 사용해 기업 활동의 일부 과정에 대중을 참여시키는 아웃소싱 방식을 의미합니다.

3️⃣ 데이터 정제 

중복된 데이터를 제거하고 데이터 크기와 형식을 맞춥니다. 예를 들면, 숫자 형식의 데이터만 필요한 경우 문자 형식의 데이터는 걸러내야 합니다. 그 외에 개인정보 비식별 처리 등의 과정을 거쳐 원천 데이터(Source Data)를 확보합니다.

4️⃣ 데이터 라벨링

정제 과정이 끝나면 이제 데이터 라벨링을 진행할 수 있습니다. 데이터 라벨링이란, AI 모델 학습에 활용할 수 있도록 데이터에 기능과 목적에 맞는 라벨(주석)을 표시하는 과정입니다. 예를 들어, 상품의 리뷰가 긍정적인지 부정적인지를 자동 분류하는 AI를 학습시키고자 할 경우, 학습 데이터인 텍스트(리뷰)에 각 텍스트가 긍정적인지, 부정적인지 구분하는 라벨을 붙일 수 있습니다.

5️⃣ 데이터 검수

데이터 라벨링을 진행한 후 라벨링 작업 결과물을 검수하는 과정입니다. 이 과정을 거쳐 데이터의 정확도를 확보할 수 있습니다. AI 오토레이블링 기능을 보유하고 있다면 이를 활용해 일차적 검수를 진행할 수 있지만, 이 경우에도 최종적으로는 사람의 검수가 필요합니다.

6️⃣ 데이터 학습

학습데이터셋(원천 데이터와 라벨링 데이터의 묶음)을 이용하여 인공지능 알고리즘을 학습시킵니다. 이 과정에서 품질 이슈가 발생하는지 확인하고, 모델 성능 향상과 보정을 위한 활동을 수행합니다. 이 과정에서 발생한 피드백을 데이터 수집 과정에 반영할 수 있습니다. 

AI 학습 데이터, 믿을만한 아웃소싱 업체 찾는 방법(체크리스트)

하지만 조직 내에 이러한 과정을 전문적으로 수행할 리소스를 마련하는 것은 어려운 일입니다. 비용도 많이 드는 데다가, 데이터 구축 과정에서 유의할 사항을 살펴봤듯이 전문성과 노하우가 필요한 일이기 때문이죠. 데이터 조직이 있다고 하더라도 맡고 있는 모든 프로젝트를 전부 커버하기 어려울 수도 있습니다. 이런 경우, 데이터 구축 전문 업체를 통해 아웃소싱을 맡겨야 하는데요.

AI 학습 데이터를 구축해 줄 믿을만한 업체를 찾으려면 어떻게 해야 할까요? 아래 다섯 가지의 체크리스트📑를 참고해 보세요.

1. 다양한 분야의 데이터 가공 레퍼런스를 확인할 수 있는가?

2. 인력 관리, 데이터 품질 등 책임감 있는 프로젝트 관리가 가능한가?

3. 맞춤형 데이터 구축이 가능한가?

4. AI 학습 데이터 관리 노하우를 보유하고 있는가?

5. 데이터 전문가들과 실시간으로 소통할 수 있는가?

혹시 업체를 찾고 선별해 미팅까지 진행하는 일이 너무 번거롭고 힘들게 느껴지시나요? 혹은 데이터 구축 업체, AI 모델 개발 업체, SI 아웃소싱 업체까지 한 번에 해결할 수 있는 효율적인 방법을 찾으시나요?

AI 히어로즈에서는 데이터 구축부터 AI 및 SI 아웃소싱 업체 매칭까지 모든 과정을 해결할 수 있는 원스톱 서비스를 제공하고 있습니다. 내부에 많은 레퍼런스와 노하우를 보유한 데이터 전문 조직 및 인력을 보유하고 있으며, 1,200개사 이상의 AI 기술 기업과의 파트너십을 맺고 있습니다. 또한  950건 이상의 IT 프로젝트 매니징 경험을 갖춘 전문 매니저가 직접 SI 컨설팅 서비스 및 매칭 서비스를 제공합니다. 

참고하실 수 있도록, AI 히어로즈가 보유한 데이터 구축 레퍼런스 몇 가지와 고객사 인터뷰 일부를 소개합니다.

데이터 구축 레퍼런스 및 고객사 인터뷰

1️⃣ 전기차 충전소 추천 예측 알고리즘 고도화를 위한 데이터 구축 (T사)

전기차 충전소 종류 및 충전소 정보(장소, 요금 등) 40,000개의 데이터셋을 구축했습니다. 예측 알고리즘 서비스에 용이한 라벨 선정 논의를 통해 상세 데이터를 정의했고, 데이터셋의 분할 납품으로 알고리즘 성능 고도화 및 일정 관리 효율성을 제고했습니다.

2️⃣ 아동 음성인식 데이터 구축 (K사)

6세~11세 아동의 음성 데이터 50,000건을 연령, 성별 별로 동일한 비율로 수집하였습니다. 다양한 상황에 대응하기 위하여 아이들의 실제 생활 환경에 따라 구분된 음성 데이터를 수집함은 물론, 6세~11세의 아동이 높은 빈도로 사용하는 문장 표현 스크립트로 고품질 음성데이터를 수집했습니다.

3️⃣ 신분증 위조 판독을 위한 안면 및 신분증 이미지 수집 (I사)

개인정보 활용에 동의한 1,000명의 안면 이미지를 각각 9개 각도에서 수집했습니다. 상업적으로 활용할 수 있는 안면 및 신분증 데이터 구축을 위해, 개인정보 활용 동의 취득 절차와 데이터 납품 후 전량 폐기 절차를 거쳤습니다. 또한 표정, 액세서리 등 다양한 변수에 대응할 수 있도록 시나리오를 추가하여 데이터 구축을 진행하였습니다.

“전문 담당 매니저가 작업 시 발생하는 돌발 상황에도 빠른 회신을 주시고, 함께 논의함으로써 만족스러운 데이터를 받아볼 수 있었습니다."

:데이터 수집과 가공에 대한 이해도가 높고, 고객 입장에서 이해하는 폭이 넓어 만족스러웠습니다."

"다양한 데이터 수집 레퍼런스와 데이터 수집 상황에 대한 데이터 구축 시나리오들 역시 매력적이었습니다.”

-고객사 L사 인터뷰


실패 없이 성공적인 AI 개발·도입을 원하신다면,
하단의
1분 간편 문의하기로 문의해 주시면
24시간 내로 회신 드리겠습니다.

Share article

AI히어로즈 - 팀블로그