위조상품 잡는 AI: 마크비전
온라인에서 전동칫솔을 구매했으나 가품을 배송받은 한 소비자의 경험에서 시작한 마크비전은 2020년 셀렉트스타가 주관하는 데이터 지원사업에 문을 두드렸습니다. 해당 프로젝트는 머신러닝을 활용하여 그간 수동으로 진행되어왔던 위조상품의 포착, 신고, 분석을 자동화하고, 적발에 소비되는 인력, 시간, 비용을 단축하기 위해 시작되었습니다.
May 30, 2022
10분 안에 이런 걸 얻을 수 있어요.
- 셀렉트스타만의 데이터셋 구축 솔루션
- 프로젝트의 진행 프로세스와 문제 해결 과정
- 오픈데이터셋 다운로드
** 오픈데이터셋은 AI 업계의 건강한 발전을 위해 셀렉트스타에서 자체 진행하는 무료 데이터셋 지원 사업입니다.
스마트한 위조품 적발
인터넷 쇼핑을 하다보면 진품으로 위장한 가품을 발견하곤 합니다.
진품을 만든 원작자들의 지적, 그리고 물리적 재산을 모두 침해하는 가품은 소비자로서 피하고 싶은 존재입니다. 온라인에서 전동칫솔을 구매했으나 가품을 배송받은 한 소비자의 경험에서 시작한 마크비전은 2020년 셀렉트스타가 주관하는 데이터 지원사업에 문을 두드렸습니다. 해당 프로젝트는 머신러닝을 활용하여 그간 수동으로 진행되어왔던 위조상품의 포착, 신고, 분석을 자동화하고, 적발에 소비되는 인력, 시간, 비용을 단축하기 위해 시작되었습니다.
데이터셋 스펙
데이터셋 구축 목적
인공지능(AI)을 기반으로 온라인몰 위조 상품 모니터링
수량
총 5개의 카테고리(set)
가방 9,003
신발 8,758
의류 10,370
식음료 8,726
선글라스 5,038
사진 + json = 총 41,895set ( 41895 * 2 = 83,790 파일)
데이터 수집 및 가공 방법
- 10개의 카테고리에 해당되는 각각의 브랜드에 대하여 상품 리스트 크롤링
- 수집된 리스트에 대한 data 전처리
- 각각의 상품명당 6장씩 이미지 캐시미션을 통하여 수집
- 수집된 이미지에 대하여 bbox를 위한 전처리
- 수집된 이미지에 대하여 상품명과 일치하는 상품 이미지에 대하여 bbox
- 수집된 이미지에 대하여 카테고리가 일치하는 상품 이미지에 대하여 bbox
- 수집된 이미지에 대하여 카테고리가 다른 상품 이미지에 대하여 bboxd
셀렉트스타는 더욱 효율적이고 정확한 위조품 모니터링 자동화를 위한 크롤링 작업과 데이터 수집 및 가공에 대한 프로세스를 설계하였습니다. 또한 꼼꼼한 데이터 전처리와 후처리를 통해 셀렉트스타의 모바일 크라우드소싱 플랫폼인 캐시미션에 런칭함으로써 보다 빠르게 데이터 가공 작업을 진행했습니다.
데이터셋은 어떻게 구축했을까?
인공지능(AI)을 기반으로 온라인몰의 위조 상품을 모니터링하는 솔루션을 제공하기 위해서는 다양한 상품의 무수한 이미지가 필요했습니다. AI 모델은 정확하게 레이블링 된 데이터가 많을수록 성능이 뛰어나기 때문입니다.
셀렉트스타는 더욱 효율적이고 정확한 위조품 모니터링 자동화를 위한 크롤링 작업과 데이터 수집 및 가공에 대한 프로세스를 설계하였습니다. 또한 꼼꼼한 데이터 전처리와 후처리를 통해 셀렉트스타의 모바일 크라우드소싱 플랫폼인 캐시미션에 런칭하여 보다 빠르게 데이터를 가공할 수 있었습니다.
캐시미션에서 런칭한 작업은 총 세가지였습니다:
- 상품 이미지 수집하기
- 수집된 이미지에 박스를 그리고 레이블링하기
- 레이블링 된 박스를 검사하기
셀렉트스타가 유독 정확하고 일관된 데이터를 수집하고 가공할 수 있는 이유에는 기술 뿐만이 아니라, 작업자에게 최대한 상세하고 정확한 가이드라인 제공을 전문으로 하는 <유저 가이드팀>이 있기 때문입니다.
더욱 스마트한 위조 상품 모니터링을 위한 양질의 데이터를 제공하기 위해 어떤 가이드를 제공하였는지 함께 확인해볼까요?
가이드를 읽고, 모든 작업자는 내용을 얼만큼 제대로 숙지했는지 확인받기 위해 시험을 통과해야만 합니다. 가끔 통과 기준이 너무 높아 속상해하시는 분들도 계셔서 안타깝지만, 데이터 품질을 위해서는 셀렉트스타가 포기할 수 없는 부분입니다.
수집된 이미지는 이렇게 <박스 검사하기> 작업을 통한 1차 검수에 들어갑니다.
고성능의 인공지능 교육을 위해서는, 학습 데이터의 일관성 또한 매우 중요합니다. 기준에 부합한 일관적인 다량의 데이터를 제공하기 위해, 셀렉트스타는 고객사에게 데이터를 전달하기 전에 다양한 방식으로 모든 데이터를 꼼꼼하게 확인하며 최종 검수를 진행합니다.
축적되는 데이터를 자체적으로 학습하는 인공지능 기술을 활용한 마크비전은 기존에 사람이 수동으로 진행하던 위조 상품 포착, 신고, 분석하는 전 과정을 자동화하였습니다. 딥러닝 기반의 이미지 인식, 머신러닝 기반의 데이터 분석, 로봇 신고 프로세스 자동화 등 자체 개발한 기술이 적용된 자동화 시스템은 소요되는 시간 및 비용을 극대화 하였습니다. 덕분에 건당 적발 비용이 수작업의 50분의 1 수준으로 떨어졌으며, 위조 상품 적발에 들어가는 시간 또한 30분의 1 수준으로 줄었습니다.
마크비전은 아마존·이베이(미국), 알리바바·타오바오(중국), 쿠팡·네이버(한국) 등 10개국 25개 업체와 연계해 위조상품을 모니터링하고 있으며 생활의 편리함을 넘어, 사회적인 문제에도 선한 영향력을 미치고 있습니다.
더 자세한 가이드가 궁금하다면?
고퀄리티의 데이터, 압도적인 정확도
마크비전 권욱진 AI팀 팀장
데이터의 품질이 매우 우수합니다. 다른 업체와도 동일한 프로젝트를 진행했었으나, 셀렉트스타는 에러가 있는 데이터의 비율이 타 업체의 1/10도 되지 않는 것 같습니다. 또한 작업 timeline 설정 및 이에 맞춘 작업 실행이 우수합니다. 셀렉트스타 측에서 데이터 작업에 대한 타임라인을 저희 니즈를 반영하여 설정하였고, 그 타임라인에 최대한 맞춰서 데이터를 제공해 주었습니다. 타 업체는 계속해서 납품일을 미뤘는데 셀렉트스타는 이를 잘 지켜주어 AI model을 개발 일정을 설정하는 데 도움이 많이 되었습니다. 마지막으로, 커뮤니케이션이 우수합니다. 궁금한 사항을 다양한 메신저로 문의할 수 있고 항상 빠르게 답변을 주어 좋았습니다.
인터뷰
Open Datasets for Data-Centric AI
위 데이터셋은 셀렉트스타 ‘OPEN DATASETS’를 통해 무료로 다운받으실 수 있습니다.
AI 산업의 발전을 위해 셀렉트스타가 무료로 데이터셋을 제공합니다.
Share article