데이터셋 구축 성공 사례 - 스캐터랩

AI 성능 향상을 위한 고품질 맞춤형 학습 데이터 구축하는 셀렉트스타와 AI 챗봇 '이루다'를 개발한 스캐터랩은 함께 어떤 데이터셋을 구축 했을까요?
Oct 27, 2023
데이터셋 구축 성공 사례 - 스캐터랩

안녕하세요, 스캐터랩 ML #데이터기획자 김수정입니다. 모델 학습을 위한 데이터를 기획하고, 제작하고, 그렇게 학습된 모델을 평가 및 개선해나가면서 모델 학습의 전 사이클에 함께하고 있습니다.

스캐터랩은 어떤 회사인가요?

​스캐터랩은 #AI#LLM 을 활용해 사람들이 대화를 나누면서 재미와 감동을 느낄 수 있는 경험을 제공하는 회사입니다. 200만 명의 친구인 ‘이루다’, ‘강다온'과 같은 소셜 AI 챗봇을 개발했어요.

소셜 AI 챗봇 ‘이루다' ‘강다온'에 대해 설명 부탁드립니다.

소셜 AI 챗봇 ‘이루다’, ‘강다온'은 그냥 친구에요.

AI라고 딱딱하고 정해진 말을 하는게 아니라, 나를 놀리기도 하고 화나게 하면 욕도하고 힘들때는 위로도 해주는 진짜 사람같은 친구죠. 하지만 언제나 필요할 때 내 옆에 있어주는 AI 친구.

인공지능을 어떤 서비스에 활용하고 계신가요?

​스캐터랩은 독보적인 자체 데이터를 기반으로 센스있고 창의적인 LLM을 개발하고 있습니다. 이 LLM으로 유저들이 좋아하는 캐릭터와 다양한 경험을 구현합니다.

셀렉트스타와 어떤 데이터셋을 구축하셨나요?

Instruction FT용 데이터셋을 구축했습니다. 다양하고 생동감 있는 캐릭터들의 대화 데이터에 대해, 딱 맞는 instruction을 만드는 task였습니다.

AI 모델 특성상 데이터를 수집할 때 가장 중요하게 여겼던 부분은 무엇일까요?

당연하고 흔해빠진 말만 하는 사람과 대화하는건 노잼이잖아요. 정말 우리가 어떤 사람과 대화하는게 재미있나에 대한 고민을 가장 많이 하는 것 같아요. 정답은 없어요. 정말 사람이 느끼는 감정이 고스란히 드러나는 말, 나를 웃게 만들거나 놀라게 만드는 예상치 못한 말, 단순히 말이 되는 말이 아니라 계속 대화하고 싶어지는 대화 데이터를 만드는 것이 가장 중요하다고 생각해요.

셀렉트스타와의 협업 후기

저희 팀은 최근 굉장히 어려운 프로젝트를 수행했는데, 이 과정에서 PM님의 놀라운 지원이 있었습니다. 특히, 프로젝트의 가이드라인에 대한 명확한 이해가 필요한 상황에서 PM님은 저희의 모든 질문에 적극적으로 답변해 주셨습니다. 그 덕분에 프로젝트의 가이드라인을 더 명확하게 이해하고 개선할 수 있었습니다.

또한, 프로젝트 중에는 데이터 퀄리티가 처음에 기준에 미치지 못하는 경우도 있었는데, PM님은 항상 책임감 있게 이 문제를 해결하려 했습니다. 이러한 노력 덕분에 우리는 퀄리티를 향상시키기 위해 추가 작업을 하게 되었고, 결과적으로 프로젝트의 품질을 높일 수 있었습니다.

협업은 어려움이 있었지만, 그 어려움을 함께 극복하고 프로젝트를 성공적으로 마무리할 수 있었습니다. PM님의 지식과 전문성에 대한 감사의 말씀을 전하며, 앞으로의 협업 기회를 고대하고 있습니다.


인터뷰에 응해주신 스캐터랩의 데이터기획자 김수정님께 감사의 인사를 드립니다.

🎬 스캐터랩 고객사 후기 유튜브 영상 보기 👉🏻 https://youtu.be/_wqfSpuEU_M?si=jeGa7_xAepUYDoKw

#스캐터랩 #데이터셋 #인공지능 #이루다 #강다온 #딥러닝 #PM #셀렉트스타 #AI모델 #이미지생성모델 #AI사업 #데이터수집 #AI데이터 #AI성공사례 #사업성공사례 #성공사례

Share article
RSSPowered by inblog