데이터셋 구축 성공 사례 - Tunib '한국어 혐오표현 분류(탐지) 데이터셋

셀렉트스타와 함께 구축한 한국어 혐오 탐지 데이터셋은 자연어처리(NLP) 기반 AI 스타트업 튜닙과 숭실대 공동 연구팀이 작성한 논문 “K-HATERS: A Hate Speech Detection Corpus in Korean with Target-Specific and Fine-Grained Offensiveness Ratings” 이 자연어처리 분야 최고 저명 학술대회 EMNLP 2023 Findings 에 게재되었습니다.
Oct 31, 2023
데이터셋 구축 성공 사례 - Tunib '한국어 혐오표현 분류(탐지) 데이터셋

좋은 #인공지능 은 좋은 #데이터 에서 비롯됩니다.

튜닙, 휴메인랩에서 제공한 50만 건 중, 20만 건에 대해 오픈데이터셋으로 공개, 셀렉트스타에서 10만 건 정도를 선별하여 발표했습니다.

윤리적으로 문제가 되는 혐오 발화를 분류하여 문장의 윤리성을 판별하는 한국어 혐오 발화 데이터셋은 23년 오픈데이터셋으로 공개되었으며, 셀렉트스타가 주최한 #인공지능 데이터셋 지원사업의 일환으로 튜닙, HUMANE Lab과 협업하여 무료로 구축하였습니다.

2023년 10월 데이터셋 연구는 “K-HATERS: A Hate Speech Detection Corpus in Korean with Target-Specific and Fine-Grained Offensiveness Ratings” 이 자연어처리 분야 최고 저명 학술대회 EMNLP 2023 Findings 에 게재된다고 발표되어 더욱더 뜻 깊은 협업 사례가 되었습니다.

[이데일리 '튜닙·숭실대, 혐오 발언 데이터셋 연구 EMNLP 논문 승인' 참고 23.10.24]


튜닙은 어떤 인공지능을 만드는 회사인가요?

튜닙은 사람과 교감을 나누는 글로벌 AI 챗봇을 만듭니다. 현재 #Dearmate 라는 이름의 #챗봇 서비스를 운영중이며, 100개가 넘는 페르소나의 챗봇들을 서비스하고 있습니다.

튜닙 AI 엔지니어 김수환님

어떤 데이터셋을 제안해 주셨나요?

비윤리 텍스트를 검출하기 위한 데이터셋을 제안했습니다. 최근 인터넷 채팅 혹은 댓글들을 보게 되면 상당히 많은 혐오 표현들을 볼 수 있는데, 이러한 텍스트에 대해 검출하기 위한 데이터셋이라고 보시면 될 것 같습니다. 좀 더 자세히 설명하자면 혐오 표현을 어떤 혐오냐에 따라 구분할수가 있는데 저희는 욕설, 모욕, 연령 차별, 성 혐오, 외설 등 11개의 카테고리로 구분을 했습니다. 또한 표현이란게 문맥에 따라서 혐오표현일수도 있고 아닐수도 있는 경우가 있어서 이런 경우를 고려해서 혐오 표현 없음, 혐오 표현 주의, 혐오 표현 명백 이렇게 3단계로 구분한 데이터셋을 제안했습니다.

셀렉트스타의 데이터셋 지원사업은 어떻게 알게 되셨나요?

저희가 데이터셋 구축의 필요성에 대해 절실히 느끼고 있었는데, 마침 SNS에 홍보된 셀렉트스타 데이터셋 지원사업 홍보글을 보게 됐습니다. 선정만 된다면 아주 좋은 기회라고 생각하고 신청하게 됐습니다.

알고 계시는 범위 내에서 셀렉트스타는 어떤 기업인지 설명 부탁드릴게요.

데이터셋 구축을 전문으로 하는 스타트업이라고 알고 있고, KorQUAD 2, KLUE, 그리고 저희 데이터셋 등 이미 많은 영향력 있는 데이터셋들을 구축한 경험을 가진 기업으로 알고 있습니다. 이러한 성과로 저희 데이터셋을 비롯해서 셀렉트스타에서 만든 여러 데이터셋들이 글로벌 학회에 논문이 여럿 게재됐고, 그만큼 공신력이 있는 데이터 기업이라고 생각합니다.

같이 일하면서 좋았던 점은 무엇인가요?

아무래도 저희 데이터셋이 레이블링하기 까다로운 데이터셋이여서, 레이블링 기준에 대해서 확실히 잡고 가는게 중요했는데, 너무 많은 케이스의 사례들이 있다보니 레이블링 기준을 글 만으로 정의하기는 어려웠습니다. 그래서 레이블링한 데이터에 대해 피드백을 주고 받으며 저희와 작업자들간의 기준을 맞추는게 중요했는데, 이런 부분에서 셀렉트스타에서 굉장히 잘해줬습니다. 프로젝트 초반에 미팅을 자주 하며 여태까지 레이블링한 데이터에 대해 의견을 나누고 이후 작업에 대해 해당 의견들을 반영해가며 프로젝트가 진행됐는데, 이런 과정이 있었기 때문에 좋은 결과물이 나왔다고 생각합니다.

한국어 혐오표현 분류(탐지) 데이터셋을 활용하여 개발하신 인공지능이 있으신가요? 시연이 가능한지요?

네. 저희는 현재 해당 데이터셋을 이용해서 Safety Check라는 이름의 비윤리 탐지 API 서비스를 운영중이며 저희 Dearmate 웹데모 페이지에서 ‘혐오측정봇'이라는 이름으로 누구나 사용해보실 수 있습니다.

https://www.dearmate.ai/

이 데이터셋을 사용하려는 개발자/꿈나무/사용자들에게 한 말씀 부탁드려요.

일반적으로 이런 혐오 표현 관련 데이터셋들은 Binary 분류인 경우가 많은데, 저희 데이터셋은 멀티 클래스 문제여서 아무래도 더 고려하고 고민할게 많습니다. 이런 부분에 대해 고민해보고 개선해보는 시간이 실력에 많은 도움이 될 거라 생각합니다.

🎬 Tunib 고객사 후기 유튜브 영상 보기 👉🏻 https://youtu.be/LaTEyLV_LSc

#셀렉트스타 #AI모델 #이미지생성모델 #AI사업 #데이터수집 #AI시대 #한국어데이터셋 #데이터윤리 #성공사례 #AI성공사례 #인공지능 #데이터 #튜닙 #자연어처리 #테크스타트업 #Dearmate #챗봇 #이미지생성모델 #데이터셋지원사업 #비윤리텍스트 #혐오표현 #AI성공사례 #성공사례 #휴메인랩

셀렉트스타는 더욱 스마트한 인공지능을 위한 고품질 학습 데이터를 제공합니다.

Share article

셀렉트스타(주) 블로그