자연스러운 음성 AI를 만들기 위해 연구하는 기업 자이냅스

다국어로 대응 가능한 음성 AI 연구에 몰두하고 계시는 이충호 연구원님과, AI 연구원으로서의 목표와 자질에 관한 이야기를 나눠보았습니다.
Jun 22, 2023
자연스러운 음성 AI를 만들기 위해 연구하는 기업 자이냅스
Contents
👨‍💼자기소개Q) 간단한 자기소개와 맡고 계신 업무에 관해 설명 부탁드립니다.Q) 팀 혹은 본인의 업무 일과를 들어볼 수 있을까요?🗣️HYPERREAL VOICE, 맞춤 음성을 생성하기 위한 최적의 서비스Q) 개발 및 연구하고 계신 음성 AI 기술 및 솔루션에 대해 설명 부탁 드립니다.Q) 가장 인상 깊었던 프로젝트 위주로 솔루션 활용 사례를 들어볼 수 있을까요?Q) 자이냅스만의 음성 합성 AI 솔루션의 장점, 차별점은 무엇이라고 생각하시나요?Q) 솔루션을 특별히 추천하는 고객 및 서비스가 있으실까요?Q) 자이냅스의 강점을 반영한 추가 서비스 사례가 궁금합니다.Q) 솔루션을 200% 활용하는 방법이 있을지 궁금합니다.🔎AI 연구, 한계 극복을 위한 끊임없는 탐구 필요Q) AI 개발, 연구에 있어 힘든 점과 극복 방법에 대해 알고 싶습니다.Q) 그럼 반대로 일하시면서 즐겁거나 보람 있었던 경험이 있다면 말씀 부탁드립니다.Q) AI 연구원으로서 전문성, 혹은 역량 개발을 위해서는 어떤 노력이 필요할까요?Q) 평소 AI 기술 트렌드를 파악하거나 공부하시는 데 있어 특별한 노하우가 있을까요?❤️‍🔥고객 지향 AI라는 목표를 향한 열정Q) 직무를 꿈꾸신 계기나, 직업을 선택하면서 닮고 싶은 롤모델이 있으셨나요?Q) AI 연구원을 희망하는 분들에 대해 조언해 주실 점이 있다면 무엇일까요?Q) 마지막으로 AI 연구원으로서, 자이냅스의 AI 연구가 세상에 가져올 변화와 역할에 대해 말씀 부탁드립니다.

적은 데이터양으로도 자연스럽고 안정적인 목소리를 만들기 위해, Voice Cloning 음성 합성 기술을 접목한 음성 AI 솔루션을 개발 중인 자이냅스 기업부설 연구소.

이충호 연구원님은 다국어로 대응 가능한 모델 및 시스템을 위해 음성 AI 연구에 몰두하고 계시는데요.

음성 AI를 통해 새로운 경험을 선사하기 위해 노력해 오신 이충호 연구원님과, AI 연구원으로서의 목표와 자질에 관한 이야기를 나눠보았습니다. 

👨‍💼자기소개

Q) 간단한 자기소개와 맡고 계신 업무에 관해 설명 부탁드립니다.

녕하세요, 주식회사 자이냅스 기업부설 연구소의 연구원 이충호입니다. 저는 연구소 팀에서 음성 AI를 연구하는 일을 맡고 있습니다. 자이냅스에서는 적은 양의 음성 데이터를 활용하여 AI 모델을 학습 시키고, 대상 화자의 목소리로 원하는 문장의 발화가 가능하게 하는 Voice Cloning 음성 합성 기술을 보유하고 있습니다. 현재 저는 이러한 Voice Cloning 음성 합성을 영어, 프랑스어, 스페인어, 일본어, 중국어 등의 다양한 언어로도 음성 발화 할 수 있게 모델을 만드는 연구 중입니다. 이를 위해 시스템을 확장 및 데이터 확충 등의 업무를 하고 있습니다.

적은 데이터 양으로도 학습이 가능한 음성 합성 AI 모델을 만들기 위해서는 어떠한 언어의 문장을 음소 단위로 쪼개어 변환하는 기술이 필요합니다. 이러한 음성 변환 처리 프로세스를 개발하고, 각 프로세스가 모델에 어떠한 영향을 끼치게 되는지에 대한 연구를 담당하는 것이 저의 역할 중 하나 입니다. 최근에는 서비스를 운영하며 마주하는 다양한 고객들의 요구나, 품질에 관한 이슈들을 개선하기 위한 연구도 하고 있습니다. 일반적인 음성 합성 모델은 추론 속도, 긴 문장에서 발화의 안정성, 발화 스타일, 속도 조절 등에 관한 이슈가 발생하게 되는데요. 이러한 이슈들을 해결하여 더 자연스럽고, 빠르고, 안정적인 음성의 생성이 가능하도록, 음성 데이터와 모델 구조 개선에 관한 연구를 진행하고 있습니다.

Q) 팀 혹은 본인의 업무 일과를 들어볼 수 있을까요?

팀원들 개개인에게 각각 한 분야의 AI 모델 연구 과제가 할당되어 있는데요. 저는 다국어에 대응할 수 있는 시스템을 연구하고 있고, 노래하는 싱잉 보이스를 생성하는 모델을 연구하는 팀원도 있습니다. 모델 종류와 분야가 다르지만, 공통적으로 음성을 다루기 때문에, 각자 진행하고 있는 연구과제의 진행 상황을 공유하는 세미나를 일주일에 한 번씩 갖고 있습니다. 이때 진행하고 있는 연구의 팔로우업 목적과 논문 트렌드, AI 신기술 등의 트렌드 정보도 공유하고는 합니다.

또한 저희 기업부설 연구소는, 데이터 매니저분들과 긴밀히 협업 관계를 구축하고 있는데요. 매니저 분들의 피드백을 수용하여 데이터셋 구축 프로세스를 기획하고 관리하는 업무도 일과에 포함되어 있습니다. 또한 AI 사업부 및 서비스개발부의 프로젝트 매니저분들에게서 AI 모델에 관한 이슈나, 새로운 기능에 대한 요청을 전달받아, 이를 AI 모델의 연구개발에 반영하여 연구를 진행하고 있습니다.

🗣️HYPERREAL VOICE, 맞춤 음성을 생성하기 위한 최적의 서비스

자이냅스 TTS 모델 설명

자이냅스의 TTS 모델에 대해 설명하는 이충호 연구원

Q) 개발 및 연구하고 계신 음성 AI 기술 및 솔루션에 대해 설명 부탁 드립니다.

음성 합성 AI 기술 중에, 원하는 텍스트 문장을 음성으로 생성하는 기술을 보편적으로 Text-To-Speech, TTS라고 부릅니다. 이러한 TTS 기술은 사람이 직접 녹음하지 않고도 원하는 음성을 제공해 줌으로써 사람들이 편리하게 음성을 생성하여 생활에 사용할 수 있게 도와줍니다. 그렇게 고객들이 원하는 목소리로 새로운 AI 모델을 만들어서 개인화된 TTS 모델을 제공하는 것이 저희 솔루션의 특징입니다. 더 나아가서 자이냅스에서는 5~10분 정도의 적은 양의 음성으로도, 자연스럽게 해당 화자의 음성을 생성할 수 있는 TTS 기술인 Voice Cloning 기술을 접목한 음성 AI 솔루션을 개발하였습니다.

이러한 Voice Cloning 기술은 사용되는 학습 데이터 대비 발화의 자연스러움에 있어서는 상당히 발전된 모델이라고 할 수는 있으나, 아직은 다양한 스타일의 문장에 대해서 생성된 음성 발화의 자연스러움과 안정성을 개선해 나아가는 연구개발이 필요합니다. 따라서 저희는 발화 안정성을 위해 TTS 모델 구조의 개선을 연구하고 있으며, 화자의 발화 특성(감성, 스타일)을 정교하게 재현할 수 있도록 모델 및 데이터를 개선하는 연구를 진행하고 있습니다. 또한 TTS 모델의 수요가 다각화되고 있기에, 영어, 프랑스어, 스페인어, 일본어, 중국어 등의 언어로도 발화할 수 있도록 솔루션의 기능을 확장해 나가고 있습니다.

Q) 가장 인상 깊었던 프로젝트 위주로 솔루션 활용 사례를 들어볼 수 있을까요?

저는 음성 합성 AI 솔루션을 기업에 직접적으로 서비스하게 되는 HYPERREAL VOICE 서비스 개발 프로젝트에 참여하게 된 것이 가장 인상 깊은데요. 저희 연구원들은 HYPERREAL VOICE 서비스 자체를 개발하는 것이 아니라 TTS 서빙하는 서버를 개발하는 연구를 합니다. 고객이 자신들이 원하는 화자를 정하여 저희에게 TTS 모델 생성을 의뢰하시면, 솔루션 프로세스 내에서 데이터 생성, 전처리 과정, 모델 학습 과정을 거쳐 해당 화자의 개인화 TTS 모델을 생성하게 됩니다. 고객들이 제공한 데이터를 수작업으로 작업하지 않고 자동으로 오디오를 프로세싱하는 것이 특징인데요. 이를 위해 오디오랑 텍스트 스크립트를 자동으로 레이블링 해주는 시스템을 만들기도 했습니다. 이러한 모델은 HYPERREAL VOICE에서 서비스되며, 직접 혹은 간접적으로 원하는 음성을 생성할 수 있게 됩니다.

이러한 과정을 거쳐 서비스되는 특정 화자의 TTS 모델을, 저희 고객들은 광고, 뉴스, 사내 방송의 시그니처 화자 음성 생성에 활용하고 있습니다. 지속하여 활용될 음성들을 생성하는 것이므로, 생성에 다양한 옵션을 제공하고, 기능적인 피드백을 수용하여 개선하는 과정을 통해 더욱 완성된 솔루션으로 거듭나는 모습을 보고 보람을 느끼고 있습니다.

Q) 자이냅스만의 음성 합성 AI 솔루션의 장점, 차별점은 무엇이라고 생각하시나요?

적은 양의 음성 데이터로부터 고퀄리티의 TTS 모델을 얻을 수 있다는 장점이 있습니다. 또한 여러 명의 음성을 섞어 새로운 음성을 만들어 내는 중간 화자 생성 기술과 감성 스타일 음성 생성 기술, 특정 화자가 데이터 내에서 말한 적 없는 언어로 말할 수 있는 Cross-Lingual TTS 기술 등도 지원되는데요. 예를 들면 영어를 말하는 여자 화자와 프랑스어만 말하는 남자 화자가 있다면 여자 목소리로 프랑스어를 말하거나 남자 목소리로 영어를 발화하게 하는 기술을 지원합니다. 이러한 부분들이 자이냅스 음성 AI 솔루션만의 차별점이라고 할 수 있을 것 같습니다.

Q) 솔루션을 특별히 추천하는 고객 및 서비스가 있으실까요?

개인만의 목소리 혹은 기업에서 언제든지 쓸 수 있는 목소리를 원하시는 분들에게 저희 자이냅스의 음성 AI 솔루션을 추천해 드립니다. 광고, 뉴스, 사내 방송, 오디오북 등 다양한 서비스 분야의 기업들이 저희와 협업하고 계시니, 해당 분야 혹은 다른 분야에서도 문을 두드려 주신다면 감사하겠습니다.

Q) 자이냅스의 강점을 반영한 추가 서비스 사례가 궁금합니다.

많은 TTS가 평범한 말투의 내레이션을 들려주지만, 저희는 사투리와 발화 스타일을 똑같이 구현할 수 있습니다. 더 나아가 감정도 담을 수 있도록 연구 개발 중입니다. 예를 들면, “돌아가신 엄마도 함께한 결혼식”이라는 서비스를 제공한 적이 있습니다. 돌아가신 어머니의 음성 데이터를 활용해 고인의 음성을 복원하고 소환해서 따님의 결혼식에 감동을 주었던 프로젝트입니다.

Q) 솔루션을 200% 활용하는 방법이 있을지 궁금합니다.

당연한 얘기지만, 좋은 데이터가 더 많을수록 더 좋은 개인화 음성 AI 모델이 얻어집니다. 그리고 한번 요청할 때 많은 데이터를 제공해 주시면 더 좋은 모델이 만들어집니다. 또한 제 경험상으로 활기찬 목소리로 학습된 모델이 더 매력적인 AI 모델이 되는 것 같습니다. 만약 개인화 TTS 모델 생성 솔루션을 활용하고 싶으시다면, 제가 말씀드린 가이드라인대로 모델 학습에 필요한 데이터 구축을 요청하거나 제공해 주시면 300% 더 좋은 결과를 얻지 않을까 생각합니다.

🔎AI 연구, 한계 극복을 위한 끊임없는 탐구 필요

자이냅스 논문 조사

AI 성능 향상을 위해 논문 조사 중인 이충호 연구원

Q) AI 개발, 연구에 있어 힘든 점과 극복 방법에 대해 알고 싶습니다.

저희는 AI 신모델 개발을 많이 하게 되는데, 그럴 때마다 논문을 참고하여 개발하는 경우가 많습니다. 하지만 논문대로 구현하더라도 알 수 없는 이유로 모델 학습이 제대로 안 된다던지, 원하는 만큼의 성능이 나오지 않는 경우가 꽤 많습니다. 이런 문제를 해결하기 위해 문제가 발생한 지점을 찾는 것이 우선이고, 그에 따른 해결 방안을 찾아야 합니다. 이때 여러 논문을 폭넓게 조사해서, 비슷한 문제를 가진 논문을 찾고 해결 방법들이 적혀 있는 것을 참고합니다. 논문이 아니더라도 여러 개로 나뉘어 있는 모델의 파트를 하나씩 살피면서 어떤 입력을 넣었을 때 어떤 출력이 나오는가를 분석하는 것도 극복 방법의 하나 입니다.

이렇게 모델 구조 개선이나 기능 개선 연구를 하다 보면, 모델의 구조나 데이터, 기타 요인에 따른 성능 한계를 경험할 때가 많습니다. 이를 극복하거나, 문제 해결 방안을 탐색하고 실제로 해결하는 과정이 AI 개발자들이 공통으로 느끼고 있는 고충이라고 생각합니다. 이러한 고충을 해결하기 위해, 거시적으로는 여러 논문을 조사하여 비슷한 문제를 해결한 방법론을 찾을 수 있습니다. 구현 문제에 관해서는 AI 모델의 동작 모듈이나 학습 프로세스를 하나하나 뜯어보며 문제가 되는 부분을 찾고, 더 나아가 데이터 처리 방법에 대해 조사하여 이를 개선하는 노력이 필요한 것 같습니다.

Q) 그럼 반대로 일하시면서 즐겁거나 보람 있었던 경험이 있다면 말씀 부탁드립니다.

연구 개발하여 내놓은 기술이 고객을 위해 실제로 쓰이고 있는 것을 볼 때 제일 보람을 느꼈던 것 같습니다. 제가 주도하여 개발한 한국어/영어 복합 언어 TTS 모델이 고객에게 서비스된 적이 있는데, 해당 서비스를 통해 생성된 음성을 고객사가 사용하는 영상을 보았을 때 참 보람찼습니다. 해당 영상을 여러 번 돌려보며 기뻐했던 기억이 있습니다.

Q) AI 연구원으로서 전문성, 혹은 역량 개발을 위해서는 어떤 노력이 필요할까요?

일단, 목표로 하는 도메인에 관한 논문 이해 능력을 갖추어야 합니다. AI 분야는 음성, 챗봇, 영상 등 분야가 다양하게 나누어져 있는데요. 자신의 연구 분야에 대한 논문을 많이 읽고 그 분야의 트렌드를 파악하는 것과 논문의 내용을 이해할 수 있는 능력을 키우는 것 모두 중요합니다. 이를 위해선 꾸준히 논문을 읽는 것도 중요하지만, 유명 논문의 구현체를 가지고 직접 실험하는 과정이 필요합니다. 자신이 직접 구현해 보거나 남들이 구현해 놓은 것을 분석하면서, 이를 구현하기 위해서는 어떤 방법을 써야 하는지 체득하여야 합니다. 이렇듯 AI의 학습, 추론, 데이터 처리 등의 프로세스에 대한 이해와, 이를 구현하는 능력을 쌓는 노력이 필요합니다.

또한 AI 모델을 배포 시키는 코어 백엔드 시스템에 대한 이해도 필요합니다. AI 모델은 구동을 위해 상당한 계산 비용이 듭니다. 따라서 연구자 본인이 AI 모델의 추론 시스템을 서비스 개발자들에게 어떻게 효율적으로 제공할 지에 관한 고민을 할 수 있는 능력이 없다면, 서비스를 할 수 없는 모델을 만들어 버리거나, 만족스러운 성능으로 AI 모델을 활용하는 것이 불가능하게 될 것입니다.

Q) 평소 AI 기술 트렌드를 파악하거나 공부하시는 데 있어 특별한 노하우가 있을까요?

저는 평소에 논문과 논문 구현체 저장소를 탐방하거나, HuggingFace나 PyTorch Forum과 같은 오픈소스 커뮤니티를 이용합니다. AI 연구는 빠른 속도로 변하기 때문에 실시간으로 올라오는 논문을 탐방하는 것도 중요합니다. 이를 통해 학회에서 발표되기 전의 최신 논문도 빠르게 체크할 수 있고, 구현된 코드를 뜯어보며 최신 기술 트렌드를 습득할 수 있습니다. 또한 어떠한 논문을 비공식적으로 구현하고 있는 저장소를 볼 수도 있는데요. 아직 완전히 구현되지 않은 논문의 구현체에 기여하며 의견을 나누는 것이 기술 검증과 트렌드 파악에 도움이 된다고 생각합니다.

이에 더하여 성공적으로 서비스되고 있는 AI 서비스를 체험해 보고, 해당 서비스를 제공하는 기업들의 논문 발표나 기술 컨퍼런스 발표 등을 주의 깊게 분석하는 것이 기술 트렌드 파악에서 가장 중요한 부분이라고 생각합니다.

❤️‍🔥고객 지향 AI라는 목표를 향한 열정

자이냅스 TTS 기술 논의

동료 연구원과 TTS 기술 관련 논의 중인 이충호 연구원

Q) 직무를 꿈꾸신 계기나, 직업을 선택하면서 닮고 싶은 롤모델이 있으셨나요?

알파고가 처음 나왔을 때 AI의 전망이 밝다는 것을 체감하게 되었습니다. 이후 저는 AI 연구원의 직무에 들어서면서 하나의 목표를 정했습니다. 언젠가 AI 서비스를 런칭하여, 지속적으로 확장하고 발전하는 서비스를 완성하는 것이었습니다. 궁극적인 목표는 이러한 AI 서비스 런칭으로 고객들에게 새로움과 편리함을 제공하는 것입니다. 그렇기 때문에, 저의 롤모델은 현재 널리 쓰이고 있는 AI 서비스의 연구개발을 위해 고군분투하고 계시는 기업 연구원들입니다. 저도 언젠가는 그만큼 성숙한 서비스를 고객에게 제공하는 날이 오길 기원하며 노력해 나가고 싶습니다.

Q) AI 연구원을 희망하는 분들에 대해 조언해 주실 점이 있다면 무엇일까요?

많은 사람들이 AI를 마법의 도구로 생각하여 간단한 구조로 완벽한 성능을 낼 수 있을 것이라 상상하는 경향이 있습니다. 하지만 실제로 AI 모델을 개발하는 경우, 처음엔 기대한 만큼의 성능이 아닌 애매한 성능을 내는 경우가 많은 것 같습니다. 이를 극복하고 세상에 공개되어 회자되는 멋진 AI 모델을 만들기 위해서는 끊임없는 시행착오가 필요합니다. 또한 문제를 관찰, 분석, 통찰할 수 있는 노력과 역량도 필요합니다. 즉, 처음에는 낮은 성능을 내더라도, 이유가 무엇인지를 분석하고 통찰하면 시행착오를 거쳐 성장할 수 있습니다. 이는 꾸준한 경험을 통해 얻을 수 있다고 생각하며, 저 또한 아직 이러한 역량을 쌓아가는 중인 것 같습니다.

Q) 마지막으로 AI 연구원으로서, 자이냅스의 AI 연구가 세상에 가져올 변화와 역할에 대해 말씀 부탁드립니다.

저희가 업으로 하는 AI 연구와 서비스가 세상 사람들에게 새로운 경험을 선사했으면 하는 마음입니다. 그리고 다른 AI 모델들처럼, 저희 모델 역시 이제까지 보지 못했던 새로운 유형의 콘텐츠나 서비스로 발전할 수 있도록 노력하고자 합니다. 저희의 연구가 세상 사람들의 생활 방식에 긍정적인 변화를 끌어낼 수 있을 때까지, 멈추지 않고 나아가겠습니다.

Share article
RSSPowered by inblog