일상을 변화시킬 음성 AI 기술을 위해 연구하는 디플리

음성 AI 기술로 치안, 복지 등 여러 분야의 문제 해결을 돕고자 노력하시는 류명훈 이사님과의 인터뷰를 통해, AI 연구원으로서 역량과 비전에 대해 알아보았습니다.
Sep 06, 2023
일상을 변화시킬 음성 AI 기술을 위해 연구하는 디플리

딥러닝 기술을 이용해 소리와 관련된 문제를 해결하는 디플리 AI 팀.

류명훈 이사님은 AI 팀을 이끌며, 다양한 산업 현장의 업무 효율을 높이기 위한 인공지능 모델 개발에 집중하고 계시는데요.

음성 AI 기술로 치안, 복지 등 여러 분야의 문제 해결을 돕고자 다방면으로 노력하시는 류명훈 이사님과의 인터뷰를 통해, AI 연구원으로서 역량과 비전에 대해 알아보았습니다.

👨‍💼자기소개

Q) 간단한 자기소개와 맡고 계신 업무에 대해 설명 부탁 드립니다.

안녕하세요. 디플리 CIO 류명훈입니다. 딥러닝 모델을 연구하고 개발하며 AI 팀을 이끌고 있습니다. 저희 팀은 주로 딥러닝 기술을 이용해서 소리와 관련된 문제를 해결하는 데 집중하고 있는데요. 사운드 이벤트 탐지와 관련된 영역에 대해 연구 및 개발을 수행하고, 이를 위해서 딥러닝 기반으로 다양한 모델 알고리즘을 탐구하여 현실 세계 응용 프로그램에 적용하기 위한 최적화 작업을 합니다. 저는 이 팀을 이끌면서 최신 트렌드를 탐색하거나 딥러닝 기계 학습 기술을 연구하고, 모델 성능 향상을 위해 실험과 평가를 진행하고 있습니다. 또 리더로서 팀원들의 의견을 조율하고 프로젝트의 일정이나 목표를 관리해서 최상의 결과를 달성할 수 있도록 지원합니다.

Q) 팀 혹은 연구원님의 하루 업무 일과를 들어볼 수 있을까요?

매주 팀 미팅을 통해서 디플리의 전체 목표를 공유합니다. 팀이 어떤 목표를 달성할 수 있는지에 대해서 팀원들과 미팅을 통해 분기별 목표를 설정하고 있습니다. 설정된 목표는 미팅 노트를 통해서 디플리 전체에 공유됩니다. 그러면 팀원들은 각자 일의 중요도, 난이도, 시간 등을 고려해서 주간 목표를 설정하여 공유하고 있습니다. 불분명한 상태에서 한 주를 보내기보다는 정확한 목표를 가지고 움직이는 것이 목표 달성에 큰 도움이 된다고 생각하기 때문에, 조금 시간을 들이더라도 미팅을 통해서 업무 성과나 어려웠던 일들을 공유하고, 서로 조언과 이야기를 나누는 시간을 갖습니다.

🎧LISTEN AI, 환경음 감지에 특화된 AI 솔루션

디플리_솔루션 개발 회의

<솔루션 개발에 대한 회의를 진행 중인 류명훈 연구원>

Q) LISTEN AI 솔루션에 관해 설명 부탁드립니다.

소리는 크게 음성, 음악, 환경음으로 나눌 수 있습니다. 음성을 인식하는 기술을 음성인식, 음악을 이용해 음원 분리 혹은 음악 추천 등을 연구하는 기술을 음악 정보 검색이라고 한다면, 음성과 음악을 제외한 주변에서 들리는 모든 소리를 다루는 기술 분야를 사운드 이벤트 탐지라고 볼 수 있습니다. 

기계 소리, 자연물에서 나는 소리 등을 기타 환경음이라고 지칭하는데, LISTEN AI는 사운드 이벤트 탐지 기술을 활용해 환경음을 자동으로 잡아내는 모델을 연구하고 있습니다. 기술적으로 표현하자면, 사람이 귀로 직접 듣고 판단해야 하는 일을 인공지능 기술을 통해 자동화할 수 있는 컴퓨터 청각 기술입니다. 모델이 실제 산업 현장에 활용되기 위해서는 다양한 연구가 필요합니다. 어떤 현장에서 어떤 형태의 모델이 필요한지 알 수 없기 때문에 계속해서 새로운 개발이 지속되어야 다양한 산업 현장의 인프라를 만족시킬 수 있습니다.

Q) 2017년 설립 이후 사운드를 연구하시면서 가장 신경 쓰신 부분이 있다면 무엇일까요?

딥러닝 기반의 사운드 이벤트 디텍션 기술은 설립 초기 현실 성능이 잘 알려져 있지 않았습니다. 즉, 대규모 벤치마크 데이터 셋이 없었던 것은 물론이고, 몇몇 벤치마크 데이터 셋에서 높은 성능을 보인 모델을 이용한 애플리케이션이 실제 현실에서 어느 정도의 성능을 보이는지에 대해 알기 어려웠습니다. 

이를 해결하기 위해 간단한 데모를 통해 현실에 적용해 본 결과 벤치마크 성능과 현실 성능의 차이가 너무 크다는 결과를 얻게 되었습니다. 이후 디플리가 걸어온 AI 연구의 핵심은 위와 같은 간극의 발생 원인과 극복 방안에 집중되어 있었습니다. 예를 들어, 울림이 큰 강당 같은 곳과 반대로 울림이 작고 드라이한 공간에서 모델의 성능은 크게 다릅니다. 더불어 우리가 타겟으로 하는 사운드에 어떤 노이즈가 얼마나 섞이는지에 따라서도 모델 성능이 크게 달라집니다. 최근에는 다양한 형태의 디바이스, 즉 칩셋, 핸드폰, 서버와 같이, 연산 능력의 차이가 나는 다양한 기기에서도 모델의 성능을 유지할 수 있는 경량화 연구를 진행하고 있습니다.

Q) LISTEN AI 솔루션의 차별점은 무엇이라고 생각하시나요?

흔히 우리가 아는 벤치마크 정확도가 아니라 실제 현장에서 모델이 잘 작동할 수 있는 것이 장점입니다. 다양한 상황과 문제를 소리로 풀어내기 위해 많은 프로젝트를 진행하면서, 현실 성능을 높이고 엔드 유저의 편의성을 제고할 수 있는 기술들이 하나씩 추가되어 왔습니다. 그 결과, 기술적으로 정의되는 사운드 이벤트와 실제 현장에서 필요로 하는 사운드 이벤트 사이의 간극을 줄이는 기술을 보유할 수 있었고, 다양한 디바이스, 공간, 노이즈에서 모델의 성능을 유지할 수 있게 되었습니다. 또한 실제 현장에서 받는 적은 데이터로도 빠르게 현장에 나갈 수 있도록 적절한 솔루션을 프로토타이핑하고 해당 음향적 환경에서 시간이 흐를수록 점차 성능을 최적화하는 기술을 확보할 수 있었습니다. 엔드 유저의 다양한 기술적 인프라를 고려한 유연한 호환성 역시 장점이라고 생각합니다.

Q) 위 답변과 관련해서 LISTEN AI를 특별히 추천하는 고객 및 서비스가 있으실까요?

저희는 올해부터 무엇보다 안전 및 보안 영역에서 저희 솔루션을 보급하려는 노력을 중점적으로 기울이고 있습니다. 주로 응급사고와 관련된 소리를 현장에서 실시간으로 분석하고, 이를 보안 및 관제 시스템에 연결합니다. 특히 오프라인 사업을 운영하는 기업 고객을 확보하기 위한 노력을 하고 있는데, 안전이 민감한 리조트나 호텔, 쇼핑몰 등 공간의 보안이나 공공장소 및 지자체에서의 사용성이 높기 때문입니다.

이외에도 다양한 곳에서 활용할 수 있는데요. 건강 관련 소리를 모니터링 하는 경우도 있습니다. 혼자 살고 계시는 노인분들의 기침이나 신음, 헐떡거림, 비명 혹은 비정상적인 침묵을 감지합니다. 이를 위해 AI 스피커에서 작동하는 모델인 SDK가 활용되었습니다. SDK의 원활한 작동을 위해 독거노인분들이 주로 거주하는 집의 크기와 TV 소리 등을 수집하여 TV 소음에도 모델이 잘 작동할 수 있도록 개발했습니다. 공장 등의 작업 현장에서도 활용할 수 있는데, 부품이 결합되는 소리가 나지 않았거나 특정 구간을 거치는 소리가 나지 않으면 이를 감지하여 올바른 프로세스를 거칠 수 있도록 합니다.

🔊우연한 계기로 걷게 된 사운드 AI 연구원의 길

<류명훈 연구원이 AI 모델 생성 코드를 검토 중인 모습>

Q) 사운드 인공지능 연구의 특이점이 있을까요? 있다면 어느 점이 가장 힘들었고 어떻게 극복하셨나요?

가장 어려웠던 점은 벤치마크 성능이랑 현실 성능이 다르다는 것이었습니다. 논문에서 ‘특정 벤치마크 셋이 99%의 성능을 달성했다.’기에 이를 앱 형태로 만들어서 적용해 보면 잘 되지 않는 경우가 많았습니다. 이를 극복하기 위해 특정 장소에 설치만 하면 디바이스 성능의 차이, 거리의 차이, 공간의 차이 등 그 장소의 데이터를 활용함으로써 성능을 높이는 자동화 장치를 계획하였습니다. 또, 기업들이 LITSEN AI 같은 형태의 솔루션을 많이 접해본 적이 없다 보니 처음에는 기술적 인프라가 갖춰지지 않아 대응이 어려웠는데, 지금은 다수의 케이스를 대응하면서 극복하게 된 것 같습니다.

Q) 사운드 인공지능을 연구하게 된 계기가 있다면 무엇인가요?

대학원 학부 연구생 때 우연히 처음 맡게 된 연구가 청각 피질에서 나오는 신호를 분석하는 연구였습니다. 그 경험을 시작으로 자연스럽게 시각보다는 청각 분야를 연구하게 되었습니다. 많은 사람이 연구하던 분야가 아니라 마이너하다는 점이 오히려 마음에 들었습니다. 그 후 석사과정에서도 청각에 관심을 갖고 연구하다가, 박사과정 중 우연히 현재 디플리의 코파운더 두 분과 이야기를 나누게 되었습니다. 저희 셋 모두 우연히 소리를 연구 분야로 선택했다는 것을 알고, 서로 많은 이야기와 아이디어를 주고받다 보니 소리 딥러닝 연구로까지 이어진 것 같습니다.

Q) 사람의 청각은 특별히 큰 수고를 들이지 않고 소리를 구분하는데, 디플리의 사운드 AI는 어떤 방식으로 소리를 구분하나요?

사람의 청각과 사운드 AI는 둘 다 소리를 주파수 별로 분리된 특징을 대규모로 학습함으로써 소리를 인식하고 구분해 낸다는 점에서 유사점을 가지는 것 같습니다. 널리 사용되는 Mel-Spectrogram을 생성하는 계산 과정은 인간이 소리를 처리하는 과정에서 아이디어를 얻은 것이 많습니다. 내이의 달팽이관에서 소리를 주파수 별로 분해하고 분리된 주파수 간격이 저주파수에서 더 밀도가 높다는 점 같은 특징을 잘 이용해서 활용합니다.

차이점이라 하면 인간은 소리 자체의 특징에 더해서 소리가 나는 상황의 맥락이나 개개인의 경험과 같은 정보를 Top-down으로 활용합니다. 애매한 소리라면 해당 맥락에서 날법한 소리로 인식하거나 개인에게 친숙하게 여겨지는 소리로 인식하거나 하는 식입니다. 하지만 사운드 AI는 특별한 방법을 적용하지 않는 이상 기본적으로는 음향 자체를 이용해서 소리를 인식하고 분류합니다. 하지만 인간이 같은 시간 동안 학습할 수 있는 것보다 압도적으로 많은 소리를 학습할 수 있기 때문에 음향 자체의 정보를 가지고 분류하는 능력이 더 뛰어날 수 있습니다. 게다가 인식하고 싶은 소리가 어떤 소리 맥락에서 났는지에 대한 정보를 기술적으로 추가하거나 애매한 소리에 대해서 어떤 식으로 처리할지에 대한 지침을 값으로 지정해 주는 식으로 더 성능을 높일 수도 있겠습니다.

💡AI 연구, 실험 정신과 비즈니스 임팩트가 중요

디플리_회의 내용 정리

<회의 내용을 정리하는 류명훈 연구원>

Q) Listen AI 연구원으로서 전문성, 혹은 역량을 갖추기 위해서는 어떤 노력이 필요할까요?

좋은 솔루션, 좋은 모델을 만들려면 실험을 많이 해봐야 합니다. 하지만 매번 좋은 결과를 얻을 수 없습니다. 고전적인 기술은 대부분 확정적이라 배우는 그대로 작동하는데, 딥러닝 모델은 파인 튜닝과 많은 실험을 통해 만들어 내기 때문에 목표를 향한 집중력이 매우 중요합니다. 

또한 스타트업 같은 작은 조직에서는 비즈니스 임팩트를 주는 것이 중요합니다. 연구하다 보면 흥미로운 기술들이 많기 때문에 비즈니스 임팩트를 간과하는 경우가 많은데요. 스타트업 혹은 기업에서의 연구나 개발은 비즈니스 이익으로 이어져야 가치를 인정받을 수 있다고 생각합니다. 이를 위해서 팀원들 간의 커뮤니케이션 스킬이 중요함을 많이 느꼈습니다. 기술적인 면 등 이해하기 어려운 부분이 많기 때문에, 팀원과의 원활한 소통으로 만들어 낸 모델이 엔드 유저의 좋은 사용자 경험을 끌어낼 수 있고, 이로써 비즈니스 임팩트를 이룰 수 있다고 생각합니다.

Q) 평소 AI 기술 트렌드를 파악하거나 공부하시는 데 있어 특별한 노하우가 있을까요?

인공지능 딥러닝 학문이라는 것이 여러 학문에서 이론을 조금씩 적용해서 만들어진 학문이라 단번에 이해하는 것이 쉽지 않습니다. 그리고 지금 이 순간에도 다른 분야보다 논문이나 실제 기업에서 좋은 솔루션들이 많이 나오고 있기 때문에, 혼자 앓다 보면 위기감을 느낄 수 있습니다. 이렇게 방대한 정보를 개인이 따라가기엔 벅차니까요. 하지만 많은 정보와 비례하게 좋은 스터디 모임이 정말 많습니다. 모임에 참여해서 소통하고 서로 좋은 아이디어도 얻는 것이 중요하다고 생각합니다.

Q) 마지막으로 AI 연구원으로서, 디플리의 AI 연구가 세상에 가져올 변화와 역할에 대해 말씀 부탁 드립니다.

인공지능처럼 붐이 일어나면 미디어에서도 많이 다루지만, 생각보다 기술이 기술로만 남는 경우가 더 많습니다. 그래서 실제 우리의 삶에 와닿는 일은 생각보다 많지 않다고 생각했는데, 책을 읽다 보니 인류 역사에서 기술 발전이 우리의 삶을 극적으로 바꾼 사례를 많이 접하게 되더라고요.  그만큼 엄청난 일을 이루겠다는 것은 아니지만, 작은 것 하나라도 기술이 실제로 우리 삶을 바꾸는 것을 보고 싶다는 목표가 있습니다. 아직은 LITSEN AI를 어떻게 활용해야 하는지에 대한 인식도 낮고 기술적 인프라도 구축되어 있지 않지만, 언젠가 다양하게 활용될 것이 분명하다고 생각합니다. 이 과도기에서 디플리가 기술적 인프라를 구축하는 것을 돕고 세상이 필요로 하는 기술을 개발하고 싶습니다.

Share article
RSSPowered by inblog