구글의 Generative AI ①: LaMDA와 AudioLM

2022년 AI 업계 메가 트렌드는 Generative AI(생성형 인공지능)입니다. Generative AI는 이용자의 요구에 따라 이미지, 텍스트, 코드 등의 창작물을 만들어내는 인공지능을 뜻합니다. 이번 아티클에서는 Google Presents: AI@ ’22에서 발표된 논문을 바탕으로 구글의 Text와 Audio 분야 Generative AI를 살펴봅니다.

Nov 14, 2022

Contents

Text – 작문 AI Wordcraft의 LaMDA 음악과 음성을 모두 생성하는 AudioLM 마치며 참고자료

🔑

알려드려요. 구글 Text Generative AI : LamDA 구글 Audio Generative AI : AudioLM

유튜브 Google Presents: AI@ ‘22 갈무리. https://www.youtube.com/watch?v=X5iLF-cszu0

Text – 작문 AI Wordcraft의 LaMDA

구글의 작문 Ai Wordcraft. 출처 https://wordcraft-writers-workshop.appspot.com/

2021년 구글은 생성형 인공지능 LaMDA를 선보였습니다. LaMDA는 대형 언어 모델 LLM(Large Language Model)을 활용해, 사람이 입력한 문장을 이해하고 그에 대한 적절한 답변을 생성(Generative)합니다.

LaMDA는 Google Brain, PAIR, Magenta가 합작으로 만들어낸 AI 기반 텍스트 편집 툴 Wordcraft의 바탕이 되었습니다.

(왼쪽) 사용자가 글을 진행하기 위한 문장 생성 요청 (가운데) 문장 생성 결과물 중 원하는 문장을 선택 (오른쪽) 생성한 텍스트 중 일부를 선택하여 디테일한 표현으로 수정. 출처: (Coenen et al., Google Brain, 2021)

Wordcraft의 목표는 3가지입니다. Planning, Writing 그리고 Editing. Planning은 스토리의 전체적인 맥락을 기획하는 작업이고 Writing은 말 그대로 표현을 생성해내는 작업입니다. Editing은 이미 쓴 글을 다른 표현으로 고쳐쓰는 작업을 뜻합니다. 이를 위해 Wordcraft는 Continuation, Infilling, Elaboration, Rewriting 기능을 지원합니다.

아래는 논문에서 소개된 Elaboration의 사례입니다.

🗣️ Here’s my story so far: {The long shadow of the tree crept up the sidewalk.}Describe the tree

‘나무의 긴 그림자가 드리운 거리’라는 스토리에 알맞은 나무를 묘사해달라고 요청했습니다. Wordcraft는 어떤 문장을 만들어냈을까요?

🗨️ An old oak tree on the main street of a small town, the branches spread as large as the sky

‘작은 도시의 거리에 있는 오래된 참나무, 가지는 하늘만큼 넓게 뻗어 있다’라는 문학적인 표현을 생성해냈습니다! 이런 요청을 Freeform Prompt라고 하는데요, 알맞은 프롬프트를 작성하는 일이 어려울 수 있기에 Wordcraft는 좋은 프롬프트를 요청하기 위한 챗봇 기능을 제공합니다.

물론 아직 Wordcraft 만으로 일관적인 스토리를 만들어 내는 데는 한계가 있습니다. Wordcraft는 캐릭터의 관점이 바뀐다든가, 글쓰기 스타일을 유지하는 데 어려움을 보입니다. 하지만 디테일과 정교함 측면에서 탁월한 결과물을 보여주고 있어, 인간의 창작 활동을 돕는 툴로서 유용할 수 있습니다. 구글은 13명의 전문 작가가 Wordcraft를 활용하여 쓴 글들을 위 Wordcraft Writers Workshop에서 공개했습니다. 작가들은 Wordcraft가 실제로 창작의 영감을 받는 데 도움이 되었다고 말했습니다.

음악과 음성을 모두 생성하는 AudioLM

출처. 구글 Research, AudioLM: a Language Modeling Approach to Audio Generation

올해 9월 구글은 오디오 생성을 위한 언어모델 AudioLM을 공개했습니다. AudioLM은 오디오 프롬프트를 기반으로 현실적인 음성 또는 피아노 멜로디를 생성하는 언어모델입니다. AudioLM은 3초 분량의 짧은 오디오 파일만 입력받아도 그 다음 부분을 스스로 이어나갈 수 있습니다. 스피치의 경우 자연스럽게 문장을 생성하면서 어조와 말투를 유지(Speech Continuation)하고, 음악의 경우 멜로디를 자연스럽게 이어나갑니다(Music Continuation). Generative AI의 작업물이라고 말하지 않으면 모를 정도로요.

오디오 언어 모델이 이같은 성능을 내기 위해선, 개발 단계에서 데이터의 형태 문제와 텍스트-오디오 대응 문제를 해결해야 합니다. 오디오 데이터는 파형으로 되어 있기 때문에 텍스트 토큰에 비해 하나의 시퀀스가 깁니다. 각 데이터의 길이가 다르기 때문에, 오디오 데이터를 텍스트에 적절하게 대응시키는 작업이 매우 어렵습니다.

출처: AudioLM (Borsos et al., 2022)

이런 문제를 해결하기 위해 AudioLM은 3단계로 구성됩니다. 먼저 의미적 토큰을 생성해낸 다음(Semantic Modeling), 굵직한 음성 토큰을 생성합니다(Coarse Acoustic Modeling). 마지막으로 생성된 음성 토큰을 미세하게 조정하는 과정을 거칩니다(Fine Acoustic Modeling).

먼저 Semantic Modeling입니다. 이전의 Semantic Token을 기반으로 이후의 Semantic Token을 예측합니다. 이 작업에서 AutoRegressive 모델을 활용하며, 긴 시간적 구조를 확보합니다.

다음은 Coarse Acoustic Modeling입니다. 여기서는 Acoustic Token을 개발하는데요, 이것은 앞서 생성한 Semantic Token에 의해서 조건화된 토큰으로 생성합니다.

마지막으로 Fine Acoustic Modeling입니다. 앞서 생상한 Coarse Acoustic Token을 미세하게 조정하는 작업입니다. 여기에 SoundStream 모델의 디코더를 통해 우리가 들을 수 있는 형태의 파일로 변환합니다.

이렇게 생성한 음성 파일은 악용의 우려가 있기에, 연구진은 생성된 음원을 탐지할 수 있는 모델도 함께 개발했다고 합니다. 모두를 위한 인공지능을 만들어가고자 하는 AI 원리를 잘 지킨 사례로 AudioLM을 꼽을 수도 있을 것 같습니다.

마치며

이번 아티클에서는 Text와 Audio 생성 AI를 알아보았습니다. 더 이상 창작은 인간 고유의 영역이 아니게 됐지만, Generative AI 모델은 점차 인간과 인공지능이 상생하는 방향으로 발전하고 있습니다. Generative AI는 앞으로 보다 많은 서비스에 적용될 수 있고, 우리 삶을 더욱 풍요롭게 해줄 수 있습니다. 다음에는 Image와 Video 생성 AI 편으로 찾아뵙겠습니다.