2022년 가장 핫한 AI 연구들

매년 인공지능 분야가 성장하고 있는 만큼, 올해도 뛰어난 연구들이 많이 등장했는데요. 2022년 한 해 동안 있었던 괄목할 만한 AI 연구들을 소개합니다. 이번 글은 State of AI Report 2022를 참고하여 작성하였습니다.

Oct 31, 2022

Contents

Computer Vision에 Transformer의 습격 Diffusion 모델은 GAN을 대체할 것인가?Text-to-Image 열풍, 그리고 Text-to-Video의 등장 3D의 시대가 온다, NeRF의 급성장 LLM과 함께 발전하는 분야들 마치는 글

🔑

10분 안에 이런 걸 얻을 수 있어요. State of AI Report 2022의 핵심 내용

이미지 및 내용 출처: https://www.stateof.ai/2022-report-launch.html

벌써 2022년도 두 달 남짓 남았습니다. 매년 인공지능 분야가 성장하고 있는 만큼, 올해도 뛰어난 연구들이 많이 등장했는데요. 2022년 한 해 동안 있었던 괄목할 만한 AI 연구들을 소개합니다. 이번 글은 State of AI Report 2022를 참고하여 작성하였습니다. State of AI는 5년째 연간 보고서를 작성하고 있습니다. 올해는 무려 114페이지의 보고서로 해외 커뮤니티에서 많은 사람들이 참고하는 글 중에 하나입니다. 모든 내용을 요약하기보다는 핵심적인 내용만 추려 전달하도록 하겠습니다.

Computer Vision에 Transformer의 습격

출처: Zeta Alpha Analysis, State of AI Report 2022

이미지를 주로 다루는 컴퓨터 비전 영역에는 CNN이 주류를 차지해왔습니다. 하지만 요즘 Transformer 블럭을 근간으로 한 모델을 속속들이 등장하고 있습니다. Transformer는 자연어 처리 분야, 그중에서도 기계 번역 분야에서 줄곧 활용되어 왔습니다. 하지만 2020년대 들어서 점차 컴퓨터 비전을 비롯한 기타 영역으로 확장하더니 이제는 거의 모든 분야에서 Transformer를 찾아볼 수 있습니다.

Zeta Alpha의 연구에 따르면 Transformer가 활용되는 빈도는 텍스트에서 41%, 이미지에서 22%라고 합니다. 2020년대 이전에 텍스트에서 80%를 넘게 차지했던 것에 비하면 확실히 범용적으로 활용되고 있음을 알 수 있습니다.

Diffusion 모델은 GAN을 대체할 것인가?

이미지 생성 모델로 가장 대표적인 것이 2014년에 공개된 GAN 모델이었는데요, 이제는 이미지 생성의 왕좌를 넘겨줄 것 같습니다. 근래 가장 뜨거운 감자였던 Text-to-Image의 핵심을 이루고 있는 모델은 Diffusion입니다. Diffusion 모델은 기존 이미지에 노이즈를 조금씩 추가하고, 다시 노이즈를 없애며 복원하는 과정에서 이미지의 특성을 학습하는 것이 특징입니다. 이렇게 디노이징(denoising)하는 과정은 느릴 수밖에 없지만 점차 학습 추론 속도가 개선되고 뛰어난 양질의 결과물을 보여주면서 점차 주목받고 있는 모델입니다.

그리고 이제 Diffusion은 다른 영역을 넘보고 있습니다. 앞서 설명한 Transformer가 NLP에서 Vision으로 넘어왔다면, Diffusion은 Vision에서 NLP로 확장되고 있습니다. 여기서 그치지 않고 오디오나 비디오 등 다양한 분야로 확장할 수 있는 가능성까지 기대해 볼 수 있을 것 같습니다.

Text-to-Image 열풍, 그리고 Text-to-Video의 등장

Text-to-Image가 이제 일반인들에게 공개되었습니다. Stability.ai에서 공개한 Stable Diffusion이 오픈 소스로 공개되면서 많은 사람들이 다양한 작품을 만들어내고 SNS에 공유하고 있습니다.

사실 Text-to-Image는 2021년 1월에 공개된 DALL-E가 서막을 열었습니다. 불과 15개월만에 DALL-E mini를 통해 일반인들에게 공개되었고, 얼마 지나지 않아 고품질의 Text-to-Image 모델의 시대가 보편화되었습니다.

이런 열풍에 뒤이어 Google과 Meta에서는 Text-to-Video 모델을 선보였습니다. 각각 9월 말과 10월 초, Meta는 Make-A-Video를, Google은 Imagen Video를 공개합니다. 아직은 짤막한 영상을 만들어내는 수준이지만 이 역시 1-2년 뒤에는 현재의 Stable Diffusion처럼 뛰어난 퀄리티로 공개될지도 모르겠습니다.

출처: Meta Make-A-Video 영상 캡처

“A dog wearing a Superhero outfit with red cape flying through the sky”의 결과

3D의 시대가 온다, NeRF의 급성장

NeRF는 2D 이미지를 3D로 렌더링하는 모델입니다. 간단히 설명하자면, 인간이 여러 각도에서 어떤 물체를 보고 그것이 어떻게 생겼는지 상상할 수 있는 것처럼 NeRF도 촬영한 2D 이미지를 기반으로 보이지 않는 곳을 예측하고 보간을 통해 완성도 높은 3D 모델을 렌더링하는 것입니다.

2020년, NeRF의 성능이 비약적으로 개선되었고 이후 NeRF와 관련된 연구가 급성장하고 있습니다. 올 한 해에만 NeRF와 관련된 논문들이 약 1000개 가까이 쏟아져 나왔습니다.

올해에는 100배 빠르게 학습하는 방법, 더 적은 이미지로 렌더링 하는 방법, 더 고화소로 렌더링하는 방법 등이 제안되었습니다. 심지어는 도시나 우주의 단위를 생성해내기도 했다고 하네요.

NeRF를 응용한 3D 분야도 점차 확대되고 있습니다. 앞으로는 3D 생성과 관련된 모델과 연구 분야가 점차 더 확장될 것으로 보입니다.

출처: Zeta Alpha Analysis, State of AI Report 2022

LLM과 함께 발전하는 분야들

LLM(Large Language Model)들이 등장하면서 점차 하위 분야도 확장되고 있습니다. 2021년 구글에서 발표한 PaLM은 올해 수학 문제를 푸는 Minerva라는 모델에 활용되었습니다. 기존 PaLM 모델 구조에 수학 기호들을 이해할 수 있도록 새로운 데이터로 학습을 진행했고, 그 결과 정말 문제를 이해하고 답을 내는 듯 보였습니다. 물론 아직 완벽한 정도는 아니지만 수학 문제와 같은 분야에 인공지능이 발을 들일 수 있음을 보여주기도 했습니다.

로보틱스 분야에서도 다양한 상황에서 로봇이 정확하게 명령을 이해할 수 있도록 언어 체계를 학습시킬 필요가 있습니다. 여기에서 LLM이 중요한 역할을 합니다. SayCan은 인간의 명령에 따라서 행동합니다. 다만 정확하게 행동을 지시하는 것이 아니라, 마치 인간처럼 ‘나 음료를 쏟았는데, 도와줘’라고 하면 닦을 것을 갖다주는 식입니다. 이때 닦을 것을 갖다 달라고 하지 않아도 돕는 행위를 했다는 것이 핵심이지요. 특히 이미지를 기반으로 한 맥락을 잘 이해하고 올바르게 행동하는 것이 중요합니다. 여기에서도 PaLM이 SayCan에 적용되어, 인간의 명령을 맥락에 맞게 잘 이해할 수 있도록 도와줍니다.

출처: SayCan(Michael, 2022)에서 캡처

작년 말에 공개된 LLM을 기반으로 한 챗봇 LaMDA도 올해 초 논문이 공개되었습니다. 구글 내부 관계자 중 한 명이 LaMDA와의 대화를 공개하면서 인공지능이 감정을 가지고 있다고 폭로하며 이슈가 되기도 했습니다. 그만큼 자연스러운 대화가 가능할 정도로 챗봇의 수준이 많이 올라왔습니다. 이처럼 LLM이 성장함에 따라 자연어를 활용한 분야들이 크게 성장해나가고 있습니다.

이 밖에도 과학계에서 발전을 촉진하고 있는 AI 연구(AlphaFold), 환경을 고려하는 연구 등이 올해의 키워드로 선정되었습니다.

마치는 글

이번 글에서는 AI 모델 연구를 바탕으로 트렌드에 대해 알아보았습니다. 2022년에는 전반적으로 컴퓨터 비전 분야의 발전이 돋보입니다. 이미지 생성과 3D 렌더링의 부상 등 다양한 컴퓨터 비전 내에서 다양한 분야로 확장되고 있는 것 같습니다. 자연어 처리 분야는 점차 일상 속으로 스며들고 있는 것 같고요.

그럼 다음 주에는 기업과 산업, 그리고 사회를 중심으로 2022년의 AI 트렌드 분석으로 돌아오겠습니다.