영상제작 AI의 혁신, ‘Sora’

#영상제작 #AI #OpenAI #Sora

doaz

Apr 05, 2024

Contents

오픈 AI에서 공개한 영상제작 AI, ‘소라’‘소라’의 주목할 만한 특징 3가지

오픈 AI에서 공개한 영상제작 AI, ‘소라’

소라는 오픈 AI에서 2024년 2월 15일에 공개한 영상 AI 서비스에요. 상상한 장면을 텍스트로 작성하면 영상으로 구현해 준다고 해요. 제대로된 형태로 세상에 공개된 첫 LMM 서비스나 다름 없다고 해요!

소라는 고품질의 비디오를 생성하기 위해, 다량의 데이터를 학습했어요. 다양한 종횡비, 해상도 등으로 구성된 영상 데이터를 중심으로 학습을 진행했고, 달리3(DALL·E 3)에 적용된 시각 데이터를 훈련해 언어 이해의 품질도 높였죠. 소라 모델은 텍스트 형태의 프롬프트와 스크립트를 영상으로 구현하고 있는데, 텍스트 → 영상 변환 방식은 LLM 기술이 적용돼요.

다양한 캐릭터, 행동, 피사체와 배경 등에 대해 사용자가 짧은 프롬프트를 입력함

짧은 프롬프트는 대형언어모델(LLM)를 기반으로 상세한 캡션으로 변화함

변환된 캡션은 복잡한 장면을 생성할 때, 세부 정보로 기능함

소라는 LMM이지만, 현재 콘텐츠로 많은 소비가 이루어지는 최신 GPT 모델의 이미지 제작 기능에서 포멧만 바뀐 방식이에요. 기존에 정의되던 ‘LMM’에 근접한 모델이라고 볼 수는 없지만, 영상이 텍스트나 이미지보다 복잡도가 높은 유형의 콘텐츠라는 점에서 AI모델과 서비스가 한 발 더 발전했다는 점은 분명해요.

[자료 1] Open AI의 동영상 구현 서비스, ‘소라’

‘소라’의 주목할 만한 특징 3가지

지금까지 AI 모델들이 학습해왔던 것은 텍스트 중심의 데이터였어요. 하지만 소라가 첫 영상 제작 AI는 아니에요. 구글이나 메타 등의 기업에서 LMM 개발 소식을 전한 적도 있고, 심지어 구글은 LMM 시연 연출 영상을 공개한 적도 있죠. 하지만, ‘오픈 AI’가 구글, 메타 등의 글로벌 테크 기업보다 영상 AI 모델인 소라를 먼저 공개한 이유는 존재했어요. 그 이유에 대해 짧게 알아보는 시간을 가질게요!

소라는 고사양 물리엔진 수준으로 현실을 구현해요. 조도로 인해 연출되는 현실적인 풍경에 대한 구현이 가능하죠. 우리가 현실세계에서 느끼는 빛의 변화, 시각적 변화 등을 데이터 학습으로 구현하죠. 텍스트 몇 줄로 영상 연출이 가능한 시대가 도래한 것이에요.

소라는 영상의 길이 또한 늘렸어요. 기존 구글 LMM 시연은 20초 남짓한 길이의 영상이 전부였지만, ‘소라’는 1분 길이의 영상을 만들 수 있어요.

소라는 유저들의 사용 편의성을 보장해요. ’텍스트’가 바로 영상 산출물로 변형되는 것이 아닌, 전체 영상 제작 전 프로토타입 콘텐츠를 제작할 수 있어요.제작한 영상을 시사하고, 재편집하고, 때로는 관계자들에게 배포하기도 해야 하는 영상 업계의 프로세스를 반영했다고 볼 수 있을 것 같아요.

소라는 정적인 이미지를 움직임 있는 영상으로 변환하거나 기존 비디오를 확장하는 개념으로 영상을 만들어내요! 오픈 AI에서 소라를 통해 공개한 영상에 ‘매머드’가 등장하는 것 처럼, 이제는 그래픽 작업에 더 이상 컴퓨터 그래픽 적용할 필요성이 없어질 수 있어요. 서울 도심에 나타나는 공룡을 텍스트 몇 줄로 구현할 수 있게 되는 것이죠.

그 외에도 불필요한 작업을 없앨 수 있다고 해요. 주인공의 눈동자에 반사되는 카메라나, 영화 or 드라마 촬용 후 발생하는 부자연스러운 요소 등을 지울 필요가 없어질 수 있어요. 이와 같은 작업이 가능한 것은 소라가 이미 카메라의 존재가 없는 상태에서 학습되는 AI이기 때문이에요.

[자료 2] Open AI 의 Sora 소개 영상 (길이: 10분)

Introducing Sora — OpenAI’s text-to-video model

Introducing Sora, our text-to-video model. Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. We’ll be taking several important safety steps ahead of making Sora available in OpenAI’s products. We are working with red teamers — domain experts in areas like misinformation, hateful content, and bias — who are adversarially testing the model. All the clips in this video were generated directly by Sora without modification. Learn more about Sora: https://openai.com/sora Chapters: 00:09 Dancing Kangaroo 00:22 Snow Dogs 00:43 River Birds 00:55 Petri Dish Pandas 01:08 Big Sur 01:21 Movie Trailer Astronaut 01:40 Coffee Pirates 01:57 Tokyo Snow 02:09 Cyberpunk Robot 02:30 Candle Monster 02:43 The Offroader 03:04 Paper Origami 03:27 Nosy Cat 03:38 Woolly Mammoths 03:51 Lagos 04:14 Television Gallery 04:37 Cloud Reader 04:59 Miniature Construction 05:11 Gold Rush Aerial 05:38 Fairytale Furball 05:49 Amalfi Coast Aerial 06:12 Tokyo Tourist 06:31 Blossoming Flower 06:42 Art Museum 07:05 Solemn Gentleman 07:28 Eye Close-up 07:47 Chinese New Year 07:58 Surfing Otter 08:17 Dalmatian in the Window 08:31 Tokyo Train 08:42 Zen Garden Gnome 08:53 Flock of Paper Planes 09:16 Lost Lone Wolf

https://www.youtube.com/watch?v=HK6y8DAPN_0&t=182s

See more posts

영상제작 AI의 혁신, ‘Sora’

오픈 AI에서 공개한 영상제작 AI, ‘소라’

‘소라’의 주목할 만한 특징 3가지

More articles

자율주행의 핵심, 시각 정보 습득 기술

마이크로소프트 선정 2024년 3가지 AI 트렌드

LLM 프롬프트 작성에 사용된 LangChain