Cognition Labs의 AI 소프트웨어 엔지니어, Devin: Hype or Hope?

Mar 17, 2024

Cognition Labs의 AI 소프트웨어 엔지니어, Devin: Hype or Hope?

Contents

Cognition Labs Team Devin AI What does this mean?예시 갑론을박 Conclusion

Cognition Labs: 올해 들어 가장 핫한 스타트업이 아닐까 싶습니다. 3월 12일 stealth에서 나와 Cognition이 출시한 “World’s First AI Software Engineer” Devin은 이번 주 큰 관심을 받았죠. Hype or Hope? Devin AI가 무엇인지, 전문가, 사용자, 소프트웨어 엔지니어들의 반응은 어떨지 살펴보겠습니다.

Cognition Labs

Cognition은 Devin 출시 2개월 전에 법인설립을 맞춘 자타공인 “천재” 팀입니다. 창업 팀은 국제정보올림피아드 (International Olympiad in Informatics)에서 총 10개 메달을 보유하고 있으며 Scale AI, Cursor, Deepmind, Waymo, Nuro 등 혁신 AI 스타트업에서 주요 직책을 맡아왔습니다.

Cognition은 Founders Fund, Elad Gil, Patrick & John Collison (Stripe 형제), Sarah Guo(Conviction 블로그) 등으로부터 $21M을 펀딩받은 바 있습니다.

Team

Cognition Labs의 대표 Scott Wu와 “Human Engineer” Neal Wu는 형제입니다. 어렸을 때부터 Scott와 Neal은 수학 경시 대회, 코딩대회 등을 싹쓸이 한 영재들이었다고 합니다.

대표인 Scott Wu의 2010년 수학 경시대회 영상이 최근 바이럴 되기도 했었죠.

Devin AI

Devin이 다른 Code Generation Tool (e.g. ChatGPT, Replit 등)과 가장 큰 차이점은 사용자와 독립적으로 구동된다는 것입니다. 단순 코딩 co-pilot이 아니라 사람의 개입 없이 자체적으로 전체 프로젝트를 자동 완료할 수 있는 AI 에이전트입니다.

사용자로부터 Prompt가 주어지면 end-to-end로 어플리케이션을 찍어낼 수 있습니다. 그 과정에서 Planning, Debugging 등 작업을 수행하고, 사용자는 에이전트가 실제 부하 SWE처럼 에이전트가 어떤 화면을 보고 있는지, 어떤 step을 수행하고 있는지 등 모니터링부터 중간중간 피드백으로 작업 개입까지 가능합니다.

예를 들어, 실제 돈 받고 프리랜서가 프로젝트를 수행해주는 Upwork (코딩 프리랜서 플랫폼)에 올라온 real-life 작업을 직접 수행할 수도 있는 수준입니다.

Django와 scikit-learn과 같은 오픈소스 프로젝트 내 실제 이슈와 해결책을 모아 놓은 SWE-bench에서 SOTA 수준의 퍼포먼스를 보이고 있습니다.

What does this mean?

확실히 Devin은 기타 LLM 대비 훌륭한 성적을 내고 있지만 13.86%는 SWE를 대체하기엔 아쉬운 성적입니다. 여전히 86.14%의 경우엔 문제를 틀린다는 뜻이죠.

다만, 계속 개선된다는 점을 가정했을 때, 스타트업이 SOTA 수준의 벤치마크를 달성했다는 것은 매우 의미있는 성과입니다. Compound AI System이 단순 LLM을 활용하는 것보다 훌륭한 퍼포먼스를 보이는 또 다른 예시입니다.

HumanEval 및 기타 벤치마크와 달리 SWE-bench는 실제 “real world codebases” 기반으로 만들어진 데이터셋으로써 자율적인 AI code agent를 평가하기 더욱 적절합니다.

Devin을 제외한 다른 LLM 벤치마크 퍼포먼스는 “assisted” 기준 (model is provided with the exact file it needs to edit)입니다.

반면에 Cognition 팀은 Devin이 “entire repo”가 주어지며 파일 네비게이션이 자유로워 Devin이 비교대상 대비 큰 advantage가 있다는 점을 인정합니다.

사실상 “agent setting”인 Devin AI의 적절한 비교대상이 없습니다. 물론 높은 SWE-bench 성적은 훌륭하나 apples-to-apples 비교가 아니다 보니 위 차트엔 큰 의미를 둘 필요는 없는 것 같습니다.

훌륭한 벤치마크 퍼포먼스 뒤엔 “multi-step planning”이 중요한 역할(72%의 task가 10분 이상 걸림)을 합니다. Devin AI를 다른 LLM과 단순 비교하는 것보다 multi-step planning이 가능하며 비슷한 agent setting의 에이전트들과 비교하는 것이 적절할 것 같습니다.

예시

Devin은 5개의 인터페이스 섹션으로 나뉘어져 있습니다:

사용자의 Chat Interface

Devin의 Command Line Section (Planner)

Devin의 Code Editor (Integrated Development Environment)

Devin의 브라우저 (API Documentation, troubleshooting forums 등)

결과물 출력

Input Prompt: Benchmark the performance of Llama-2 on three different providers: Replicate, Together, Perplexity. Figure out their API formats and write a script that sends the same prompt/parameters to all of them

사용자가 프롬프트를 입력한 후, 이제부턴 Devin이 운전대를 잡습니다.

Devin은 이 문제를 해결하기 위해 step-by-step 플랜을 짭니다.

그 후, 실제 소프트웨어 엔지니어가 활용하는 툴들을 사용해 프로젝트를 만듭니다. 이 문제를 위해서 Devin은 브라우저를 활용하여 각 provider사의 API documentation을 읽어보기도 합니다.

일을 수행하다가 Devin은 에러에 막힙니다. 여기서 Devin은 자율적으로 “debugging print” statement를 추가하고 코드를 다시 돌려봅니다. 그리고 오류 내 로그를 참고하여 어떻게 에러를 고칠지 고민하고 해결합니다. 여전히 에러가 고쳐지지 않을 경우, 브라우저를 통해 Q&A 포럼에서 솔루션을 찾기도 합니다.

마침내 프로젝트를 끝내고 웹사이트를 deploy한 후 링크를 공유합니다.

위 예시 외 다양한 use case를 Cognition Labs 블로그에서 공유하고 있으니 참고하시기 바랍니다.

갑론을박

Cognition Labs는 어떻게 이런 수준급 퍼포먼스에 도달할 수 있었는지 자세하게 공유하지 않았습니다. 단순히 “progresses made in reasoning and long-term planning” 덕분이라고 합니다. 때문에 제3자들은 Devin의 퍼포먼스에 회의적인 의견이 많습니다. 특히, Reasoning은 세계적인 AI 리서치 랩에서도 연구하고 풀고자 하는 문제인 만큼 매우 어려운 분야이기 때문입니다.

아직 Devin AI를 public에 공개하지 않았다 보니 “벤치마크 데이터를 cherry-picking 한 것이 아니냐”라는 비판이 많습니다. Stripe의 대표 Patrick Collison은 이에 반박하며 Devin AI는 매우 실제 상황에서도 “impressive”하다고 얘기합니다. 다만, Patrick은 Cognition의 투자자이기도 하죠.

또한, Devin AI는 GPT-4를 사용하는 것으로 알려져 있습니다. $21M 펀딩 수준으로 직접 모델을 처음부터 from scratch 만들기엔 부족합니다. 그래서 ChatGPT Wrapper일 뿐이다라고 비판하는 사람도 많습니다. 경쟁사인 Magic이란 스타트업은 $117M 펀딩을 받고 직접 모델을 학습시키고 있습니다.

다만, 바로 전 Compound AI Systems 블로그에서 알아 봤듯이 이 문제를 해결하기 위해 다양한 approach가 있을 수 있다고 생각하고 아직 단순 GPT-Wrapper로 치부하기엔 이르다고 생각합니다.

반면에 아래는 좀 더 합리적인 비판인 것 같습니다. 현재 Devin은 “compound AI system”으로 “one-shot GPT-4 inference”와 apples-to-apples 비교엔 무리가 있긴 하죠.

Conclusion

Devin이 출시되고 몇일만에 커뮤니티는 달아올랐습니다. Cognition도 Devin을 “first AI software engineer”라고 표방한 것에 대해 이렇게 큰 파급력을 가져올 것이라고 생각하지 못했을 것입니다.

목적이 바이럴 마케팅이었다면 큰 성공입니다.

저 또한 종말론자들이 얘기하듯이 단기간 내로 SWE를 대체할 것이라고 믿지 않습니다. 반대로 “긁힌” SWE들이 무작위로 Devin을 비판하는 것에 대해도 동의하지 않습니다.

물론 아직 개선되어야 할 부분이 많겠지만 Devin 뿐만 아니라 다양한 스타트업들이 만들고 있는 에이전트 프로덕트는 현재 모습보다 비교도 안될 정도로 계속 개선될 것으로 믿고 있습니다.

성능이 개선되고, 기반 인프라 (latency, cost 등)가 올라와서 이러한 에이전트들이 commercially viable해진다면 어떤 파급력이 있을지 매우 궁금해집니다. 또한, 코딩 외 다른 버티컬 작업 내 AI 에이전트 또한 단순 Input —> Output 인터페이스가 아니라 Devin과 같이 실제 사람이 작업하듯이 step-by-step workflow를 replicate하는 방식으로 움직이지 않을까 싶습니다.