숨빗AI - AI로 영상의학을 혁신한다

Apr 22, 2026

Contents

Intro 먼저, 가장 큰 오해부터 정리…제가 관심을 갖게 된 이유: 한국이 실제로 이길 수 있는 판 한국이 조용히 쥐고 있는 헬스케어 데이터의 구조적 우위 영상의학 전문의에게 찾아온 ChatGPT 모먼트 왜 1세대 회사들이 할 수 없을까?CNN의 치명적인 약점 CNN vs. Transformers 혁신가의 딜레마, 구체적으로 숨빗은 지금 실제로 어떤 회사인가 왜 지금 이 순간이 특별한가 마치며

💡

Disclaimer: Me nor my current employer, to the best of my knowledge, has any economic interest in Soombit AI as of this writing.

Intro

글을 쓴 지 꽤 됐습니다. 숨빗AI라는 매우 재밌고 exciting한 회사를 소개드리고자 합니다.

지난 한 달 사이에 한 번쯤 이름을 들어보셨을지도 모릅니다. 숨빗은 최근 세계 최초로 생성형 AI 의료 영상 소프트웨어에 대한 규제 허가를 한국 식품의약품안전처(식약처)로부터 받았습니다.

저는 숨빗을 약 1년 반 동안 follow 해왔습니다. 배웅 대표님이 감사하게도 여러 차례 시간을 내주셨고, 덕분에 시드 라운드 직후부터 빌드업 기간을 거쳐, 드디어 규제 승인선을 넘은 최근 몇 달까지 앞자리에서 회사를 관찰할 수 있었습니다.

대부분의 헤드라인은 지금 벌어진 일의 크기를 잘 담아내지 못하고 있습니다. 지난 몇 년간 "AI 영상의학"을 둘러싼 소음이 워낙 많아서, 숨빗도 그중 하나쯤으로 치부하기 쉬울 것 같습니다.

저는 그렇게 생각하지 않습니다. 이건 카테고리 자체가 완전 새로운 시작이라고 봅니다.

영상의학 전문의들은 매일 수백 장의 영상을 판독합니다. 영상을 "보는" 시간보다 판독문을 "쓰는" 시간이 더 긴 경우가 많습니다. 지난 10년간 수백 개의 AI 회사들이 이 문제를 풀겠다고 나섰지만, 대부분은 "이 영상에 이상이 있습니다"라고 알려주는 탐지(detection) 도구에 그쳤습니다. 영상의학 전문의의 진짜 병목 — 판독문 작성 — 은 건드리지 못했죠.

판독문을 작성한다는 것은 기존 AI 회사들과 달리 하나의 모델로 특정 병변 하나를 탐지하는 것이 아니라, 영상의학 전문의가 실제로 수행하는 사고과정과 유사하게 영상 전체를 보고 종합적으로 추론한다는 뜻입니다.

숨빗AI는 여기서 출발합니다. 흉부 X-ray를 넣으면 히트맵이 아니라 판독문 초안이 나옵니다. 영상의학 전문의가 백지에서 시작하는 대신, AI가 생성한 초안을 확인하고 수정하는 방식으로 일합니다. 이건 기존 AI 영상의학 제품의 "업그레이드"가 아닙니다. 근본적으로 다른 기술 — 생성형 AI, 구체적으로는 비전-언어 모델(Vision-Language Model) — 위에서 만들어진 완전히 새로운 카테고리의 제품입니다.

먼저, 가장 큰 오해부터 정리…

제가 이야기해본 대부분의 투자자들은 숨빗을 "그냥 1세대 AI 영상의학 회사 중 조금 나은 버전" 정도로 인식합니다. 미미한 업그레이드. 이미 포화된 카테고리여서 세일즈가 어려운 제품.

이 프레이밍은 완전 틀렸다고 봅니다. ADAS(Cruise Control)와 테슬라 FSD를 같은 범주로 놓는 셈이에요.

ADAS — 어댑티브 크루즈, 차선 유지, 자동 긴급 제동 — 은 정말 유용한 기술입니다. 수백만 대의 차량이 탑재하고 있고, Mobileye는 이걸로 수십억 달러짜리 비즈니스를 만들었습니다. 그런데 ADAS는 사실 "운전"이 아닙니다. 특정 조건 — 깨끗한 고속도로, 뚜렷한 차선, 좋은 날씨, 예측 가능한 교통 — 안에서만 작동하는 좁고 한정된 기능들의 묶음이죠. 고속도로를 벗어나거나, 비가 오거나, 보행자가 돌아다니는 주차장에 놓이면 시스템은 아예 작동하지 않습니다.

FSD는 근본적으로 다른 제품입니다. "ADAS의 개선판"이 아닙니다. 고정된 시나리오 메뉴에 패턴 매칭하는 게 아니라, 시스템이 세상 자체를 추론하는 일반 운전 지능을 만들려는 시도입니다. ADAS가 애초에 다루도록 설계되지 않은 98퍼센타일 상황들을 처리하는 제품이죠.

숨빗의 시장 기회를 1세대 AI 영상의학 회사들의 현재 매출과 시가총액으로 프레이밍하는 건, 테슬라나 Waymo의 기회를 Mobileye의 매출로 제한하는 것과 같습니다. 두 제품이 같은 카테고리가 아니기 때문에 성립하지 않는 비교입니다. 일상 대화에서 같은 우산 용어("운전자 보조", "AI 영상의학") 아래에 묶여 있을 뿐이죠.

1세대 AI 영상의학은 영상의학계의 ADAS입니다. 좁은 범위 안에서는 유용하고, 실제 매출도 나오고, 특정 워크플로우에서 임상적 가치도 있습니다. 그런데 숨빗이 하려는 일을 구조적으로 할 수 없습니다.

숨빗은 1세대 AI 영상의학과 경쟁하는 게 아닙니다. 영상의학 리포트는 사람이 써야 한다는 전제 자체와 경쟁하고 있습니다. 물론 영상의학과 전문의님들을 대체하지 못하겠지만, 이 분들의 생산성을 10배, 1,000배 증진 시켜 헬스케어의 질과 접근성을 극대화 시킬 수 있을 것입니다.

이 구분을 머릿속에 두고 이후 내용을 읽어주시면 좋겠습니다.

제가 관심을 갖게 된 이유: 한국이 실제로 이길 수 있는 판

VC들이 "글로벌 경쟁력"이라는 말을 많이 합니다. 저는 이 말을 꽤 엄격하게 사용해서 자주 비관론자 소리를 듣는 편입니다.

제 프레이밍은 이렇습니다. 한국이 글로벌 경쟁력 있는 망고 생산국이 될 수 없는 것처럼, 저희 나라에선 Polymarket이나 Kalshi 같은 Prediction Market 회사들이 나오지 못하는 것처럼, 어떤 산업은 한국이 글로벌 스케일에 도달할 수 있고 어떤 산업은 구조적으로 도달할 수 없다고 믿습니다.

문화, 역사, 인구구조, 날씨, 천연자원, 그리고 그 회사가 태어난 규제 환경이 이를 결정합니다. 저는 회사를 볼 때 주변 조건이 애초에 글로벌 경쟁력을 허용하는지를 상당히 중요하게 봅니다.

이 프레이밍으로 보면, 한국은 범용 파운데이션 모델(차세대 OpenAI나 Anthropic)에서 글로벌 경쟁력을 가질 수 없다고 생각합니다. 물론 한국 LLM 회사들이 성공하지 못한다거나 나쁜 투자라는 것은 아닙니다. 글로벌 경쟁력과 투자 수익률은 다른 축입니다. 투자 철학은 다를 수 있으니까요.

제가 계속 곱씹던 질문은 이거였습니다. 한국 스타트업이 AI에서 글로벌하게 이길 수 있는 판이 어디인가? 남들이 갖지 못한 구조적 우위가 있는 곳. 말하자면 날씨가 우리 편인 곳.

한국이 조용히 쥐고 있는 헬스케어 데이터의 구조적 우위

세상 모든 헬스케어 AI 스타트업이 똑같은 문제에 부딪힙니다.

새로운 기술은 데이터가 필요함 → 데이터는 보호됨 → 기술이 개선될 수 없음 → 제품이 팔리지 않음.

나라마다 개인정보/헬스케어 데이터에 규제가 빡세게 걸려있습니다. 미국은 HIPAA, 유럽은 GDPR. 이렇다보니 대부분의 회사가 엄청난 비용을 들여 브로커를 통해 데이터를 사거나, 영상의학 전문의에게 돈을 주고 라벨링을 시킵니다.

한국은 업계 바깥에서는 거의 알려지지 않은 방식으로 독특한 위치를 점하고 있습니다.

의료는 5개의 주요 대학병원 컨소시엄(big 5)에 집중되어 있습니다. 고품질의, 동질적이고, 대량인 데이터가 수천 개의 독립 클리닉에 흩어져 있는 게 아니라 한 곳에 모여 있습니다.

단일 보험자 제도 덕분에 코딩과 리포트 포맷이 표준화되어 있습니다. 기본적으로 머신 리더블합니다.

해외 스타트업의 경우, 매우 고통스러운 방식으로 데이터를 얻어내야하고, 결과물은 포맷과 품질이 이질적이라 엄청난 정제 작업 없이는 쓰기 힘듭니다.

숨빗은 이미 페어링된 CXR 약 1,400만 장을 리포트 및 EMR과 함께 확보했습니다. 전 세계 어느 스타트업이 모아본 독점 의료 영상 데이터셋 중 가장 큰 규모 축에 듭니다.

현재 트랜스포머 기반 AI 모델이 대세가 되기 까지, 한국 의료 생태계는 유난히 준비가 잘 되어 있었던 셈입니다.

영상의학 전문의에게 찾아온 ChatGPT 모먼트

2022년 말, ChatGPT가 등장했습니다. 장난감인가? 실제 업무에 도움이 되긴 할까?

이 상황에서 영상의학과에선 매우 조용한 아키텍처 혁명이 일어나고 있었습니다. 바로 비전-언어 모델(Vision-Language Model, VLM) 입니다. 이미지를 보고 자연어로 추론할 수 있는 모델이에요. "탐지” 및 “분류”만 하는 게 아니라요.

영상의학의 병목은 병변을 발견(detection)하는 일이 아닙니다. 리포트를 쓰는 일입니다.

2015년부터 2022년까지 만들어진 거의 모든 "AI 영상의학" 제품은 디텍션 툴이었습니다. 흉부 X-ray를 넣으면 의심 부위에 히트맵을 띄워주는 식. 유용합니다. 그런데 영상의학 전문의의 하루를 실제로 잡아먹는 단계는 건드리지 못합니다.

한 국내 흉부 영상의학 전문의께 자신의 작업 시간을 측정해달라고 부탁드렸더니, 결과가 인상적이었습니다.

X-ray 하나를 보는 시간: 5초, 길게는 30초

리포트 타이핑 시간: 15초, 길게는 1분

그분의 말씀을 거의 그대로 옮기면:

"영상의학 전문의들이 CXR 판독을 싫어하는 이유 중 하나는, 영상을 본 게 끝이 아니라는 거예요. 그다음에 리포트를 타이핑해야 하는데, 그 과정 상당 부분이 낭비처럼 느껴지거든요."

한 미국 시니어 영상의학 전문의는 숨빗이 복잡한 입원 환자 CXR 판독 시간(turnaround time)을 50~75% 단축할 수 있다고 추정했습니다. 그는 주요 1세대 디텍션 툴을 전부 써본 분입니다. 그분의 결론은 1세대 툴이 "일을 두 번 하게 만든다"는 것이었습니다. 한 번은 히트맵을 확인하느라, 또 한 번은 백지부터 리포트를 쓰느라.

영상의학과 전문의들은 매일 100장, 많게는 200장까지 보고 계십니다. X-Ray는 항상 백로그가 무한대로 쌓여있고, 스크리닝 목적이기에 저부가가치 일로 치부되어 가장 기피하는 작업입니다.

VLM은 이걸 뒤집습니다. 히트맵 대신 초안 리포트가 나옵니다. 영상의학 전문의는 쓰는 게 아니라 그대로 사용하거나 일부 편집하면 됩니다. 백지에서 시작하는 것과 거의 완성된 초안에서 시작하는 것의 차이죠. 글쓰기를 업으로 삼는 사람이라면 이 둘이 완전히 다른 인지 과제라는 걸 압니다.

이걸 제대로 해내는 회사 — 규제 적합성과 워크플로우 통합, 그리고 영상의학 전문의가 실제로 사인을 할 만큼 신뢰할 수 있는 수준을 확보한 회사 — 는 단지 흉부 X-ray만 먹는 게 아닙니다. CT가 열리고, 다음에 MRI가 열리고, 결국 헬스케어 시스템에서 가장 비싼 병목 전체의 다운스트림 자동화가 열립니다.

이 일이 일어난다면, 스타트업 안에서 일어날 수밖에 없습니다.

왜 1세대 회사들이 할 수 없을까?

처음 이 결론에 도달했을 때 제 솔직한 반응은 "1세대 업체들이 그냥 VLM 제품도 만들면 되는 거 아닌가?" 였습니다.

제가 내린 결론은 그들이 못 한다고 생각합니다. 두 가지 이유 때문입니다.

기저의 기술 스택이 근본적으로 다릅니다. CNN을 위해 만든 레거시 데이터, 인프라, 라벨링 파이프라인, 모델 아키텍처는 VLM으로 넘어오지 않습니다.

💡

기존 업체들이 완전한 제로에서 시작하는 것은 아닙니다 — CNN용으로 수집된 데이터도 일부 트랜스포머 학습에 활용할 수 있습니다. 그러나 그 데이터는 특정 소견에만 특화되어 있고, 생성형 AI를 학습하는 노하우와 human-in-the-loop 방식론은 기존과 근본적으로 다릅니다. 이 기술적 노하우의 gap이 실질적 장벽입니다.

혁신가의 딜레마. 그들의 기존 사업은 예전 아키텍처가 계속 중요해야 유지됩니다. 새 패러다임을 쫓기 위해 기존 사업을 자기잠식하는 건, 기성 기업들이 빠지는 혁신가의 딜레마입니다. 새로운 AI 패러다임 시프트 시점인 지금, 수백명의 조직을 거닌 기업체보다 lean하고 빠르게 움직이는 스타트업이 이길 수 있습니다.

CNN의 치명적인 약점

저는 헬스케어나 AI 전문가가도 아닙니다. 그래서 복잡한 주제를 이해할 때 예시로 이해하는 것을 좋아합니다.

HBO 드라마 《실리콘밸리》에 지안-양이라는 조연이 자기 최신 발명품을 얼릭 바흐만이라는 자칭 투자자에게 피치하는 에피소드가 있습니다. 지안-양은 사진 속 어떤 물체든 식별할 수 있는 앱 — 범용 시각 지능 — 을 만들었다고 주장합니다.

얼릭은 완전히 매료되어 즉석에서 소유권을 주장하고 IPO를 상상하기 시작합니다. 앱을 시연해봅니다. 지안-양이 아이폰을 소시지 위에 올립니다. 앱이 자신있게 말하죠. "hotdog." 작동합니다!

얼릭이 피자에 해봅니다. "Not hotdog."

타코. "Not hotdog."

강아지. "Not hotdog."

얼릭은 지안-양이 실제로 만든 것이 뭔지 깨닫습니다. 범용 객체 인식 시스템이 아니라, 하나의 특정 대상에 대한 매우 정확한 이진 분류기였던 거죠. 이 앱은 아무것도 "이해"한 적이 없습니다. 이미지에 핫도그가 있는지 없는지만 아주 잘 배운 거예요. (참고로 그 회사는 이후 특정 신체 부위를 걸러내는 콘텐츠 모더레이션 필터로 인수당합니다. 나름의 구원 서사.)

핫도그 앱에 가치가 있다고 가정해봅시다. 당신이 핫도그 음식점을 운영해서 메뉴 사진을 자동 태깅하고 싶거나, 푸드 인플루언서여서 피드에서 핫도그 콘텐츠를 필터링하고 싶다고 해보죠. 좁은 과제, 좁은 제품. 괜찮습니다.

그런데 현실이 학습 분포에서 살짝만 벗어나면 무슨 일이 일어나는지 봅시다.

반 토막 난 핫도그 — 한 입 베어 물었거나, 아이 간식으로 반으로 자른 것. 실패할 가능성이 높습니다. 학습 데이터의 99%가 옆에서 찍은 온전한 핫도그였거든요.

야구장 매점의 세로 홀더에 꽂혀 있는 핫도그. 방향이 다르니 모델이 알아보질 못합니다.

생 핫도그 묶음. 시각적 특징이 "빵 위에 올라간 핫도그"와 매칭되지 않습니다. 모델은 오작동합니다.

초리조나 브라트부어스트. 사람 눈에는 가까운 사촌처럼 보이는 소시지류. 모델은 "소시지 근처"라는 개념이 없어서, 인식하지 못합니다.

실패 양상은 매번 같습니다. CNN의 이러한 분포 외 일반화(out-of-distribution generalization)가 떨어지는 근본 원인은 inductive bias입니다. 이로 인해 대량의 풍부하고 다양한 데이터를 효과적으로 흡수할 수 없는 구조이며, generalization 확보의 핵심인 데이터 다양성을 살리지 못합니다. 학습된 이미지의 분포에 대해 패턴 매칭할 뿐. 실제 입력이 그 분포 바깥에 놓이는 순간 성능은 떨어집니다.

이제 "핫도그"를 "흉부 X-ray"로 바꿔봅시다

실패 양상은 같습니다. 리스크는 훨씬 큽니다.

1세대 AI 영상의학은 매우 특정한 이미지 분포에서 학습됐습니다. 성인 환자, 직립 자세, 숨을 깊이 들이마신 상태, 뒤에서 촬영한 PA view. 그 분포 안의 이미지를 보여주면 성능이 훌륭합니다. 조금만 드리프트하면 핫도그 앱과 똑같이 조용히 무너집니다.

한 교수님 — 1세대 디텍션 툴을 일상 진료에서 쓰는 영상의학 전문의 — 께 실제로 어디서 실패하는지 여쭤봤습니다. 답은 단도직입적이었습니다.

"성능이 최적인 건 성인, 직립, 깊이 들이마신 환자뿐이에요. 누워서 찍은 환자(AP view), 소아 환자, 병실에서 찍는 이동식 포터블 영상의 경우 성능이 눈에 띄게 떨어집니다. 저희 병원은 이런 툴을 성인 + 직립 환자에는 100% 적용하지만, 소아 환자나 누운 환자에는 아예 적용하지 않습니다."

이게 병원에서 실제로 무슨 뜻인지 생각해보세요. 누워서 X-ray를 찍는 환자는 서 있기 힘들 만큼 아픈 사람들입니다. ICU, 수술 후, 외상, 고령. 병변을 놓쳤을 때 임상적 비용이 가장 큰 바로 그 집단이죠. 그리고 1세대 툴이 실패하거나 아예 적용되지 않는 집단이 정확히 이들입니다.

이건 아키텍처 문제지 "학습 데이터를 더 넣으면 해결된다"의 문제가 아닙니다. 분류기는 고정된 시점에 결합된 고정된 시각적 특징들을 학습합니다. 시점이 바뀌거나(AP vs PA), 해부학이 바뀌거나(소아는 흉곽 모양이 다르고, 심장이 흉부 대비 더 커 보임), 이동식 포터블의 조명과 포지셔닝이 바뀌면, 모델이 학습한 특징들이 더 이상 임상적 실체와 안정적으로 대응하지 않게 됩니다.

"환자를 눕혀서 찍으면 심장은 더 커 보이고, 흉막 삼출액이 바닥에 고이고, 폐가 서 있을 때보다 전반적으로 더 하얗게 보여요. 초기 모델들은 이런 정상적인 AP 소견을 *심비대(cardiomegaly)*나 *폐부종(pulmonary edema)*이라고 호출하곤 했습니다. 순전히 촬영 지오메트리 때문에 발생하는 위양성이죠."

이 것이 분류기와 추론자의 차이입니다. 핫도그 앱은 추론하지 않습니다.

그리고 이게 바로 "기존 업체들이 기존 제품 위에 LLM만 얹으면 된다"고 가정할 때 대부분이 놓치는 지점입니다. 패턴 매칭 위에 추론을 얹을 수 없습니다. ADAS가 절대로 자율주행을 할 수 없는 것처럼요. 시스템이 근본적으로 무엇인지가 뿌리 레벨에서 다릅니다.

오늘날의 헬스케어 "AI" 대부분은 아키텍처 관점에서 매우 특정한 종류의 핫도그만 학습한 핫도그 앱입니다. 누워 있는 환자, 소아, 포터블 영상, 인종, 기기, 그 외 좁은 학습 분포 바깥의 모든 것에서 무너지는 이유입니다. 리포트를 쓸 수 없는 이유이기도 하고요. 리포트 작성은 분류기가 범주적으로 할 수 없는 그 한 가지를 요구하거든요. 자신이 보는 것을 종합적으로 고려하여 언어로 추론하는 일 말입니다.

리포트 작성 뿐일까요? 트랜스포머는 소아 환자, AP view, PA view 등 다양한 환경에서 워킹합니다. 만약에 환자의 이전 X-Ray 영상과 비교해보고 싶다면요? 환자의 상태/지병 등의 context를 입히고 싶다면요? ViT가 가능하게 하지만, CNN으로는 절대 불가능합니다.

이게 AI-네이티브 스타트업이 훨씬 크고 훨씬 잘 자본화된 기존 업체들 상대로 진짜 기회의 창을 갖는 구조적 이유입니다. Paradigm shift 입니다.

CNN vs. Transformers

ㅤ	CNN	Transformer (VLM)
핵심 구조	슬라이딩 윈도우(커널)가 이미지를 국소적으로 스캔	Self-attention으로 모든 패치 간 관계를 동시에 학습
Inductive Bias	강함 — locality(인접 픽셀 우선), translation invariance(위치 무관 패턴 매칭)가 내장	거의 없음 — 구조적 가정 없이 데이터에서 관계를 직접 학습
소량 데이터 학습	✅ 강점. 강한 prior 덕분에 적은 데이터로도 빠르게 수렴	❌ 약점. 사전 가정이 없어서 소량 데이터로는 학습 불안정
대량·다양한 데이터 흡수	❌ 구조적 한계. 데이터가 늘어도 local filter의 ceiling에 부딪힘	✅ 강점. 데이터 양에 비례하여 표현력이 스케일
장거리 의존성	❌ 불가. 커널 크기에 제한되어 영상 전체의 맥락을 동시에 볼 수 없음	✅ 가능. 심장 실루엣 ↔ 견갑골 위치 ↔ 촬영 자세 등을 동시에 추론
OOD 일반화	❌ 약함. 학습 분포 밖(AP view, 소아, 포터블 등)에서 성능 급락	✅ 강함. 풍부한 데이터로 학습 시, 다양한 분포에 걸쳐 generalize
출력 형태	분류/탐지 (히트맵, 이진 판별)	자연어 추론 (리포트 초안, 비교 판독, 맥락 기반 해석)
맥락 통합	❌ 불가. 이전 영상 비교, 환자 병력 등 외부 context 입력 불가	✅ 가능. 이전 영상, EMR, 환자 상태 등을 함께 입력하여 종합 판단
라벨링 요구사항	전문의가 병변별로 수동 어노테이션 (고비용, 시간 소요)	이미지-판독문 페어 데이터로 학습 가능 (기존 병원 아카이브 활용)

CNN의 강점(데이터 효율성, 빠른 수렴)은 2015–2020년 의료 AI 데이터가 부족하던 시기에는 장점이었지만, 지금처럼 대량의 다양한 데이터를 흡수해서 일반화해야 하는 시대에는 정확히 그 강점이 ceiling이 됩니다.

혁신가의 딜레마, 구체적으로

피벗은 엔지니어링 프로젝트만의 문제가 아닙니다. 재무적이고 조직적인 문제이기도 하고, 대개 그 지점에서 죽습니다.

레거시 CNN 회사가 현 스택에 얼마나 묻어뒀는지 보세요.

몇 백억 규모를 5년+간 어노테이션 비용으로 누적. 전문의가 병변을 하나하나 라벨링한 비용.

수년에 걸쳐 맺은 PACS 유통 파트너십. 전부 디텍션/플래그 제품을 전제로 설계되어 있음.

세일즈 내러티브와 발표된 임상시험들이 전부 디텍션 지표(특정 소견에 대한 민감도/특이도)로 프레이밍됨.

공개 시장 밸류에이션이 그 지표들에 고정되어 있기까지 함.

이제 당신이 CEO라고 상상해보세요. 이사회에 가서 이렇게 말해야 합니다. "우리가 10년간 수백~천억을 쏟은 기술은 대체되고 있습니다. 새로운 기술을 만들어야 하고, 완전히 다른 아키텍처를 써야 하고, 새로운 유형의 데이터셋(손으로 라벨링한 이미지가 아니라 이미지-리포트 페어 데이터) 위에서 해야 하고, 기존 고객들에게 그들이 얼마 전 산 제품이 미래가 아니라고 말해야 합니다."

쉬운 대화가 아닐 것입니다.

반면 숨빗의 어노테이션 비용은 훨씬 적습니다. 손으로 라벨링하고 가공해야할 데이터셋이 아니라 이미 있는 병원 아카이브에서 수집한 이미지-리포트 페어 데이터 위에서 학습하기 때문이죠.

숨빗은 지금 실제로 어떤 회사인가

숨빗에서 공개한 몇 가지 데이터 포인트입니다.

임상 검증

2.5년 동안《Radiology》(영상의학 분야 탑 저널, impact factor >19)에 3편, 그리고《AJR》에 1편.

현재까지 가장 큰 리더 스터디(Hong et al., Radiology 2025)에서, 숨빗의 AI 생성 CXR 리포트 중 64.1%가 7명의 흉부 영상의학 전문의 패널에 의해 수정 없이 그대로 수용되었고, 추가로 23.6%가 경미한 수정만으로 수용됨

숨빗의 AI 생성 리포트가 영상의학 전문의가 작성한 리포트와 GPT-4V 모두를 제치고 60%의 케이스에서 1위로 평가

And… this is the worst it will ever be.

실제 전문의들은, 써보면, 원합니다

론칭 전부터 숨빗을 테스트해온 국내 대학병원 영상의학 전문의:

"1세대 제품들을 볼 때는 늘 'AI라는 게 별거 없네' 싶었어요. 위양성, 위음성이 많고. 숨빗은 처음 써봤을 때, 생성되는 텍스트가 정확히 제가 원하는 수준이었습니다. 대학병원에서 전공의나 펠로우한테 도움받는 느낌이었어요. 솔직히 놀랐습니다."

왜 지금 이 순간이 특별한가

생성형 AI에 대한 의료 규제 경로는 전 세계 어디에도 아직 존재하지 않습니다. FDA의 승인 기기 리스트는 여전히 거의 전부 CNN 기반 분류기고, 유럽의 MDR은 더 보수적입니다. 최초로 허가를 받는 회사들은, 정의상, 규제 기관과 어깨를 맞대고 프레임워크를 함께 작성한 회사들입니다.

한국 식약처는 숨빗에 유일무이한 선점 효과를 안겨주고 있습니다.

규제 무드도 전 세계적으로 빠르게 움직이고 있습니다. 최근 네 달만 봐도:

2026년 1월: FDA가 CDS 소프트웨어 가이던스를 완화. 의사가 최종 결정자로 남는 AI 도구는 전면 규제 대상에서 제외.

2026년 3월: Cognita (직접적 VLM 경쟁사)가 FDA Breakthrough Device Designation 획득.

규제의 문이 열리고 있습니다. 이 문을 성숙하고 임상적으로 검증된 제품을 들고 가장 먼저 통과하는 게 누구냐가 관건입니다. 전 세계적으로 그 대화에 낄 수 있는 회사는 두세 곳뿐이라고 파악하고 있습니다.

무엇보다도 지금 현재 문이 열려있지 않다고 해서 준비하지 않는 것은 멍청하다고 생각합니다. 숨빗AI는 불확실한 규제 환경에도 올 수 밖에 없는 미래를 대비해 기술을 고도화하였고, 식약처와 협업하여 문을 개방하였고, 이 미래가 다가오고 있습니다.

마치며

숨빗이 반드시 이긴다고 말하는 건 아닙니다. 훌륭한 기술과 훌륭한 타이밍을 가지고도 커머셜 실행, 수가 협상, 혹은 잘못된 시점에서의 자금 고갈 때문에 무너진 회사가 셀 수 없이 많습니다. 흉부 X-ray는 임상적으로 생각보다 어려운 영역이기도 합니다. CT, MRI 모달리티로 뻗어 나갈 때엔 새로운 챌린지가 있을 수도 있죠.

그럼에도 제가 계속 돌아오는 지점들:

헬스케어 데이터와 한국이 가진 고유한 구조적 우위 (선제적인 규제기관, 세계 최고 수준의 의료기관 및 의사들 등)

Bloated 된 기존 업체들이 구조적인 이유로 따라잡기 힘든 소규모 AI-네이티브 기술 및 팀

세계 최초의 생성형 AI 의료기기 허가, 그리고 그걸 만들어낸 규제 기관과의 신뢰 및 파트너십

11명 남짓한 소규모 팀이, 훨씬 크고 잘 자본화된 선행 업체들 대비 만들어 내온 실적

써본 영상의학 전문의들이 "이게 처음으로 내 하루를 줄여주는 제품"이라고 말하고 있음

한국 회사가 글로벌 카테고리 리더가 되는 드문 케이스 중 하나일 수 있다고 봅니다. 이 시장의 형태, 규제 환경, 데이터셋, 그리고 훌륭한 팀 - 이 모든 것이 동시에 맛물렸기 때문입니다.

💬 여기까지 읽어주셨다면 — 질문, 반론, 지적 모두 환영합니다.

Contents

Jason 블로그 구독하기