VLM(Vision-Language Model)이란? | GEO 용어집

Vision-Language Model(VLM)은 이미지와 텍스트를 모두 입력으로 받고 텍스트를 출력하는 멀티모달 AI 시스템으로, 단일 모델이 스크린샷을 읽고, 사진을 묘사하고, 문서를 옮기고, 차트에 대한 질문에 답하고, "보이는 것"과 "말하는 것"을 결합한 지시를 따를 수 있게 해줍니다. 2026년 가장 널리 쓰이는 예로는 GPT-4V·Gemini·Claude 3+·Llama 3.2 Vision·Qwen-VL이 있습니다.

왜 중요한가

VLM 이전에 '비전'과 '언어'는 별도의 ML 트랙이었습니다. 이미지 분류기는 사진에 무엇이 있는지 알려주고, LLM은 텍스트 질문에 답했습니다. 둘을 연결하려면 깨지기 쉬운 파이프라인(먼저 캡션, 그다음 추론)이 필요했습니다. VLM은 둘을 단일 forward pass로 합칩니다 — 모델이 픽셀을 '보고' 동시에 언어로 '생각'합니다. 이는 이전엔 불가능했거나 비실용적이었던 워크플로우를 열었습니다: 스크린샷 디버깅·문서 OCR + 이해·화면 자동화·접근 가능한 UI 내비게이션·이미지 기반 검색·시각 콘텐츠 모더레이션. 빌더에게 VLM은 수십 개의 단일 목적 비전 API를 하나의 범용 능력으로 대체합니다.

VLM 작동 원리(단순화)

1. 이미지 인코더: 비전 모델(보통 Vision Transformer/ViT 또는 CLIP 스타일 인코더)이 이미지를 패치 임베딩 시퀀스 — 보통 수백~수천 개의 '시각 토큰' — 로 변환합니다.

2. 프로젝션 레이어: 작은 학습 레이어가 시각 토큰을 텍스트 토큰과 같은 임베딩 공간으로 매핑해 LLM이 처리할 수 있게 합니다.

3. 언어 모델: 표준 LLM이 시각 토큰 다음에 텍스트 토큰을 소비하고 텍스트 응답을 생성합니다. LLM 입장에서 이미지는 그저 토큰의 특수 접두사입니다.

4. 엔드투엔드 훈련: 전체 시스템이 (이미지, 텍스트) 쌍 — 이미지 캡션 데이터셋·이미지가 포함된 지시 따르기 데이터·OCR 데이터·차트 QA 등 — 으로 함께 훈련됩니다.

VLM이 할 수 있는 것

OCR + 이해: 영수증 사진을 읽고 항목을 JSON으로 추출.

차트·그래프 QA: 슬라이드 스크린샷에서 "Q3 매출은?" 답변.

문서 이해: PDF를 읽고 별도 OCR 단계 없이 질문에 답변.

화면 이해: 앱 스크린샷을 받아 화면에 무엇이 있는지 묘사 — Claude의 컴퓨터 사용 같은 에이전트의 기반.

시각 디버깅: 에러 스크린샷을 붙여넣고 "뭐가 잘못됐어?" 물어보기.

이미지 기반 글쓰기: 사진에서 캡션·alt 텍스트·소셜 포스트·제품 설명 생성.

접근성: 시각 장애 사용자를 위한 이미지 묘사.

시각 추론: "빨간 셔츠를 입은 사람이 몇 명?" "어느 그래프가 더 높은 성장?"

다국어 OCR: 클래식 OCR이 어려워하는 한국어·일본어·아랍어 텍스트 읽기.

대표 VLM

GPT-4V·GPT-4o·GPT-5 vision(OpenAI): 대규모 첫 클로즈드 소스 VLM, 포맷을 정립.

Gemini 1.5·2.0·3.0(Google): 긴 컨텍스트 멀티모달 입력에 강함, 수 시간의 비디오 인제스트 가능.

Claude 3+·Claude 4 vision(Anthropic): 문서와 차트 이해에 강함, Claude의 컴퓨터 사용을 구동.

Llama 3.2 Vision(Meta): 첫 메이저 오픈 가중치 VLM, 많은 사용 케이스에서 로컬 실행 가능.

Qwen2-VL·Qwen3-VL(알리바바): 강력한 다국어 VLM, 특히 중국어와 한국어 문서에 강함.

Pixtral(Mistral): 오픈소스 유럽 VLM.

Molmo(AI2): 그라운디드 포인팅 능력을 가진 오픈 VLM.

한계

해상도 제한: 대부분 VLM이 이미지를 다운샘플링합니다. 작은 글씨나 미세한 디테일이 사라집니다.

개수 세기와 공간 추론: 의외로 여전히 약함. "이 사진에 차가 몇 대?"는 종종 1~2대를 놓칩니다.

할루시네이션 디테일: VLM은 가끔 이미지에 없는 객체나 텍스트를 만들어냅니다. 특히 프롬프트가 그것을 시사할 때.

비용: 시각 토큰이 텍스트 토큰보다 비쌉니다. 고해상도 이미지 한 장이 수천 텍스트 토큰과 같을 수 있음.

지연: 이미지 입력은 텍스트 처리 위에 상당한 지연을 더합니다.

프라이버시: 클라우드 VLM에 스크린샷을 보내는 것은 엔터프라이즈 사용에 진짜 우려를 일으킵니다.

흔한 사용 패턴

스크린샷 → JSON: VLM과 구조화된 출력을 결합해 UI를 구조화 데이터로 변환.

OCR 대체: Tesseract·Google Vision을 건너뛰고 VLM에게 직접 묻기. 종종 더 빠르고 정확.

이미지 기반 RAG: 차트·다이어그램이 있는 문서에 시각 청크를 텍스트와 함께 인덱싱.

컴퓨터 사용 에이전트: VLM이 화면을 보고 다음 동작을 결정, 도구를 호출해 클릭·입력.

시각 평가: 생성된 UI가 옳게 보이는지 VLM에게 판단시키기.

흔한 실수

필요 없을 때 VLM 사용: 알려진 구조화 문서엔 클래식 OCR + 파서가 종종 더 저렴하고 안정적.

생각 없는 고해상도: 1024px면 충분한데 4K 스크린샷 보내기는 토큰 낭비.

VLM의 개수 세기 신뢰: 개수 작업은 항상 결정적 체크로 검증하세요.

프라이버시 무시: 클라우드 VLM에 보내는 고객 스크린샷에 PII가 포함될 수 있습니다.

평가 생략: 시각 출력은 자체 평가 전략이 필요합니다. 텍스트 전용 평가는 비전 특유의 실패 모드를 놓칩니다.

Sources:

Vision-Language Model