GEO

视觉语言模型(VLM)

视觉语言模型(VLM)是一种多模态 AI 系统,它同时接收图像和文本作为输入并产生文本输出,让单个模型能够读取截图、描述照片、转录文档、回答关于图表的问题,并遵循那些把"你所看到的"与"你所说的"结合起来的指令。GPT-4V、Gemini、Claude 3+、Llama 3.2 Vision 和 Qwen-VL 是 2026 年使用最广泛的例子。

视觉语言模型(VLM)是一种多模态 AI 系统,它同时接收图像和文本作为输入并产生文本输出,让单个模型能够读取截图、描述照片、转录文档、回答关于图表的问题,并遵循那些把"你所看到的"与"你所说的"结合起来的指令。GPT-4V、Gemini、Claude 3+、Llama 3.2 Vision 和 Qwen-VL 是 2026 年使用最广泛的例子。

为什么重要

在 VLM 出现之前,"视觉"和"语言"是两条独立的机器学习路线。图像分类器告诉你图片里有什么;LLM 回答文本问题。要把它们连起来需要脆弱的流水线(先生成描述,再进行推理)。VLM 把两者合并到单次前向传播中,模型同时"看见"像素并用语言"思考"。这解锁了以往不可能或极不切实际的工作流:截图调试、文档 OCR + 理解、屏幕自动化、无障碍 UI 导航、基于图像的搜索,以及视觉内容审核。对于开发者来说,VLM 用一种通用能力取代了数十个单一用途的视觉 API。

VLM 的工作原理(简化版)

1. 图像编码器:一个视觉模型(通常是视觉 Transformer / ViT 或 CLIP 风格的编码器)把图像转换成一串图块嵌入,通常是几百到几千个"视觉 token"。

2. 投影层:一个小型的、经过学习的层把视觉 token 映射到与文本 token 相同的嵌入空间,这样 LLM 就能处理它们。

3. 语言模型:一个标准的 LLM 在视觉 token 之后接着消费文本 token,并生成文本响应。从 LLM 的视角看,图像只是一段特殊的 token 前缀。

4. 端到端训练:整个系统在(图像,文本)配对上联合训练,包括图像描述数据集、带图像的指令遵循数据、OCR 数据、图表问答等。

VLM 能做什么

OCR + 理解:读取一张拍下来的收据,并把其中的明细项提取为 JSON。

图表与图形问答:从一张幻灯片截图回答"第三季度营收是多少?"。

文档理解:读取一份 PDF 并回答关于它的问题,无需单独的 OCR 步骤。

屏幕理解:截取一个应用的屏幕并描述屏幕上有什么,这是像 Claude 那样的"计算机使用"智能体的基础。

视觉调试:粘贴一张报错截图并问"哪里出错了?"。

基于图像的写作:根据一张照片生成描述文字、替代文本、社交媒体帖子或产品说明。

无障碍:为视障用户描述图像。

视觉推理:"有多少人穿着红色衬衫?""哪张图表显示出更高的增长?"。

多语言 OCR:读取图像中的中文、日文、阿拉伯文文本,这些是经典 OCR 难以应对的。

知名的 VLM

GPT-4V / GPT-4o / GPT-5 vision(OpenAI):首个大规模的主流闭源 VLM,确立了这种格式。

Gemini 1.5 / 2.0 / 3.0(Google):在长上下文多模态输入上表现强劲,可以摄入数小时的视频。

Claude 3+ / Claude 4 vision(Anthropic):在文档和图表理解上表现强劲,为 Claude 的计算机使用提供支持。

Llama 3.2 Vision(Meta):首个开放权重的主流 VLM,在许多用例中可本地运行。

Qwen2-VL / Qwen3-VL(阿里巴巴):强大的多语言 VLM,尤其擅长中文和韩文文档。

Pixtral(Mistral):开源的欧洲 VLM。

Molmo(AI2):具备基于内容的指向能力的开源 VLM。

局限性

分辨率限制:大多数 VLM 会对图像进行降采样。微小的文字或精细的细节会丢失。

计数与空间推理:仍然出人意料地弱。"这张图里有多少辆车?"经常会差 1 到 2 个。

虚构细节:VLM 有时会凭空捏造图像中并不存在的物体或文本,尤其是当提示词暗示了它们时。

成本:视觉 token 比文本 token 更贵;单张高分辨率图像可能相当于数千个文本 token。

延迟:在文本处理之上,图像输入会增加显著的延迟。

隐私:把截图发送到云端 VLM,会给企业使用带来切实的担忧。

常见使用模式

截图 → JSON:把 VLM 与结构化输出结合,将 UI 转换为结构化数据

OCR 替代方案:跳过 Tesseract / Google Vision,直接询问 VLM。通常更快也更准确。

基于图像的 RAG:对于带有图表或示意图的文档,把视觉分块与文本一起建立索引。

计算机使用智能体:VLM 监视屏幕,决定下一步操作,并调用工具来点击/输入。

视觉评估:用一个 VLM 来判断生成的 UI 看起来是否正确。

常见错误

在不需要时使用 VLM:对于已知的结构化文档,经典 OCR + 解析器往往更便宜也更可靠。

不假思索地用高分辨率:在 1024px 就够用时还发送 4K 截图,会浪费 token。

轻信 VLM 的计数:始终用确定性的检查来核实计数类任务。

忽视隐私:发送到云端 VLM 的客户截图可能包含个人身份信息(PII)。

跳过评估:视觉输出需要它自己的评估策略。纯文本评估会遗漏视觉特有的失败模式。

Sources: