什么是视觉语言模型（VLM）？| GEO 术语表

视觉语言模型（VLM）是一种多模态 AI 系统，它同时接收图像和文本作为输入并产生文本输出，让单个模型能够读取截图、描述照片、转录文档、回答关于图表的问题，并遵循那些把"你所看到的"与"你所说的"结合起来的指令。GPT-4V、Gemini、Claude 3+、Llama 3.2 Vision 和 Qwen-VL 是 2026 年使用最广泛的例子。

为什么重要

在 VLM 出现之前，"视觉"和"语言"是两条独立的机器学习路线。图像分类器告诉你图片里有什么；LLM 回答文本问题。要把它们连起来需要脆弱的流水线（先生成描述，再进行推理）。VLM 把两者合并到单次前向传播中，模型同时"看见"像素并用语言"思考"。这解锁了以往不可能或极不切实际的工作流：截图调试、文档 OCR + 理解、屏幕自动化、无障碍 UI 导航、基于图像的搜索，以及视觉内容审核。对于开发者来说，VLM 用一种通用能力取代了数十个单一用途的视觉 API。

VLM 的工作原理（简化版）

1. 图像编码器：一个视觉模型（通常是视觉 Transformer / ViT 或 CLIP 风格的编码器）把图像转换成一串图块嵌入，通常是几百到几千个"视觉 token"。

2. 投影层：一个小型的、经过学习的层把视觉 token 映射到与文本 token 相同的嵌入空间，这样 LLM 就能处理它们。

3. 语言模型：一个标准的 LLM 在视觉 token 之后接着消费文本 token，并生成文本响应。从 LLM 的视角看，图像只是一段特殊的 token 前缀。

4. 端到端训练：整个系统在（图像，文本）配对上联合训练，包括图像描述数据集、带图像的指令遵循数据、OCR 数据、图表问答等。

VLM 能做什么

OCR + 理解：读取一张拍下来的收据，并把其中的明细项提取为 JSON。

图表与图形问答：从一张幻灯片截图回答"第三季度营收是多少？"。

文档理解：读取一份 PDF 并回答关于它的问题，无需单独的 OCR 步骤。

屏幕理解：截取一个应用的屏幕并描述屏幕上有什么，这是像 Claude 那样的"计算机使用"智能体的基础。

视觉调试：粘贴一张报错截图并问"哪里出错了？"。

基于图像的写作：根据一张照片生成描述文字、替代文本、社交媒体帖子或产品说明。

无障碍：为视障用户描述图像。

视觉推理："有多少人穿着红色衬衫？""哪张图表显示出更高的增长？"。

多语言 OCR：读取图像中的中文、日文、阿拉伯文文本，这些是经典 OCR 难以应对的。

知名的 VLM

GPT-4V / GPT-4o / GPT-5 vision（OpenAI）：首个大规模的主流闭源 VLM，确立了这种格式。

Gemini 1.5 / 2.0 / 3.0（Google）：在长上下文多模态输入上表现强劲，可以摄入数小时的视频。

Claude 3+ / Claude 4 vision（Anthropic）：在文档和图表理解上表现强劲，为 Claude 的计算机使用提供支持。

Llama 3.2 Vision（Meta）：首个开放权重的主流 VLM，在许多用例中可本地运行。

Qwen2-VL / Qwen3-VL（阿里巴巴）：强大的多语言 VLM，尤其擅长中文和韩文文档。

Pixtral（Mistral）：开源的欧洲 VLM。

Molmo（AI2）：具备基于内容的指向能力的开源 VLM。

局限性

分辨率限制：大多数 VLM 会对图像进行降采样。微小的文字或精细的细节会丢失。

计数与空间推理：仍然出人意料地弱。"这张图里有多少辆车？"经常会差 1 到 2 个。

虚构细节：VLM 有时会凭空捏造图像中并不存在的物体或文本，尤其是当提示词暗示了它们时。

成本：视觉 token 比文本 token 更贵；单张高分辨率图像可能相当于数千个文本 token。

延迟：在文本处理之上，图像输入会增加显著的延迟。

隐私：把截图发送到云端 VLM，会给企业使用带来切实的担忧。

常见使用模式

截图 → JSON：把 VLM 与结构化输出结合，将 UI 转换为结构化数据。

OCR 替代方案：跳过 Tesseract / Google Vision，直接询问 VLM。通常更快也更准确。

基于图像的 RAG：对于带有图表或示意图的文档，把视觉分块与文本一起建立索引。

计算机使用智能体：VLM 监视屏幕，决定下一步操作，并调用工具来点击/输入。

视觉评估：用一个 VLM 来判断生成的 UI 看起来是否正确。

常见错误

在不需要时使用 VLM：对于已知的结构化文档，经典 OCR + 解析器往往更便宜也更可靠。

不假思索地用高分辨率：在 1024px 就够用时还发送 4K 截图，会浪费 token。

轻信 VLM 的计数：始终用确定性的检查来核实计数类任务。

忽视隐私：发送到云端 VLM 的客户截图可能包含个人身份信息（PII）。

跳过评估：视觉输出需要它自己的评估策略。纯文本评估会遗漏视觉特有的失败模式。

Sources: