ビジョン言語モデル (VLM)
ビジョン言語モデル(VLM)は、画像とテキストの両方を入力として受け取り、テキストを出力するマルチモーダルAIシステムです。これにより、単一のモデルでスクリーンショットを読み取り、写真を説明し、ドキュメントを書き起こし、グラフに関する質問に答え、「見たもの」と「言ったこと」を組み合わせた指示に従うことができます。GPT-4V、Gemini、Claude 3以降、Llama 3.2 Vision、Qwen-VLが、2026年に最も広く使われている例です。
ビジョン言語モデル(VLM)は、画像とテキストの両方を入力として受け取り、テキストを出力するマルチモーダルAIシステムです。これにより、単一のモデルでスクリーンショットを読み取り、写真を説明し、ドキュメントを書き起こし、グラフに関する質問に答え、「見たもの」と「言ったこと」を組み合わせた指示に従うことができます。GPT-4V、Gemini、Claude 3以降、Llama 3.2 Vision、Qwen-VLが、2026年に最も広く使われている例です。
なぜ重要か
VLM以前、「ビジョン」と「言語」は別々のML分野でした。画像分類器は写真に何が写っているかを教え、LLMはテキストの質問に答えました。両者を結びつけるには、脆いパイプライン(まずキャプションを付け、その後に推論する)が必要でした。VLMはこの2つを単一のフォワードパスに統合します。モデルはピクセルを「見て」、言語で「考える」のを同時に行います。これにより、以前は不可能だったか非現実的なほど手間のかかったワークフローが解放されます。スクリーンショットのデバッグ、ドキュメントのOCR + 理解、画面の自動操作、アクセシブルなUIナビゲーション、画像ベースの検索、ビジュアルコンテンツのモデレーションなどです。開発者にとって、VLMは数十の単一目的のビジョンAPIを、1つの汎用的な機能に置き換えます。
VLMの仕組み(簡略版)
1. 画像エンコーダ: ビジョンモデル(多くはVision Transformer / ViTやCLIP系のエンコーダ)が、画像をパッチ埋め込みのシーケンス、通常は数百から数千個の「視覚トークン」に変換します。
2. 射影層: 小さな学習済みの層が、視覚トークンをテキストトークンと同じ埋め込み空間にマッピングし、LLMがそれらを処理できるようにします。
3. 言語モデル: 標準的なLLMが、視覚トークンに続いてテキストトークンを取り込み、テキスト応答を生成します。LLMの視点からは、画像は単なる特殊なトークンの接頭辞にすぎません。
4. エンドツーエンドの学習: システム全体が、(画像、テキスト)のペアで一括して学習されます。画像キャプションのデータセット、画像付きの指示追従データ、OCRデータ、グラフQAなどです。
VLMができること
OCR + 理解: 撮影したレシートを読み取り、明細項目をJSONとして抽出します。
グラフとチャートのQA: スライドのスクリーンショットから「第3四半期の売上は?」に答えます。
ドキュメント理解: PDFを読み取り、別個のOCRステップなしにそれに関する質問に答えます。
画面理解: アプリのスクリーンショットを撮り、画面に何が表示されているかを説明します。Claudeのような「コンピュータ使用」エージェントの基盤です。
ビジュアルデバッグ: エラーのスクリーンショットを貼り付けて「何が問題か?」と尋ねます。
画像に基づくライティング: 写真からキャプション、代替テキスト、SNS投稿、商品説明を生成します。
アクセシビリティ: 視覚障害のあるユーザーのために画像を説明します。
視覚的推論: 「赤いシャツを着ている人は何人いますか?」「どちらのグラフがより高い成長を示していますか?」
多言語OCR: 従来のOCRが苦手とする、画像内の韓国語、日本語、アラビア語のテキストを読み取ります。
注目すべきVLM
GPT-4V / GPT-4o / GPT-5 vision (OpenAI): 大規模に展開された最初の主要なクローズドソースVLM。フォーマットを確立しました。
Gemini 1.5 / 2.0 / 3.0 (Google): 長文脈のマルチモーダル入力に強く、数時間の動画を取り込めます。
Claude 3以降 / Claude 4 vision (Anthropic): ドキュメントとグラフの理解に強く、Claudeのコンピュータ使用を支えています。
Llama 3.2 Vision (Meta): 最初の主要なオープンウェイトVLM。多くのユースケースでローカルで動作します。
Qwen2-VL / Qwen3-VL (Alibaba): 強力な多言語VLM。特に中国語と韓国語のドキュメントに強いです。
Pixtral (Mistral): オープンソースの欧州製VLM。
Molmo (AI2): グラウンディングによるポインティング機能を備えたオープンVLM。
制約
解像度の制限: ほとんどのVLMは画像をダウンサンプリングします。小さな文字や細かいディテールは失われます。
カウントと空間的推論: いまだに驚くほど苦手です。「この写真に車は何台ありますか?」はしばしば1〜2台ずれます。
ディテールのハルシネーション: VLMは、特にプロンプトがそれを示唆する場合、画像にないオブジェクトやテキストを発明してしまうことがあります。
コスト: 視覚トークンはテキストトークンよりコストが高く、1枚の高解像度画像が数千のテキストトークンに相当することもあります。
レイテンシ: 画像入力は、テキスト処理に加えて大きなレイテンシを追加します。
プライバシー: スクリーンショットをクラウドのVLMに送ることは、エンタープライズ利用において現実的な懸念を生じさせます。
よくある利用パターン
スクリーンショット → JSON: VLMを構造化出力と組み合わせ、UIを構造化データに変換します。
OCRの代替: TesseractやGoogle Visionを省き、VLMに直接尋ねます。多くの場合、より高速で正確です。
画像に基づくRAG: グラフや図を含むドキュメントのために、視覚的なチャンクをテキストと並べてインデックス化します。
コンピュータ使用エージェント: VLMが画面を見て、次の操作を決定し、ツールを呼び出してクリック/入力します。
ビジュアル評価: VLMを使って、生成されたUIが正しく見えるかを判定します。
よくある間違い
不要な場面でVLMを使う: 既知の構造化ドキュメントには、従来のOCR + パーサーの方が安価で信頼性が高いことが多いです。
考えなしに高解像度を使う: 1024pxで十分なところに4Kのスクリーンショットを送ると、トークンを無駄にします。
VLMのカウントを信頼する: カウントタスクは常に決定論的なチェックで検証しましょう。
プライバシーの無視: クラウドのVLMに送られる顧客のスクリーンショットには、PIIが含まれている可能性があります。
評価の省略: 視覚的な出力には、独自の評価戦略が必要です。テキストのみの評価では、ビジョン特有の失敗モードを見逃します。
Sources: