マルチモーダルモデル（視覚 / 音声 / 動画）

💡 学習ガイド：本章では深いコンピュータビジョンの知識は必要ありません。インタラクティブなデモを通じて、AI がどのように「目」を持ったのかを理解します。GPT-4V、Qwen-VL などのモデルの背後にある核心的な原理を解き明かします。

🖼️

Upload an image first

Waiting for image upload...

0. はじめに：脳に目を取り付ける

大規模言語モデル入門では、LLM は本質的に、黒い箱に閉じ込められ、文字のみを通じて世界を理解する「脳」であることを学びました。

マルチモーダル大規模モデル (VLM) の登場は、この脳に一対の目を取り付けたようなものです。

しかしこれは容易なことではありません。なぜなら：

脳 (LLM) は文字（正確にはトークン ID）しか理解できません。
目 (カメラ) が見るのはピクセル（RGB の色の数値）です。

VLM の核心的な役割は、「ピクセル信号」を「文字信号」に翻訳すること、つまり LLM にとって画像を見ることが文章を読むのと同じくらい簡単に感じられるようにすることです。

1. 第一歩：画像を「単語」に変える (Visual Tokenization)

想像してみてください。あなたは電話で友人にパズルの絵を説明しようとしています。一気に全部は話せず、一枚一枚説明していく必要があります。コンピュータが画像を見るのも同じ理屈です。

1.1 切り分け (Patchify) —— 視覚単語の作成

大規模言語モデル (LLM) はテキストを処理する際、文章を一つ一つのトークン (Token) に分解します。もし LLM に画像を「読ませ」たいなら、最も直感的な方法は画像もトークンのような形に変換することです。

このように大規模モデルが「単語を読む習慣」に合わせるために、連続的な二次元画像を離散的な断片に変換する技術が必要です。ここで登場するのがビジュアルパッチ分割 (Patchify) の概念です：完全な一枚の二次元画像を、豆腐を切るように、一定のグリッドの小さな正方形（Patch と呼びます）に切り分けます。

元の画像 = 一篇の完全な文章
画像パッチ (Patch) = 文章の中の一つの単語 (Token)

エンジニアリングの実践では、通常画像を固定サイズ（例えば $16 \times 16$ や $14 \times 14$ ピクセル）でシームレスに分割します。例えば、一般的な $224 \times 224$ ピクセルの入力画像は、分割後 $14 \times 14 = 196$ 個の独立した画像ブロックになります。この操作により、元々連続的で完全な二次元ピクセル配列は、196 個の離散的な「視覚単語帳」に物理的に切り分けられます。

🕹️ インタラクティブデモ：下のボタンをクリックして、元の画像がどのように規則的なグリッドで個々の Patch に切り分けられるかを体験してください。

Step 1 / 4

1. Original Image: the raw input seen by the computer.

1.2 直列化 (Flatten) —— 一文に並べる

前のステップの切り分けが完了すると、手元には $14 \times 14$ の二次元正方行列があります。しかし、従来の Transformer も現代の LLM も、アーキテクチャの最下層ではほとんどが一次元のシーケンス入力（つまり左から右へ一列に並んだ線形データ構造）のみを受け付けます。

大規模モデルの入力仕様に合わせるために、直列化 (Flatten) と線形投影 (Linear Projection) を行う必要があります：

平らに伸ばす (Flatten)：複数行の画像ブロックを端から端までつなぎ、二次元行列を「平らに伸ばして」前後の順序だけを持つ一次元の長軸にします。
特徴の引き伸ばし (Projection)：この 196 個のブロックはまだ赤・緑・青のピクセルが積み重なった「生の素材」です。小さなニューラルネットワーク（通常は全結合層）を用いて各ブロックを処理し、それぞれを固定長の特徴ベクトル（例えば長さ 768 の数値リスト）に圧縮・変換する必要があります。

このステップを経て、一枚の画像は初めて本当の意味で「視覚単語シーケンス」（Visual Token Sequence）になります。

🕹️ インタラクティブデモ：下のアニメーションを見て、一つの純粋なピクセルブロック (Patch) がどのように行列の引き伸ばしを経て、最終的に豊富な特徴次元を含む高次元のベクトル (Vector) にマッピングされるかを理解しましょう。

1. Patch (16×16×3) (toy example)

16×16 pixels × 3 channels = 768 scalar values

➜

2. Flatten

…

Get a 1×768 vector

× W

3. Embedding

Map to D dimensions (toy D=8; common D=768)

2. 第二歩：異種間翻訳 (Projection)

ここまでで、画像は一次元の連続した「視覚単語」シーケンスに変換されましたが、このシーケンスは最後の LLM にとっては依然として読めない文字化けです。

なぜ読めないのでしょうか？それは特徴空間が異なる（つまり話している言語が違う）からです。視覚エンコーダ（ViT など）が抽出するのは空間的ピクセル特徴（例えば「これはたくさんの曲がった黒い線で構成されている」「ここは大部分が赤色だ」といった情報しか伝えられません）です。一方、LLM が内部で理解するのは深層意味特徴（例えば概念としての「猫」「木」「危険」など）です。

この二つのまったく異なる言語体系の間に、橋を架ける必要があります。それが異種間翻訳官：Projector（プロジェクタ/アダプタ） です。

2.1 翻訳官の役割 (Latent Space Alignment)

Projector の学術的本質は特徴潜在空間のアライメント (Latent Space Alignment) を実現することです。これは現実世界の同時通訳者のようなものです：

入力 (Source)：ViT が吐き出す「視覚特徴」（幾何、色、テクスチャの規則性などの連続的な高次元特徴表現に重点を置く）。
処理 (Translation)：Projector はニューラルネットワーク構造（数層の単純な線形変換層や複雑なアテンション層など）を用いて、このプロセスの中で二つの言語間の数学的対応関係を見つけ出します。
出力 (Target)：LLM の嗜好と期待に完全に合致した「LLM 言語」（画像特徴から変換された等価なテキスト埋め込みトークンで、画像が対話可能な意味を持つようになります）を出力します。

この翻訳フィルターを通すことで、大規模モデルは驚きをもって発見します：「あれ？送られてきたこの数値列は、普段読んでいる説明的な単語の組み合わせじゃないか！」と。こうして画像特徴と自然言語が自然に一緒に処理されるようになります。

Visual Tokens (ViT)

256 Tokens

Linear Layer

Direct mapping (1:1)

LLM Tokens

256 Tokens (keeps all details)

Linear Projector: Simple and efficient. It acts like a direct translator and preserves all visual information. It uses more tokens, but keeps fine details better.

2.2 さまざまな翻訳流派

特徴アライメントという「翻訳工程」をより速く、より正確に行うために、学術界と産業界ではいくつかの非常に代表的なハードウェア接続設計案が生まれました：

直訳派 (Linear Projection)：
- 手法：極めてシンプルで乱暴です。1 層または数十層の多層パーセプトロン (MLP / 線形投影層) のみを用いて直接的な数学行列変換で透過伝送します。
- 特徴：情報の損失が極めて少なく、画像の本来の細部をそのまま保持します。しかし欠点は、先ほど切り分けた数百から数千の視覚トークンをすべてそのまま言語モデルに詰め込むため、後続の計算量が激増することです。
- 代表：LLaVA シリーズ。
意訳派 (Q-Former / Resampler)：
- 手法：そのまま透過伝送するのではなく、中間に抽象的要約能力を持つ「小型偵察ネットワーク」を導入します。この中間エージェントがまず画像全体を素早く把握し、数十個の高度に凝縮された核心ポイントを抽出します。
- 特徴：情報が高度に精錬・抽出され、トークン数が少なく、LLM の思考理解のための計算リソースを大幅に節約します。欠点は、精錬過程で元画像の端にある極めて微細な観察手がかりを見落とす可能性があることです。
- 代表：BLIP-2, Gemini（一部メカニズムが類似）。
折衷派 (C-Abstractor / Pooling)：
- 手法：畳み込みプーリングや局所領域の再編成を用いて、隣接する $2 \times 2$ またはより大きなピクセルブロックを圧縮・パッケージ化し、一つの完全な表現ユニットに統合再編成します。
- 特徴：トークンの長さ上限を適切に圧縮しつつ、部分的に相互依存する局所性と空間感覚を保持します。
- 代表：Qwen-VL-Max。

3. 第三歩：結合 (The Architecture)

部品が揃い、接続標準が決まったところで、次はどのように全身武装を完成させるかを見ていきます。主流のマルチモーダル視覚言語モデル (Vision-Language Model) は基本的に統一された「三段式」アーキテクチャモデルに従います。

3.1 VLM の身体構造

🧠

Pure LLM→Multimodal VLM

Text-only tokens flow into the LLM.

Text Path

⌨️Prompt

→

🔤Embed

→

Text Tokens

t1t2t3…

Token Sequence

Text

t1t2t3…

Only [Text Tokens]

→

🧠LLM Backbone

→

💬Response

Standard LLM Flow

Prompt → Embedding → Token Sequence → LLM → Response.

典型的なパラダイムにおける VLM の実体は、主に以下の三大部分が協調して動作します：

特徴知覚の「目」 (Vision Encoder - 視覚エンコーダ)：
- 機能：画像入力の最初の関門として、画像を見て高次元の視覚特徴を抽象化します。
- 選定：ほとんどのベンダーは目をゼロから訓練せず、数億件の「画像-テキストペア」データで事前訓練された既存の成熟したコンポーネント（OpenAI の CLIP モデルのビジョンタワーや、Google の SigLIP モデルなど）をそのまま借用します。
- イメージの例え：これは生体の高度に特殊化された網膜視細胞領域です。
信号変換の「視神経」 (Projector - モダリティプロジェクタ)：
- 機能：エンコーダと言語ベースを接続し、信号次元の圧縮、疎通、マルチモーダル意味翻訳を担当します。
- 選定：これはマルチモーダルシステム全体の後続訓練における最重要ポイントです。自身のパラメータ数は通常大きくありませんが（LLM と比べて）、「文字」と「画像」の間で意思疎通ができるかどうかを決定します。
- イメージの例え：電気信号を大脳皮質に変換伝達する視覚神経中枢のようなものです。
認知エンジンの「脳」 (LLM Backbone - 言語モデルベース)：
- 機能：最終的な観察、常識の呼び出し、深い論理的推論、および人間らしい応答の生成を担います。
- 選定：通常、業界で最も知能の高いオープンソースの大規模言語モデルをマウントポイントとして採用します（Qwen、Llama 3、Vicuna など）。
- イメージの例え：これは世界知識ベースを備えた脳の言語・意思決定中枢であり、視神経から送られてくる加工済み信号に対して高次の思考判断を行います。

4. どのように画像を見ることを学ぶのか？(Training)

さて、これで身体の各部分が縫合されました。しかし正式に稼働させる前、組み立てられたばかりの VLM は実際には新生児のような「失明と混乱」の状態にあります——新しく追加された視神経 (Projector) がまっさらな白紙で、中身はすべて無意味なランダム数値だからです。

この継ぎ接ぎの怪物に画像を見て話す能力を身につけさせるために、科学界は効率的な「二段階訓練法則 (Two-Stage Training)」をまとめ上げました。

段階一：物体認識 (Feature Alignment —— 物体認識事前訓練)

この段階の主なタスクは、ランダムな Projector に初歩的なクロスモーダルマッピング関係を確立させることです。その過程は、赤ちゃんに「認知フラッシュカード」で無理やり単語を覚えさせるのとよく似ています。

見せるもの (訓練入力)：大量（しばしば億単位）の、単一の際立った被写体を含む極めてシンプルなペア画像テキスト（例えば白背景の「猫」の写真）。
教えること (目標出力)：簡潔なラベル語句を添付します（「オレンジ色の猫」）。
最適化目標：Projector が行列変換を通じて、この猫の対応する視覚特徴（翻訳後）を、自然言語の「猫」トークンベクトルとできるだけ重なり合うようにアライメントさせることを強制します。
パラメータ制御状態 (Freeze Strategy)：元のモデルの知能を破壊しないために、この段階では研究者は「目」(ViT) と「脳」(LLM) の数十億から数百億のパラメータを大幅に凍結 (Freeze) し、「視神経」(Projector) 自体の数百万のパラメータのみを訓練可能にします。

🖼️

Image
(cat)

📝

Caption
("a cat")

➜

❄️ Frozen

👁️

ViT

➜

🔥 Train

🔌

Projector

❄️ Frozen

🧠

LLM

➜

🟢

Vector V

Loss

V ≈ T

🔵

Vector T

Ready. Click the button to simulate one training iteration.

段階二：対話 (Visual Instruction Tuning —— 対話演習)

第一段階がモデルを単にメニューを読み上げるような認識マシンにしてしまうだけなら、第二段階のタスクはその高度な知能を引き出し、文脈に基づいて人間の複雑な画像とテキストの組み合わせ指示に本当に答えられるようにすることです。

見せるもの (訓練入力)：綿密に設計された高品質な QA 訓練ペア。例えば複雑な都市交通のパノラマ画像を提供します。
答えさせること (目標出力)：User の質問：「<画像> 左下の白い自転車に乗っている男性はヘルメットをかぶっていますか？」 Assistant の回答：「いいえ、彼は頭に何もかぶっていません。これは都市では非常に危険な行為です。」
最適化目標：大規模モデルが視覚的手がかりを受け取れるだけでなく、これまでの文明の常識の蓄積と結びつけ、テキストの論理とマルチモーダル表現を完全に融合させて推論を行えるようにします。
パラメータ制御状態 (Freeze Strategy)：この時点で視神経は基本的に調整済みです。この微調整段階では、通常、視覚エンコーダの一部の下位層の重みを引き続き凍結しつつ、LLM と Projector を完全に解凍し（または LoRA 構成を採用）、全体的な大規模な連合バックプロパゲーション調整を行います。

👤

🐱

What is this cat doing?

5. 応用編：より鮮明に見る (Advanced Tricks)

以上のアーキテクチャは最初のマルチモーダルパラダイムを支えましたが、第一世代の VLM モデルには非常に頭の痛い根本的なハード面の欠陥がありました——近視眼（先天的な視力不足）です。

初期の視覚エンコーダ ViT は歴史的な設計上の理由から、元々 $224 \times 224$ や $336 \times 336$ のような極めて低解像度の小さな画像しか処理できませんでした。これは、無理やりぼやけて低品質な数十万画素のレトロカメラを通して世界を観察するようなもので、画像の中の少し小さな文字や看板などの細部は完全にピクセルの塊に溶け込んでしまい、脳がどれほど賢くても「良い料理人も材料がなければ料理は作れない」状態でした。

低解像度の病を克服するために、最先端のモデルベンダー（Qwen-VL チーム、LLaVA-NeXT など）は非常に巧妙なエンジニアリング手法を用いました：

5.1 動的高解像度分割レイアウト (Dynamic High-Resolution Mapping)

大きな画像を直接入力するとビデオメモリがパンクし、乱暴に縮小するとすべての細部が失われます。どう打破すればよいのでしょうか？現在の解決策は：「局所クローズアップ + 全体俯瞰」の二視点戦略です。

全体概観：まず巨大な元の高解像度画像を直接 $336 \times 336$ に縮小し、目に一瞥させます。これによりモデルは画面の全体的なマクロレイアウト構造（空はどこか？地面はどこか？）を把握します。
スライス拡大表示：高解像度の元画像を数十枚の独立した $336 \times 336$ のロスレス局所クローズアップスライス (Slice) に切り分けます。
逐一精査と空間的再構築：視覚エンジンに拡大鏡でこれら数十枚のロスレススライスを一つ一つスキャンさせ、高解像度の細部を収集します。その後、Projector がパズルのようにこれらの細部ブロックの意味を最初の全体コンテキストと相互に縫合します。

このアプローチは、スマートフォンで新聞の全景を一枚撮影し（全体のレイアウトを見る）、続いてスマホを新聞に近づけて数十枚の段落クローズアップを連写するプロセスに例えられます。

5.2 生まれつきの大きな目に交換する (Scaling the Vision Encoder)

もう一つの純粋に力の美学を見せつけるアプローチは：元の目が先天的に遺伝子欠陥を持つのなら、最も驚異的なスーパーアイを一から錬成し直すというものです。

国内の優れたオープンソースモデル InternVL を代表例として、これは一般的な小型視覚モデルを捨て、ボトムアップから直接膨大なリソースを投入して、パラメータ数が数十億に達する（例：60 億パラメータの InternViT-6B）稀に見る超巨大視覚エンコーダ前置ベースを単独で訓練しました。極めて強力なデータ吸収能力により、生まれつき高解像度のシームレス入力をネイティブサポートする「ハッブル宇宙望遠鏡」となっています。この設計は、画像の切り貼りによって生じる複雑なエンジニアリングオーバーヘッドと特徴ミスアライメントのリスクを大幅に低減し、「一望無遺」の高精細視覚知覚を直接実現します。

6. まとめ

マルチモーダル大規模モデル (VLM) に魔法はありません。ただ一つのことをしているだけです：

「画像」という外国語を、「テキスト」という母国語に翻訳し、LLM に食べさせているのです。

この一点さえ理解すれば、VLM のすべてを理解したことになります。

7. 用語早見表 (Glossary)

用語	正式名称	説明
VLM	Vision-Language Model	マルチモーダル大規模モデル。画像を理解できる GPT。
ViT	Vision Transformer	視覚モデル。VLM の「目」で、ピクセルをベクトルに変える役割。
Patch	-	画像パッチ。画像を切り分けた小さな正方形で、「視覚単語」に相当。
Projector	-	プロジェクタ/翻訳官。目と脳をつなぐ橋。
Alignment	-	アライメント。画像特徴とテキスト特徴を同じ空間で「互いに理解し合える」ようにすること。

マルチモーダルモデル（視覚 / 音声 / 動画） ​

0. はじめに：脳に目を取り付ける ​

1. 第一歩：画像を「単語」に変える (Visual Tokenization) ​

1.1 切り分け (Patchify) —— 視覚単語の作成 ​

1.2 直列化 (Flatten) —— 一文に並べる ​

2. 第二歩：異種間翻訳 (Projection) ​

2.1 翻訳官の役割 (Latent Space Alignment) ​

2.2 さまざまな翻訳流派 ​

3. 第三歩：結合 (The Architecture) ​

3.1 VLM の身体構造 ​