多模態模型（視覺 / 音訊 / 影片）

💡 學習指南：本章節無需深厚的電腦視覺背景，透過互動式演示帶你理解 AI 是如何擁有「眼睛」的。我們將揭秘 GPT-4V、Qwen-VL 等模型背後的核心原理。

🖼️

Upload an image first

Waiting for image upload...

0. 引言：給大腦裝上眼睛

在大語言模型入門中，我們知道 LLM 本質上是一個被關在黑盒子裡、只能透過文字來了解世界的「大腦」。

多模態大模型 (VLM) 的出現，相當於給這個大腦裝上了一雙眼睛。

但這並不容易。因為：

大腦 (LLM) 只懂文字（準確說是 Token ID）。
眼睛 (攝影機) 看到的是像素（RGB 顏色數值）。

VLM 的核心任務，就是把「像素訊號」翻譯成「文字訊號」，讓 LLM 覺得看圖就像讀文章一樣簡單。

1. 第一步：把圖片變成「單字」 (Visual Tokenization)

想像一下，你正在電話裡給朋友描述一副拼圖。你不可能一口氣說完，你得一塊一塊地描述。電腦看圖也是一樣的道理。

1.1 切塊 (Patchify) —— 製作視覺單詞

我們知道，大語言模型 (LLM) 處理文本時，會把句子拆解成一個個的詞元 (Token)。如果你想讓 LLM「讀懂」圖片，最直觀的方法就是把圖片也變成類似 Token 的形式。

為了配合大模型這種「習慣讀單詞」的特性，我們需要一種能將連續的二維圖像轉換為離散片段的技術，這就引出了視覺流形切片 (Patchify) 的概念：我們把一張完整的二維圖片，像切豆腐一樣，切成一個個固定的網格小方塊（稱為 Patch）。

原始圖片 = 一篇完整的文章
圖片切塊 (Patch) = 文章裡的一個單詞 (Token)

在工程實務中，我們通常會把圖片按照固定的尺寸（比如 $16 \times 16$ 或 $14 \times 14$ 像素）進行無縫切分。例如，一張常見的 $224 \times 224$ 像素的輸入圖片，切分後就會變成 $14 \times 14 = 196$ 個獨立的圖像方塊。透過這個操作，原本連續完整的二維像素陣列，就被物理切割成了 196 個離散的「視覺單詞本」。

🕹️ 互動演示：點擊下方按鈕，體驗原始圖像是如何被規則的網格切割成一個個獨立 Patch 的。

Step 1 / 4

1. Original Image: the raw input seen by the computer.

1.2 序列化 (Flatten) —— 排成一句話

完成上一步切塊後，我們現在手頭擁有的是一個 $14 \times 14$ 的二維方陣。然而，無論是傳統的 Transformer 還是現代的 LLM，它們在底層架構上大多只接受一維的序列輸入（也就是從左到右排成一排的線性資料結構）。

為了相容大模型的輸入規範，我們必須進行序列化 (Flatten) 與線性投影 (Linear Projection)：

拍扁攤平 (Flatten)：把多行的圖像塊首尾相接，將二維矩陣「拍扁」成一條只有前後順序的一維長軸。
特徵拉伸 (Projection)：這 196 個方塊目前還只是紅綠藍像素堆疊的「生肉」。我們需要用一個小型的神經網路（通常是一個全連接層）對每個方塊進行處理，把它們分別壓縮和轉換成一段固定長度的特徵向量（比如長度為 768 的數字列表）。

經過這一步操作，一張圖片才真正變成了一串「視覺單詞序列」（Visual Token Sequence）。

🕹️ 互動演示：觀察下方動畫，了解一個單純的像素塊 (Patch) 是如何經歷矩陣拉伸，最終被映射成一個包含豐富特徵維度的高維向量 (Vector) 的。

1. Patch (16×16×3) (toy example)

16×16 pixels × 3 channels = 768 scalar values

➜

2. Flatten

…

Get a 1×768 vector

× W

3. Embedding

Map to D dimensions (toy D=8; common D=768)

2. 第二步：跨物種翻譯 (Projection)

此時，雖然圖片已經被轉化成了一維連續的「視覺單詞」序列，但這串序列對於最後的 LLM 來說，依然是一堆不可讀的亂碼。

為什麼讀不懂呢？因為特徵空間不同（也就是它們說的語言不同）。視覺編碼器（如 ViT）提取出來的是空間像素特徵（比如它只能告訴你「這是一個由很多彎曲黑色線條組成的東西」、「這裡是大片紅色」）；而 LLM 內部理解的是深層語義特徵（例如概念上的「貓」、「樹木」、「危險」等）。

在這兩種截然不同的話語體系之間，我們需要架設一座橋樑，也就是我們的跨模態翻譯官：Projector (投射器/適配器)。

2.1 翻譯官的作用 (Latent Space Alignment)

Projector 的學術本質是實現特徵隱空間的對齊 (Latent Space Alignment)。這就像是現實生活中的同步口譯員：

輸入 (Source)：ViT 吐出的「視覺特徵」（側重於幾何、顏色、紋理規律等連續的高維特徵表示）。
處理 (Translation)：Projector 利用一個神經網路結構（可能是幾層簡單的線性變換層，或是複雜的注意力層），在這個過程中找到兩種語言之間的數學對應關係。
輸出 (Target)：輸出完全符合 LLM 口味和預期的「LLM 語言」（由圖片特徵轉換而成的等價文本嵌入 Token，使得圖像擁有了可以對話的意義）。

透過這層翻譯過濾，大模型就會驚奇地發現：「咦？傳進來的這段數字串，不就是我平時讀的那些帶有描述性質的單詞組合嗎！」，從而順理成章地將圖片特徵與自然語言共同處理。

Visual Tokens (ViT)

256 Tokens

Linear Layer

Direct mapping (1:1)

LLM Tokens

256 Tokens (keeps all details)

Linear Projector: Simple and efficient. It acts like a direct translator and preserves all visual information. It uses more tokens, but keeps fine details better.

2.2 不同的翻譯流派

為了讓特徵對齊這道「翻譯工序」做得更快、更準，學術界和工業界衍生出了幾種極具代表性的硬體連接設計方案：

直譯派 (Linear Projection)：
- 做法：極其簡單粗暴，僅用一層或幾十層多層感知機 (MLP / 線性投影層) 進行直接的數學矩陣變換透傳。
- 特點：資訊損耗極低，保留圖像原汁原味細節；但缺陷是將剛才切分的百上千個視覺詞元毫無保留地全塞給語言模型，會導致後續計算量暴增。
- 代表：LLaVA 系列。
意譯派 (Q-Former / Resampler)：
- 做法：並不是原樣透傳，而是在中間引入一個具有抽象總結能力的「小型偵察兵網路」。這個中間代理人先全盤快速理解一遍圖片，提純出幾十個高度凝縮的核心要點。
- 特點：資訊高度精簡提純，Token 少，大大節省 LLM 思考理解的效能算力；缺陷是有可能會在提純過程中拋去原始圖片邊緣裡極其細微的觀察線索。
- 代表：BLIP-2, Gemini (部分機制類似)。
折中派 (C-Abstractor / Pooling)：
- 做法：藉助卷積池化或局部區域重整，把相鄰的 $2 \times 2$ 或更大像素塊壓縮打包合併重組為一個完整的表達元。
- 特點：既合理壓縮了詞元的長度上限，又依然留存了部分相互依存的局部和空間感。
- 代表：Qwen-VL-Max。

3. 第三步：合體 (The Architecture)

有了零件、有了對接標準，接下來我們看它是如何完成全身武裝的。主流的多模態視覺語言模型 (Vision-Language Model) 基本都遵循統一的「三段式」架構模型。

3.1 VLM 的身體結構

🧠

Pure LLM→Multimodal VLM

Text-only tokens flow into the LLM.

Text Path

⌨️Prompt

→

🔤Embed

→

Text Tokens

t1t2t3…

Token Sequence

Text

t1t2t3…

Only [Text Tokens]

→

🧠LLM Backbone

→

💬Response

Standard LLM Flow

Prompt → Embedding → Token Sequence → LLM → Response.

一個典型範式下的 VLM 實體，主要由以下三大部分協同運轉：

特徵感知的「眼睛」 (Vision Encoder - 視覺編碼器)：
- 功能：作為圖片輸入的第一道關卡，負責看圖並抽象出高維視覺特徵。
- 選型：大多數廠商不會從零開始訓練眼睛，而是直接借用在數億張「圖像-文本配對」資料上預訓練好的成熟組件（如 OpenAI 的 CLIP 模型視覺塔，或者是 Google 的 SigLIP 模型）。
- 形象類比：這就是生物體高度特化的視網膜感光細胞區域。
訊號轉換的「視神經」 (Projector - 模態投射器)：
- 功能：對接編碼器和語言基座，負責訊號維度的壓縮、打通和多模態語義翻譯。
- 選型：這是整個多模態系統後續訓練的重中之重。它自身的參數量通常不大（相對 LLM 而言），但決定了「文字」和「圖片」之間能否心意相通。
- 形象類比：它就像負責將電訊號轉換傳遞到大腦皮層的視覺神經中樞。
認知引擎「大腦」 (LLM Backbone - 語言模型基座)：
- 功能：承擔最終的觀察、常識調用、深度邏輯推理以及擬人化答覆的生成工作。
- 選型：通常採用業界智商最高的開源大語言模型作為掛載點（如 Qwen, Llama 3, Vicuna 等）。
- 形象類比：這是具備世界知識庫的大腦語言和決策中樞，它對視神經傳來的加工後訊號做出高階思維判讀。

4. 它是怎麼學會看圖的？(Training)

好，現在身體各部分已經縫合在一起。但是在正式接客之前，剛組裝好的 VLM 實際上是處於類似於新生兒的「失明與混亂」狀態的——因為新增的視神經 (Projector) 是一張白紙，裡邊全是沒有意義的隨機數值。

想要讓這個拼接的怪物具備看圖說話的能力，科學界總結出了一套高效的「兩階段訓練法則 (Two-Stage Training)」。

階段一：認物 (Feature Alignment —— 認物預訓練)

這一階段，主要任務是讓隨機的 Projector 建立起初步的跨模態映射關係。過程非常像教嬰兒用「認知閃卡」強行記單詞。

給它看 (訓練輸入)：大批量（往往上億張）包含單個突出主體的極簡配對圖文（例如白底的「貓」照片）。
告訴它 (目標輸出)：附帶簡短的標籤詞彙（「一隻橘貓」）。
最佳化目標：強制驅使 Projector 學會透過矩陣變化，讓這隻貓的對應視覺特徵（經過翻譯後），和自然語言裡的「貓」詞元向量盡可能重合對齊。
參數控制狀態 (Freeze Strategy)：為了防止破壞原有模型的智慧，在這個階段研究人員會重度凍結 (Freeze) 「眼睛」(ViT) 和「大腦」(LLM) 的幾十上百億參數，僅僅只開啟「視神經」(Projector) 本身的幾百萬參數訓練。

🖼️

Image
(cat)

📝

Caption
("a cat")

➜

❄️ Frozen

👁️

ViT

➜

🔥 Train

🔌

Projector

❄️ Frozen

🧠

LLM

➜

🟢

Vector V

Loss

V ≈ T

🔵

Vector T

Ready. Click the button to simulate one training iteration.

階段二：對話 (Visual Instruction Tuning —— 對話演練)

如果第一階段只會讓模型變成報菜名似的認字機，那麼第二階段的任務就是激發它的高級智商，讓它真正能根據上下文解答人類複雜的圖文結合指令。

給它看 (訓練輸入)：精心設計的高品質問答訓練對。比如提供一張複雜的城市交通全景圖。
要求它答 (目標輸出)：User 提問：「<圖片> 左下角那個騎白色自行車的男人有沒有戴安全帽？」 Assistant 回答：「沒有，他頭上什麼都沒戴，這在城市裡是很危險的行為。」
最佳化目標：讓大模型不僅能接收視覺線索，還能結合從前的文明常識積澱，將文本邏輯與多模態表徵徹底融匯貫通並做出推理。
參數控制狀態 (Freeze Strategy)：此時視神經已經基本調通。在這個精調階段，一般會繼續凍結一部分視覺編碼器底層權重，同時徹底解凍開啟 LLM 和 Projector（或採用 LoRA 配置），進行全域大規模的聯合反向傳播調校。

👤

🐱

What is this cat doing?

5. 進階：看得更清 (Advanced Tricks)

雖然以上架構支撐起了最初的多模態範式，但第一代 VLM 模型存在一個非常令人頭疼的基礎硬傷——近視眼（視力先天不足）。

早期的視覺編碼器 ViT 因為歷史設計原因，天生只能處理例如 $224 \times 224$ 或 $336 \times 336$ 這種極其低解析度的方寸小圖。這就像是強行透過一個模糊、低質的幾十萬像素復古攝影機去觀察世界，圖裡面稍微小一點的文字牌匾等細節完全會糊成一團像素點，大腦就算再聰明也是「巧婦難為無米之炊」。

為了攻克低清病症，前沿的模型廠商（如 Qwen-VL 團隊，LLaVA-NeXT 等）用了一些非常精妙的工程手段：

5.1 動態高解析度切分佈局 (Dynamic High-Resolution Mapping)

如果直接輸入大圖會導致顯存爆滿，而粗暴縮小又會丟光所有細節，該如何破局？目前的解法是：「局部特寫 + 全局鳥瞰」的雙視角策略。

整體概覽：首先把巨大的原版高畫質圖直接縮小壓到 $336 \times 336$ ，送給眼睛看一眼。這讓模型掌握畫面的總體宏觀佈局結構（天空在哪？地面在哪？）。
切片放大看：把高畫質原圖切成好幾十個獨立、 $336 \times 336$ 的無損局部特寫切分塊（Slice）。
逐一審視與空間回拼：讓視覺引擎挨個用放大鏡去掃描這幾十個無損切面收集高畫質細節。隨後，Projector 會像拼圖一樣把這些細節塊的語義與初始的總覽語境相互縫合。

這種做法，就好比是你拿手機給一份報紙全景拍了一張照（看全貌版面佈局），接著又端著手機貼近報紙連續拍下了幾十張段落特寫的組合過程。

5.2 換個天生的大眼睛 (Scaling the Vision Encoder)

另一種純粹展現暴力美學的做法就是：既然原始的眼睛天⽣基因有缺陷，那我就重頭煉製一顆最驚世駭俗的超級眼睛。

以國內優秀的開源模型 InternVL 為經典代表，它摒棄了常用的小規格視覺模型，從底向上直接耗費海量資源單獨訓練了一個參數量高達幾十億（如 60 億參數的 InternViT-6B）的罕見超巨型視覺編碼器前置基座。憑藉極強的資料吸收能力，它生來就是原生支援高解析度無縫輸入的「哈伯太空望遠鏡」。這種設計大大降低了系統為了切圖拼圖而引入的複雜工程開銷和特徵錯位風險，直接實現「一覽無遺」的高畫質視覺感知。

6. 總結

多模態大模型 (VLM) 並沒有什麼魔法。它只是做了一件事：

把「圖像」這種外語，翻譯成了「文本」這種母語，然後餵給了 LLM。

只要理解了這一點，你就理解了 VLM 的一切。

7. 名詞速查表 (Glossary)

名詞	全稱	解釋
VLM	Vision-Language Model	多模態大模型。能看懂圖的 GPT。
ViT	Vision Transformer	視覺模型。VLM 的「眼睛」，負責把像素變成向量。
Patch	-	圖像塊。圖片被切成的小方塊，相當於「視覺單詞」。
Projector	-	投射器/翻譯官。連接眼睛和大腦的橋樑。
Alignment	-	對齊。讓圖像特徵和文本特徵在同一個空間裡「互相聽得懂」。

多模態模型（視覺 / 音訊 / 影片） ​

0. 引言：給大腦裝上眼睛 ​

1. 第一步：把圖片變成「單字」 (Visual Tokenization) ​

1.1 切塊 (Patchify) —— 製作視覺單詞 ​

1.2 序列化 (Flatten) —— 排成一句話 ​

2. 第二步：跨物種翻譯 (Projection) ​

2.1 翻譯官的作用 (Latent Space Alignment) ​

2.2 不同的翻譯流派 ​

3. 第三步：合體 (The Architecture) ​

3.1 VLM 的身體結構 ​