멀티모달 모델 (비전 / 오디오 / 비디오)

💡 학습 가이드: 이 챕터는 깊은 컴퓨터 비전 배경 지식이 필요하지 않습니다. 인터랙티브 데모를 통해 AI가 어떻게 "눈"을 가지게 되었는지 이해할 수 있습니다. GPT-4V, Qwen-VL 등 모델背后的 핵심 원리를 알아봅니다.

🖼️

Upload an image first

Waiting for image upload...

0. 들어가며: 두뇌에 눈을 달아주다

대규모 언어 모델 입문에서 우리는 LLM이 본질적으로 검은 상자 안에 갇혀 텍스트만으로 세상을 이해하는 "두뇌"라는 것을 배웠습니다.

멀티모달 대규모 모델 (VLM) 의 등장은 이 두뇌에 한 쌍의 눈을 달아준 것과 같습니다.

하지만 이는 쉽지 않습니다. 왜냐하면:

두뇌 (LLM) 는 오직 텍스트(정확히는 Token ID)만 이해합니다.
눈 (카메라) 이 보는 것은 픽셀(RGB 색상 값)입니다.

VLM의 핵심 임무는 바로 "픽셀 신호"를 "텍스트 신호"로 번역하여, LLM이 그림 보는 것을 마치 글 읽듯이 쉽게 만드는 것입니다.

1. 첫 번째 단계: 그림을 "단어"로 만들기 (Visual Tokenization)

상상해 보세요. 당신이 전화로 친구에게 퍼즐 그림을 설명하고 있습니다. 한 번에 다 말할 수는 없고, 한 조각씩 설명해야 합니다. 컴퓨터가 그림을 보는 방식도 이와 같습니다.

1.1 패치화 (Patchify) —— 시각적 단어 만들기

우리는 대규모 언어 모델(LLM)이 텍스트를 처리할 때, 문장을 하나하나의 토큰(Token)으로 분해한다는 것을 알고 있습니다. 만약 LLM이 그림을 "읽게" 하려면, 가장 직관적인 방법은 그림도 Token과 유사한 형태로 변환하는 것입니다.

대규모 모델의 "단어 읽기" 습관에 맞추기 위해, 우리는 연속적인 2차원 이미지를 이산적인 조각으로 변환하는 기술이 필요합니다. 이것이 바로 비전 패치화 (Patchify) 개념입니다: 완전한 2차원 그림을 두부 자르듯이, 일정한 그리드의 작은 사각형(이를 Patch라고 부릅니다)으로 자릅니다.

원본 그림 = 완전한 하나의 글
그림 패치 (Patch) = 글 속의 하나의 단어 (Token)

엔지니어링 실무에서는 일반적으로 그림을 고정된 크기(예: $16 \times 16$ 또는 $14 \times 14$ 픽셀)로 균등하게 분할합니다. 예를 들어, 일반적인 $224 \times 224$ 픽셀의 입력 이미지는 분할 후 $14 \times 14 = 196$ 개의 독립적인 이미지 조각이 됩니다. 이 작업을 통해 원래 연속적이고 완전한 2차원 픽셀 배열이 196개의 이산적인 "시각적 단어 모음"으로 물리적으로 분할됩니다.

🕹️ 인터랙티브 데모: 아래 버튼을 클릭하여 원본 이미지가 어떻게 규칙적인 그리드로 개별 Patch로 분할되는지 체험해 보세요.

Step 1 / 4

1. Original Image: the raw input seen by the computer.

1.2 직렬화 (Flatten) —— 한 문장으로 나열하기

이전 단계의 패치화를 완료하면, 우리는 현재 $14 \times 14$ 의 2차원 정방 행렬을 가지고 있습니다. 그러나 전통적인 Transformer든 현대의 LLM이든, 이들의底层 아키텍처는 대부분 1차원 시퀀스 입력(즉, 왼쪽에서 오른쪽으로 일렬로 늘어선 선형 데이터 구조)만을 받아들입니다.

대규모 모델의 입력 규격에 맞추기 위해, 우리는 반드시 직렬화 (Flatten)와 선형 투영 (Linear Projection) 을 수행해야 합니다:

평평하게 펼치기 (Flatten): 여러 행의 이미지 블록을 앞뒤로 연결하여 2차원 행렬을 앞뒤 순서만 존재하는 1차원 긴 축으로 "펼칩니다".
특징 늘이기 (Projection): 이 196개의 블록은 현재까지는 단순히 빨강 초록 파랑 픽셀이 쌓인 "생(raw) 데이터"에 불과합니다. 우리는 작은 신경망(보통 완전 연결 레이어)을 사용하여 각 블록을 처리하고, 각각을 고정 길이의 특성 벡터(예: 768 길이의 숫자 리스트)로 압축 및 변환해야 합니다.

이 단계를 거쳐서야 비로소 한 장의 그림이 진정한 "시각적 단어 시퀀스"(Visual Token Sequence)로 변환됩니다.

🕹️ 인터랙티브 데모: 아래 애니메이션을 관찰하며, 단순한 픽셀 블록 (Patch) 이 어떻게 행렬 변환을 거쳐 풍부한 특성 차원을 포함하는 고차원 벡터 (Vector) 로 매핑되는지 이해해 보세요.

1. Patch (16×16×3) (toy example)

16×16 pixels × 3 channels = 768 scalar values

➜

2. Flatten

…

Get a 1×768 vector

× W

3. Embedding

Map to D dimensions (toy D=8; common D=768)

2. 두 번째 단계: 종간 번역 (Projection)

이 시점에서 그림은 이미 1차원 연속의 "시각적 단어" 시퀀스로 변환되었지만, 이 시퀀스는 최종 LLM에게는 여전히 읽을 수 없는 난해한 코드에 불과합니다.

왜 읽지 못할까요?那是因为 특성 공간이 다르기 때문입니다(즉, 그들이 사용하는 언어가 다릅니다). 비전 인코더(ViT와 같은)가 추출한 것은 공간적 픽셀 특성(예: "이것은 구부러진 검은 선들로 이루어진 것이다", "여기는 대부분 빨간색이다" 정도만 알려줄 수 있음)인 반면, LLM 내부에서 이해하는 것은 심층 의미 특성(예: 개념적인 "고양이", "나무", "위험" 등)입니다.

이 두 가지 전혀 다른 언어 체계 사이에, 우리는 다리를 놓아야 합니다. 그것이 바로 크로스모달 번역가: Projector (투영기/어댑터) 입니다.

2.1 번역가의 역할 (Latent Space Alignment)

Projector의 학술적 본질은 특성 잠재 공간 정렬 (Latent Space Alignment) 을 실현하는 것입니다. 이는 현실 세계의 동시 통역사와 같습니다:

입력 (Source): ViT가 내뱉는 "비전 특성"(기하학, 색상, 질감 규칙 등 연속적인 고차원 특성 표현에 중점).
처리 (Translation): Projector는 신경망 구조(몇 개의 간단한 선형 변환 레이어일 수도 있고, 복잡한 어텐션 레이어일 수도 있음)를 사용하여, 이 과정에서 두 언어 사이의 수학적 대응 관계를 찾아냅니다.
출력 (Target): LLM의 취향과 기대에 완전히 부합하는 "LLM 언어"(이미지 특성이 변환된 동등한 텍스트 임베딩 Token, 이를 통해 이미지가 대화 가능한 의미를 갖게 됨)를 출력합니다.

이 번역 필터를 거치면, 대규모 모델은 놀랍게도 이렇게 생각하게 됩니다: "어? 전달된 이 숫자 열은 내가 평소에 읽던 설명적인 단어 조합이잖아!" 그리하여 자연스럽게 이미지 특성과 자연어를 공동으로 처리하게 됩니다.

Visual Tokens (ViT)

256 Tokens

Linear Layer

Direct mapping (1:1)

LLM Tokens

256 Tokens (keeps all details)

Linear Projector: Simple and efficient. It acts like a direct translator and preserves all visual information. It uses more tokens, but keeps fine details better.

2.2 다양한 번역 유파

특성 정렬이라는 "번역 공정"을 더 빠르고 정확하게 만들기 위해, 학계와 산업계에서는 몇 가지 대표적인 하드웨어 연결 설계 방안을 발전시켜 왔습니다:

직역파 (Linear Projection):
- 방식: 극도로 간단하고 직설적이며, 단 한 개 또는 수십 개의 다층 퍼셉트론(MLP / 선형 투영 레이어)만을 사용하여 직접적인 수학적 행렬 변환을 수행합니다.
- 특징: 정보 손실이 극히 낮고, 이미지의 원본 그대로의 디테일을 보존합니다. 그러나 앞서 분할한 수백에서 수천 개의 시각적 토큰을 아낌없이 모두 언어 모델에 밀어 넣기 때문에 후속 계산량이 급증하는 단점이 있습니다.
- 대표: LLaVA 시리즈.
의역파 (Q-Former / Resampler):
- 방식: 원본 그대로 전달하는 것이 아니라, 중간에 추상적 요약 능력을 갖춘 "소형 정찰병 네트워크"를 도입합니다. 이 중간 대리인이 먼저 전체 그림을 빠르게 이해하고, 수십 개의 고도로 응축된 핵심 포인트로 정제합니다.
- 특징: 정보가 고도로 정제·압축되고, Token 수가 적어 LLM의 사고 추론에 필요한 연산 자원을 크게 절약합니다. 단점은 정제 과정에서 원본 이미지 가장자리의 극히 미세한 관찰 단서가 버려질 수 있다는 점입니다.
- 대표: BLIP-2, Gemini (부분적으로 유사한 메커니즘).
절충파 (C-Abstractor / Pooling):
- 방식: 합성곱 풀링 또는 지역 재구성을 통해, 인접한 $2 \times 2$ 또는 더 큰 픽셀 블록을 압축·병합하여 하나의 완전한 표현 단위로 재구성합니다.
- 특징: 토큰 길이 상한을 합리적으로 압축하면서도, 부분적으로 상호 의존적인 지역성과 공간감을 유지합니다.
- 대표: Qwen-VL-Max.

3. 세 번째 단계: 결합 (The Architecture)

부품과 연결 표준이 준비되었으니, 이제 전체가 어떻게 무장되는지 살펴보겠습니다. 주류 멀티모달 비전 언어 모델(Vision-Language Model)은 기본적으로 통일된 "3단계" 아키텍처 모델을 따릅니다.

3.1 VLM의 신체 구조

🧠

Pure LLM→Multimodal VLM

Text-only tokens flow into the LLM.

Text Path

⌨️Prompt

→

🔤Embed

→

Text Tokens

t1t2t3…

Token Sequence

Text

t1t2t3…

Only [Text Tokens]

→

🧠LLM Backbone

→

💬Response

Standard LLM Flow

Prompt → Embedding → Token Sequence → LLM → Response.

하나의 전형적인 VLM 개체는 주로 다음 세 가지 주요 부분이 협력하여 작동합니다:

특성 인식의 "눈" (Vision Encoder - 비전 인코더):
- 기능: 이미지 입력의 첫 번째 관문으로, 그림을 보고 고차원 시각적 특성을 추출합니다.
- 선정: 대부분의 제조사는 눈을 처음부터 훈련시키지 않고, 수억 장의 '이미지-텍스트 페어링' 데이터로 사전 훈련된 성숙한 컴포넌트(예: OpenAI의 CLIP 모델 비전 타워, 또는 Google의 SigLIP 모델)를 직접 차용합니다.
- 비유: 이는 생물체의 고도로 특화된 망막 광수용체 세포 영역입니다.
신호 변환의 "시신경" (Projector - 모달리티 투영기):
- 기능: 인코더와 언어 백본을 연결하며, 신호 차원의 압축, 소통 및 멀티모달 의미 번역을 담당합니다.
- 선정: 이는 전체 멀티모달 시스템 후속 훈련의 최중요 포인트입니다. 자체 파라미터 수는 일반적으로 크지 않지만(LLM 대비), "텍스트"와 "이미지"가 서로 소통할 수 있는지를 결정합니다.
- 비유: 전기 신호를 대뇌 피질로 변환·전달하는 시각 신경 중추와 같습니다.
인지 엔진 "대뇌" (LLM Backbone - 언어 모델 백본):
- 기능: 최종적인 관찰, 상식 소환, 심층 논리 추론 및 의인화된 응답 생성 작업을 담당합니다.
- 선정: 일반적으로 업계에서 가장 높은 지능을 가진 오픈소스 대규모 언어 모델을 마운트 지점으로 사용합니다(예: Qwen, Llama 3, Vicuna 등).
- 비유: 이는 세계 지식 베이스를 갖춘 대뇌의 언어 및 의사 결정 중추로, 시신경을 통해 전달된 처리된 신호에 대해 고차원적인 사고 판단을 수행합니다.

4. 어떻게 그림 보는 법을 배울까? (Training)

좋습니다. 이제 신체 각 부분이 하나로 봉합되었습니다. 그러나 정식으로 서비스를 시작하기 전에, 방금 조립된 VLM은 실제로 신생아와 같은 "실명과 혼돈" 상태에 있습니다. 새로 추가된 시신경(Projector)은 아무 의미 없는 무작위 숫자 값으로 가득 찬 백지 상태이기 때문입니다.

이 조립된 괴물에게 그림을 보고 말하는 능력을 갖추게 하기 위해, 과학계는 효율적인 "2단계 훈련 법칙 (Two-Stage Training)" 을 정립했습니다.

1단계: 사물 인식 (Feature Alignment —— 특성 정렬 사전 훈련)

이 단계의 주요 임무는 무작위 상태의 Projector가 초보적인 크로스모달 매핑 관계를 구축하도록 하는 것입니다. 이 과정은 마치 아기에게 "인지 플래시카드"로 강제로 단어를 외우게 하는 것과 매우 유사합니다.

보여주기 (훈련 입력): 대량(종종 수억 장)의 단일 두드러진 피사체를 포함하는 극도로 간결한 페어링 이미지-텍스트(예: 흰색 배경의 "고양이" 사진).
알려주기 (목표 출력): 간단한 라벨 단어 첨부("주황색 고양이 한 마리").
최적화 목표: Projector가 행렬 변환을 통해, 이 고양이의 해당 시각적 특성(번역 후)이 자연어의 "고양이" 토큰 벡터와 가능한 한 겹쳐서 정렬되도록 강제로 학습시킵니다.
파라미터 제어 상태 (Freeze Strategy): 기존 모델의 지혜가 파괴되는 것을 방지하기 위해, 이 단계에서 연구자들은 "눈"(ViT)과 "대뇌"(LLM)의 수십억~수백억 파라미터를 과도하게 동결 (Freeze) 하고, 오직 "시신경"(Projector) 자체의 수백만 파라미터 훈련만 활성화합니다.

🖼️

Image
(cat)

📝

Caption
("a cat")

➜

❄️ Frozen

👁️

ViT

➜

🔥 Train

🔌

Projector

❄️ Frozen

🧠

LLM

➜

🟢

Vector V

Loss

V ≈ T

🔵

Vector T

Ready. Click the button to simulate one training iteration.

2단계: 대화 (Visual Instruction Tuning —— 대화 연습)

만약 1단계가 모델을 메뉴판 읽어주는 듯한 단어 인식기로 만들 뿐이라면, 2단계의 임무는 고급 지능을 활성화하여, 문맥에 따라 인간의 복잡한 이미지-텍스트 결합 지시를 진정으로 이해할 수 있도록 하는 것입니다.

보여주기 (훈련 입력): 정교하게 설계된 고품질 질문-답변 훈련 페어. 예를 들어 복잡한 도시 교통 파노라마 사진을 제공합니다.
답변 요구 (목표 출력): 사용자 질문: "<이미지> 왼쪽 아래 모서리의 흰 자전거를 탄 남자는 헬멧을 쓰고 있나요?" 어시스턴트 답변: "아니요, 머리에 아무것도 쓰지 않았습니다. 이는 도시에서 매우 위험한 행동입니다."
최적화 목표: 대규모 모델이 시각적 단서를 수용할 뿐만 아니라, 이전의 문명 상식 축적을 결합하여, 텍스트 논리와 멀티모달 표현을 완전히 융합하고 추론할 수 있도록 합니다.
파라미터 제어 상태 (Freeze Strategy): 이 시점에서 시신경은 기본적으로 조정되었습니다. 이 미세 조정 단계에서는 일반적으로 비전 인코더의 하위 레이어 가중치 일부를 계속 동결하면서, 동시에 LLM과 Projector를 완전히 동결 해제하고 활성화(또는 LoRA 구성 채택)하여 전역적인 대규모 공동 역전파 교정을 수행합니다.

👤

🐱

What is this cat doing?

5. 고급: 더 선명하게 보기 (Advanced Tricks)

위의 아키텍처가 최초의 멀티모달 패러다임을 지탱했지만, 1세대 VLM 모델에는 매우 골치 아픈 근본적인 하드웨어적 결함이 존재했습니다——근시(선천적 시력 부족).

초기 비전 인코더 ViT는 역사적 설계 이유로 인해, 본질적으로 $224 \times 224$ 또는 $336 \times 336$ 과 같은 극도로 낮은 해상도의 작은 이미지만 처리할 수 있었습니다. 이는 마치 흐릿하고 저품질의 수십만 화소 레트로 카메라를 통해 세상을 강제로 관찰하는 것과 같아서, 그림 속의 약간 작은 텍스트 간판 등의 디테일은 완전히 픽셀 덩어리로 뭉개져 버리고, 아무리 똑똑한 대뇌라도 "재료가 없으면 솜씨를 발휘할 수 없는" 상황이 됩니다.

저해상도 문제를 극복하기 위해, 최첨단 모델 제조사(Qwen-VL 팀, LLaVA-NeXT 등)는 매우 정교한 엔지니어링 수단을 사용했습니다:

5.1 동적 고해상도 배치 레이아웃 (Dynamic High-Resolution Mapping)

큰 이미지를 직접 입력하면 비디오 메모리가 가득 차고, 무턱대고 축소하면 모든 디테일이 사라진다면, 어떻게 해결해야 할까요? 현재의 해법은: "로컬 클로즈업 + 글로벌 버드아이뷰"의 이중 시점 전략입니다.

전체 개요: 먼저 거대한 원본 고화질 이미지를 $336 \times 336$ 으로 직접 축소하여 눈에 한 번 보여줍니다. 이를 통해 모델이 화면의 전체적인 거시적 레이아웃 구조(하늘은 어디? 지면은 어디?)를 파악하게 합니다.
슬라이스 확대 보기: 고화질 원본을 수십 개의 독립적인 $336 \times 336$ 무손실 로컬 클로즈업 조각(Slice)으로 분할합니다.
하나씩 검토 및 공간 재조합: 비전 엔진이 이 수십 개의 무손실 단면을 하나씩 확대경으로 스캔하여 고화질 디테일을 수집합니다. 이후, Projector가 퍼즐 맞추듯 이러한 디테일 조각들의 의미를 초기 개요 컨텍스트와 상호 연결합니다.

이 방식은 마치 스마트폰으로 신문 한 면을 파노라마로 한 장 찍고(전체 레이아웃 확인), 이어서 스마트폰을 신문 가까이 대고 수십 장의 단락 클로즈업을 연속 촬영하는 과정과 비슷합니다.

5.2 더 큰 선천적 눈으로 교체하기 (Scaling the Vision Encoder)

또 다른 순수한 폭력적 미학을 보여주는 방식은: 원래의 눈이 선천적으로 유전적 결함이 있다면, 아예 처음부터 가장 경이로운 슈퍼 눈을 새로 제련하는 것입니다.

국내 우수 오픈소스 모델 InternVL이 전형적인 대표 사례로, 일반적인 소규모 비전 모델을 버리고, 바닥부터 막대한 자원을 투입하여 파라미터 수가 수십억(예: 60억 파라미터의 InternViT-6B)에 달하는 보기 드문 초거대 비전 인코더 전치 백본을 단독 훈련했습니다. 탁월한 데이터 흡수 능력을 바탕으로, 이는 태생적으로 고해상도 무손실 입력을 네이티브 지원하는 "허블 우주 망원경"입니다. 이러한 설계는 이미지 분할 및 재조합을 위해 도입되는 복잡한 엔지니어링 오버헤드와 특성 정렬 불일치 위험을 크게 줄여, 직접적으로 "한눈에 모든 것을 꿰뚫는" 고화질 시각 인식을 실현합니다.

6. 요약

멀티모달 대규모 모델(VLM)에는 어떤 마법도 없습니다. 그것은 단지 한 가지 일을 할 뿐입니다:

"이미지"라는 외국어를 "텍스트"라는 모국어로 번역하여, LLM에게 먹이는 것.

이것만 이해하면, 당신은 VLM의 모든 것을 이해한 것입니다.

7. 용어집 (Glossary)

용어	전체 명칭	설명
VLM	Vision-Language Model	멀티모달 대규모 모델. 그림을 이해하는 GPT.
ViT	Vision Transformer	비전 모델. VLM의 "눈", 픽셀을 벡터로 변환하는 역할.
Patch	-	이미지 패치. 그림이 작은 사각형으로 분할된 것, "시각적 단어"에 해당.
Projector	-	투영기/번역가. 눈과 두뇌를 연결하는 다리.
Alignment	-	정렬. 이미지 특성과 텍스트 특성이 같은 공간에서 "서로 이해할 수 있도록" 만드는 것.

멀티모달 모델 (비전 / 오디오 / 비디오) ​

0. 들어가며: 두뇌에 눈을 달아주다 ​

1. 첫 번째 단계: 그림을 "단어"로 만들기 (Visual Tokenization) ​

1.1 패치화 (Patchify) —— 시각적 단어 만들기 ​

1.2 직렬화 (Flatten) —— 한 문장으로 나열하기 ​

2. 두 번째 단계: 종간 번역 (Projection) ​

2.1 번역가의 역할 (Latent Space Alignment) ​

2.2 다양한 번역 유파 ​

3. 세 번째 단계: 결합 (The Architecture) ​

3.1 VLM의 신체 구조 ​