النماذج متعددة الوسائط (الرؤية / الصوت / الفيديو)

💡 دليل التعلم: لا يتطلب هذا الفصل خلفية عميقة في الرؤية الحاسوبية، إذ سيقودك عبر عروض توضيحية تفاعلية لفهم كيف اكتسب الذكاء الاصطناعي "عينًا". سنكشف عن المبادئ الأساسية وراء نماذج مثل GPT-4V و Qwen-VL.

🖼️

Upload an image first

Waiting for image upload...

0. مقدمة: تثبيت عيون للدماغ

في مقدمة إلى نماذج اللغة الكبيرة، تعلمنا أن LLM هو في جوهره "دماغ" محبوس في صندوق أسود، لا يستطيع فهم العالم إلا من خلال النصوص.

ظهور النماذج اللغوية البصرية الكبيرة (VLM) يشبه تثبيت زوج من العيون لهذا الدماغ.

لكن الأمر ليس سهلاً، لأن:

الدماغ (LLM) لا يفهم إلا النص (وبالتحديد معرفات الرموز Token ID).
العيون (الكاميرا) ترى بكسلات (قيم ألوان RGB).

المهمة الأساسية لنماذج VLM هي "ترجمة إشارات البكسل إلى إشارات نصية"، بحيث يجد LLM أن النظر إلى الصورة سهل مثل قراءة مقال.

1. الخطوة الأولى: تحويل الصور إلى "كلمات" (Visual Tokenization)

تخيل أنك تصف لوحة ألغاز لصديقك عبر الهاتف. لا يمكنك وصفها دفعة واحدة، بل يجب أن تصفها قطعة قطعة. الحاسوب ينظر إلى الصور بنفس الطريقة.

1.1 التقطيع (Patchify) —— صنع الكلمات البصرية

نعلم أن نماذج اللغة الكبيرة (LLM) عند معالجة النص تقوم بتقسيم الجمل إلى وحدات رمزية (Token). إذا أردت جعل LLM "يقرأ" الصور، فإن الطريقة الأكثر بديهية هي تحويل الصورة إلى شكل مشابه للـ Token.

للتوافق مع طبيعة النماذج الكبيرة "المعتادة على قراءة الكلمات"، نحتاج إلى تقنية تحول الصورة ثنائية الأبعاد المستمرة إلى أجزاء منفصلة، وهذا يقودنا إلى مفهوم التقطيع البصري (Patchify): نقوم بتقسيم الصورة الكاملة ثنائية الأبعاد، مثل تقطيع قطعة التوفو، إلى مربعات شبكية صغيرة ثابتة الحجم (تُسمى Patch).

الصورة الأصلية = مقال كامل
قطع الصورة (Patch) = كلمة في المقال (Token)

في الممارسة الهندسية، نقوم عادةً بتقطيع الصورة وفقًا لحجم ثابت (مثل $16 \times 16$ أو $14 \times 14$ بكسل) بشكل سلس. على سبيل المثال، صورة إدخال شائعة بحجم $224 \times 224$ بكسل، بعد التقطيع تصبح $14 \times 14 = 196$ قطعة صورة مستقلة. من خلال هذه العملية، يتم تقطيع مصفوفة البكسلات ثنائية الأبعاد المستمرة فيزيائيًا إلى 196 "كلمة بصرية" منفصلة.

🕹️ عرض تفاعلي: انقر على الزر أدناه لتجربة كيفية تقطيع الصورة الأصلية إلى Patch مستقلة بواسطة شبكة منتظمة.

Step 1 / 4

1. Original Image: the raw input seen by the computer.

1.2 التسلسل (Flatten) —— ترتيبها في جملة

بعد إكمال التقطيع في الخطوة السابقة، أصبح لدينا الآن مصفوفة مربعة بحجم $14 \times 14$ . ومع ذلك، سواء كان Transformer التقليدي أو LLM الحديث، فإن معظمها في بنيتها الأساسية لا تقبل سوى مدخلات تسلسلية أحادية البعد (أي بنية بيانات خطية مرتبة من اليسار إلى اليمين).

للتوافق مع مواصفات إدخال النماذج الكبيرة، يجب علينا إجراء التسلسل (Flatten) والإسقاط الخطي (Linear Projection):

التسطيح (Flatten): ربط قطع الصورة متعددة الصفوف من البداية إلى النهاية، "تسطيح" المصفوفة ثنائية الأبعاد إلى محور طويل أحادي البعد له ترتيب أمامي وخلفي فقط.
تمديد الميزات (Projection): هذه القطع الـ 196 لا تزال مجرد "لحم نيء" مكدس من بكسلات الأحمر والأخضر والأزرق. نحتاج إلى استخدام شبكة عصبية صغيرة (عادةً طبقة متصلة بالكامل) لمعالجة كل قطعة، وضغطها وتحويلها على التوالي إلى متجه ميزات بطول ثابت (مثل قائمة أرقام بطول 768).

بعد هذه الخطوة، تتحول الصورة حقًا إلى سلسلة من "الكلمات البصرية" (Visual Token Sequence).

🕹️ عرض تفاعلي: لاحظ الرسم المتحرك أدناه لفهم كيف تخضع قطعة بكسل بسيطة (Patch) لعملية تمديد مصفوفي، ويتم تعيينها في النهاية إلى متجه (Vector) عالي الأبعاد يحتوي على ميزات غنية.

1. Patch (16×16×3) (toy example)

16×16 pixels × 3 channels = 768 scalar values

➜

2. Flatten

…

Get a 1×768 vector

× W

3. Embedding

Map to D dimensions (toy D=8; common D=768)

2. الخطوة الثانية: الترجمة عبر الأنواع (Projection)

في هذه المرحلة، على الرغم من أن الصورة قد تم تحويلها إلى سلسلة "كلمات بصرية" أحادية البعد المستمرة، إلا أن هذه السلسلة لا تزال بالنسبة لـ LLM النهائي كومة من الرموز غير القابلة للقراءة.

لماذا لا يمكن قراءتها؟ لأن فضاء الميزات مختلف (أي أنهما يتحدثان لغات مختلفة). المشفر البصري (مثل ViT) يستخرج ميزات بكسلات مكانية (مثلاً يمكنه فقط إخبارك "هذا شيء مكون من العديد من الخطوط السوداء المنحنية"، "هنا مساحة كبيرة من اللون الأحمر")؛ بينما LLM يفهم داخليًا ميزات دلالية عميقة (مثل مفاهيم "قطة"، "أشجار"، "خطر" إلخ).

بين هذين النظامين اللغويين المختلفين تمامًا، نحتاج إلى بناء جسر، وهو مترجمنا عبر الوسائط: Projector (المُسقِط/المُكيِّف).

2.1 دور المترجم (Latent Space Alignment)

الجوهر الأكاديمي لـ Projector هو تحقيق محاذاة فضاء الميزات الكامن (Latent Space Alignment). هذا يشبه المترجم الفوري في الحياة الواقعية:

الإدخال (Source): "الميزات البصرية" التي يبصقها ViT (تركز على تمثيلات الميزات المستمرة عالية الأبعاد مثل الهندسة واللون وأنماط النسيج).
المعالجة (Translation): يستخدم Projector بنية شبكة عصبية (قد تكون بضع طبقات تحويل خطي بسيطة، أو طبقات انتباه معقدة)، ويجد خلال هذه العملية علاقة رياضية مقابلة بين اللغتين.
الإخراج (Target): يخرج "لغة LLM" متوافقة تمامًا مع أذواق وتوقعات LLM (رموز تضمين نصية مكافئة محولة من ميزات الصورة، مما يمنح الصورة معنى قابلاً للحوار).

من خلال طبقة الترجمة هذه، سيكتشف النموذج الكبير بدهشة: "آه؟ سلسلة الأرقام التي تمرر إليّ، أليست هي بالضبط مجموعات الكلمات الوصفية التي أقرأها عادةً!"، وبالتالي يعالج ميزات الصورة واللغة الطبيعية معًا بسلاسة.

Visual Tokens (ViT)

256 Tokens

Linear Layer

Direct mapping (1:1)

LLM Tokens

256 Tokens (keeps all details)

Linear Projector: Simple and efficient. It acts like a direct translator and preserves all visual information. It uses more tokens, but keeps fine details better.

2.2 مدارس الترجمة المختلفة

لجعل عملية محاذاة الميزات هذه أسرع وأدق، ظهرت في الأوساط الأكاديمية والصناعية عدة تصميمات تمثيلية لطرق الربط المادي:

مدرسة الترجمة الحرفية (Linear Projection):
- الطريقة: بسيطة ومباشرة للغاية، تستخدم طبقة واحدة أو عدة طبقات من المدرك متعدد الطبقات (MLP / طبقات الإسقاط الخطي) لإجراء تحويل ونقل مباشر للمصفوفات الرياضية.
- الخصائص: فقدان منخفض جدًا للمعلومات، يحافظ على التفاصيل الأصلية للصورة؛ لكن العيب هو أن مئات أو آلاف الرموز البصرية المقسمة للتو يتم إدخالها كلها دون حجز إلى نموذج اللغة، مما يؤدي إلى زيادة هائلة في الحسابات اللاحقة.
- ممثلوها: سلسلة LLaVA.
مدرسة الترجمة الحرة (Q-Former / Resampler):
- الطريقة: لا تنقل كما هي، بل تُدخل في المنتصف "شبكة استطلاع صغيرة" بقدرة على التلخيص التجريدي. هذا الوكيل الوسيط يفهم الصورة كاملة بسرعة أولاً، ثم يستخلص عشرات النقاط الأساسية عالية التركيز.
- الخصائص: معلومات مكثفة ومنقاة للغاية، رموز أقل، توفر بشكل كبير قدرة الحوسبة والأداء اللازم لفهم LLM؛ العيب هو أنه قد يتم التخلص من أدلة الملاحظة الدقيقة جدًا على حواف الصورة الأصلية أثناء عملية التنقية.
- ممثلوها: BLIP-2, Gemini (آليات مشابهة جزئيًا).
مدرسة التوفيق (C-Abstractor / Pooling):
- الطريقة: باستخدام التجميع الالتفافي أو إعادة تنظيم المناطق المحلية، يتم ضغط وتجميع كتل البكسلات المتجاورة $2 \times 2$ أو الأكبر وإعادة دمجها في وحدة تعبير كاملة واحدة.
- الخصائص: تضغط بشكل معقول الحد الأعلى لطول الرموز، مع الاحتفاظ ببعض الإحساس المكاني والمحلي المترابط.
- ممثلوها: Qwen-VL-Max.

3. الخطوة الثالثة: التكامل (The Architecture)

بعد أن أصبحت لدينا الأجزاء ومعايير التوصيل، لنرى كيف يكتمل التسلح الكامل. النماذج البصرية اللغوية متعددة الوسائط السائدة (Vision-Language Model) تتبع أساسًا بنية "ثلاثية المراحل" موحدة.

3.1 بنية جسم VLM

🧠

Pure LLM→Multimodal VLM

Text-only tokens flow into the LLM.

Text Path

⌨️Prompt

→

🔤Embed

→

Text Tokens

t1t2t3…

Token Sequence

Text

t1t2t3…

Only [Text Tokens]

→

🧠LLM Backbone

→

💬Response

Standard LLM Flow

Prompt → Embedding → Token Sequence → LLM → Response.

يتكون كيان VLM في النموذج النموذجي من ثلاثة أجزاء رئيسية تعمل بالتنسيق:

"العين" المدركة للميزات (Vision Encoder - المشفر البصري):
- الوظيفة: يعمل كبوابة أولى لإدخال الصورة، مسؤول عن النظر إلى الصورة وتجريد الميزات البصرية عالية الأبعاد.
- الاختيار: معظم الشركات لا تدرب العين من الصفر، بل تستعير مباشرة مكونات ناضجة مدربة مسبقًا على مئات الملايين من بيانات "أزواج الصورة والنص" (مثل برج الرؤية لنموذج CLIP من OpenAI، أو نموذج SigLIP من Google).
- تشبيه مجازي: هذه هي منطقة الخلايا المستقبلة للضوء عالية التخصص في الشبكية البيولوجية.
"العصب البصري" المحول للإشارات (Projector - مُسقِط الوسائط):
- الوظيفة: يربط المشفر بقاعدة اللغة، مسؤول عن ضغط أبعاد الإشارة وربطها وترجمة الدلالات متعددة الوسائط.
- الاختيار: هذا هو الأهم في التدريب اللاحق للنظام متعدد الوسائط بأكمله. عدد معلماته عادة ليس كبيرًا (نسبيًا مقارنة بـ LLM)، لكنه يحدد ما إذا كان "النص" و"الصورة" يمكنهما التفاهم.
- تشبيه مجازي: إنه مثل المركز العصبي البصري المسؤول عن تحويل الإشارات الكهربائية ونقلها إلى القشرة الدماغية.
"الدماغ" محرك الإدراك (LLM Backbone - قاعدة نموذج اللغة):
- الوظيفة: يتحمل أعمال الملاحظة النهائية واستدعاء الحس السليم والاستدلال المنطقي العميق وتوليد الردود الشبيهة بالبشر.
- الاختيار: عادةً ما يتم استخدام النماذج اللغوية الكبيرة مفتوحة المصدر ذات أعلى ذكاء في القطاع كنقطة تعليق (مثل Qwen, Llama 3, Vicuna إلخ).
- تشبيه مجازي: هذا هو مركز اللغة واتخاذ القرار في الدماغ المزود بقاعدة معرفة عالمية، يقوم بإصدار أحكام تفكير عالية المستوى على الإشارات المعالجة القادمة من العصب البصري.

4. كيف تعلم النظر إلى الصور؟ (Training)

حسنًا، الآن تم خياطة أجزاء الجسم معًا. لكن قبل الاستقبال الرسمي، يكون VLM المُجمَّع حديثًا في الواقع في حالة "عمى وفوضى" تشبه المولود الجديد — لأن العصب البصري المضاف حديثًا (Projector) هو صفحة بيضاء، مليئة بقيم عشوائية لا معنى لها.

لجعل هذا الوحش المُركَّب يمتلك قدرة التحدث عن الصور، لخص المجتمع العلمي مجموعة فعالة من "قواعد التدريب على مرحلتين (Two-Stage Training)".

المرحلة الأولى: التعرف على الأشياء (Feature Alignment —— التدريب المسبق للتعرف)

في هذه المرحلة، المهمة الرئيسية هي جعل Projector العشوائي يبني علاقة رسم خرائط أولية عبر الوسائط. العملية تشبه كثيرًا تعليم الرضيع حفظ الكلمات باستخدام "بطاقات تعليمية معرفية".

نريه (مدخلات التدريب): كميات هائلة (غالبًا مئات الملايين) من أزواج الصور والنصوص المبسطة جدًا التي تحتوي على موضوع بارز واحد (مثل صورة "قطة" على خلفية بيضاء).
نخبره (المخرجات المستهدفة): مع تسميات كلمات مختصرة مرفقة ("قطة برتقالية").
هدف التحسين: إجبار Projector على التعلم من خلال تغييرات المصفوفات، بحيث تتطابق ميزات القطة البصرية المقابلة (بعد الترجمة) وتتماشى قدر الإمكان مع متجه رمز "قطة" في اللغة الطبيعية.
حالة التحكم في المعلمات (Freeze Strategy): لمنع تدمير حكمة النموذج الأصلي، يقوم الباحثون في هذه المرحلة بتجميد (Freeze) مليارات المعلمات لـ "العين" (ViT) و"الدماغ" (LLM) بشكل كبير، ويفتحون فقط تدريب ملايين المعلمات لـ "العصب البصري" (Projector) نفسه.

🖼️

Image
(cat)

📝

Caption
("a cat")

➜

❄️ Frozen

👁️

ViT

➜

🔥 Train

🔌

Projector

❄️ Frozen

🧠

LLM

➜

🟢

Vector V

Loss

V ≈ T

🔵

Vector T

Ready. Click the button to simulate one training iteration.

المرحلة الثانية: الحوار (Visual Instruction Tuning —— تدريبات الحوار)

إذا كانت المرحلة الأولى تجعل النموذج مجرد آلة تسرد الأسماء، فإن مهمة المرحلة الثانية هي إثارة ذكائه العالي، وجعله قادرًا حقًا على الإجابة عن تعليمات human المعقدة التي تجمع بين النص والصورة وفقًا للسياق.

نريه (مدخلات التدريب): أزواج تدريب أسئلة وأجوبة عالية الجودة مصممة بعناية. مثلاً تقديم صورة بانورامية معقدة لحركة المرور في المدينة.
نطلب منه الإجابة (المخرجات المستهدفة): يسأل المستخدم: "<صورة> هل الرجل الذي يركب الدراجة البيضاء في الزاوية اليسرى السفلى يرتدي خوذة؟" يجيب المساعد: "لا، لا يرتدي شيئًا على رأسه، وهذا سلوك خطير جدًا في المدينة."
هدف التحسين: جعل النموذج الكبير لا يستقبل الإشارات البصرية فحسب، بل يجمع أيضًا بين تراكمات الحس السليم الحضاري السابقة، ويدمج المنطق النصي مع التمثيلات متعددة الوسائط تمامًا ويقوم بالاستدلال.
حالة التحكم في المعلمات (Freeze Strategy): في هذه المرحلة يكون العصب البصري قد تم ضبطه أساسًا. في مرحلة الضبط الدقيق هذه، يستمر عادةً تجميد جزء من أوزان الطبقات السفلى للمشفر البصري، مع فك تجميد LLM و Projector بالكامل (أو استخدام تكوين LoRA)، لإجراء تعديل شامل واسع النطاق بالانتشار العكسي المشترك.

👤

🐱

What is this cat doing?

5. متقدم: رؤية أوضح (Advanced Tricks)

على الرغم من أن البنية أعلاه دعمت النموذج متعدد الوسائط الأولي، إلا أن الجيل الأول من نماذج VLM كان يعاني من مشكلة أساسية مزعجة للغاية —— قصر النظر (ضعف بصري خلقي).

المشفرات البصرية المبكرة ViT، بسبب أسباب تصميمية تاريخية، كانت بطبيعتها لا تستطيع معالجة سوى صور صغيرة منخفضة الدقة جدًا مثل $224 \times 224$ أو $336 \times 336$ . هذا يشبه إجبار المرء على مشاهدة العالم من خلال كاميرا قديمة ضبابية منخفضة الجودة بمئات الآلاف من البكسلات، حيث تصبح التفاصيل مثل النصوص الصغيرة على اللوحات الإعلانية غير واضحة تمامًا ككتلة من نقاط البكسل، وحتى لو كان الدماغ ذكيًا جدًا "فلن تستطيع ربة البيت الذكية الطهي بدون أرز".

للتغلب على مشكلة الدقة المنخفضة، استخدمت شركات النماذج الرائدة (مثل فريق Qwen-VL، LLaVA-NeXT وغيرهم) بعض الوسائل الهندسية البارعة جدًا:

5.1 تخطيط التقطيع عالي الدقة الديناميكي (Dynamic High-Resolution Mapping)

إذا كان إدخال الصورة الكبيرة مباشرة سيؤدي إلى امتلاء ذاكرة العرض، والتقليص العنيف سيفقد كل التفاصيل، فكيف نكسر هذا المأزق؟ الحل الحالي هو: استراتيجية المنظور المزدوج "لقطة محلية مقربة + منظور عام شامل".

نظرة عامة شاملة: أولاً نقوم بتقليص الصورة الأصلية عالية الدقة الضخمة مباشرة إلى $336 \times 336$ ، ونعطيها للعين لإلقاء نظرة. هذا يمكن النموذج من استيعاب البنية التخطيطية الكلية العامة (أين السماء؟ أين الأرض؟).
التقطيع والتكبير: نقوم بتقطيع الصورة الأصلية عالية الدقة إلى عشرات من قطع اللقطات المحلية غير المفقودة (Slice) بحجم $336 \times 336$ .
الفحص واحدًا تلو الآخر وإعادة التجميع المكاني: نجعل المحرك البصري يمسح هذه القطع غير المفقودة العشرات واحدة تلو الأخرى بعدسة مكبرة لجمع التفاصيل عالية الدقة. بعد ذلك، سيقوم Projector مثل تركيب قطع اللغز بخياطة دلالات قطع التفاصيل هذه مع السياق العام الأولي.

هذه الممارسة تشبه تمامًا أن تلتقط صورة بانورامية لصحيفة بهاتفك (لرؤية التخطيط العام للصفحة)، ثم تقرب الهاتف من الصحيفة لتلتقط العشرات من لقطات المقاطع التفصيلية المتتالية.

5.2 استبدال العين بأخرى كبيرة بطبيعتها (Scaling the Vision Encoder)

طريقة أخرى تعكس جماليات القوة الغاشمة الخالصة: بما أن العين الأصلية تعاني من عيوب جينية خلقية، فسأقوم ببناء عين خارقة مذهلة من الصفر.

النموذج مفتوح المصدر المحلي الممتاز InternVL كممثل كلاسيكي، تخلى عن النماذج البصرية صغيرة المواصفات شائعة الاستخدام، وقام بتدريب نموذج ترميز بصري أمامي ضخم نادر جدًا بعدة مليارات من المعلمات (مثل InternViT-6B بـ 6 مليارات معلمة) من الأسفل إلى الأعلى باستثمار موارد هائلة. بفضل قدرته الفائقة على امتصاص البيانات، وُلد وهو يدعم بشكل أصلي الإدخال عالي الدقة السلس مثل "تلسكوب هابل الفضائي". هذا التصميم يقلل بشكل كبير من التعقيدات الهندسية ومخاطر عدم محاذاة الميزات الناتجة عن تقطيع الصور وتجميعها، محققًا مباشرة إدراكًا بصريًا عالي الدقة "بنظرة واحدة شاملة".

6. الخلاصة

النماذج اللغوية البصرية الكبيرة (VLM) ليست سحرًا. إنها تفعل شيئًا واحدًا فقط:

ترجمة "الصورة" كلغة أجنبية إلى "النص" كلغة أم، ثم إطعامها لـ LLM.

طالما فهمت هذه النقطة، فقد فهمت كل شيء عن VLM.

7. جدول المصطلحات السريع (Glossary)

المصطلح	الاسم الكامل	الشرح
VLM	Vision-Language Model	النموذج اللغوي البصري الكبير. GPT قادر على فهم الصور.
ViT	Vision Transformer	النموذج البصري. "عين" VLM، مسؤول عن تحويل البكسلات إلى متجهات.
Patch	-	قطعة الصورة. المربعات الصغيرة التي تقطع إليها الصورة، تمثل "الكلمة البصرية".
Projector	-	المُسقِط/المترجم. الجسر الذي يربط العين بالدماغ.
Alignment	-	المحاذاة. جعل ميزات الصورة وميزات النص "تفهم بعضها البعض" في نفس الفضاء.

النماذج متعددة الوسائط (الرؤية / الصوت / الفيديو) ​

0. مقدمة: تثبيت عيون للدماغ ​

1. الخطوة الأولى: تحويل الصور إلى "كلمات" (Visual Tokenization) ​

1.1 التقطيع (Patchify) —— صنع الكلمات البصرية ​

1.2 التسلسل (Flatten) —— ترتيبها في جملة ​

2. الخطوة الثانية: الترجمة عبر الأنواع (Projection) ​

2.1 دور المترجم (Latent Space Alignment) ​

2.2 مدارس الترجمة المختلفة ​

3. الخطوة الثالثة: التكامل (The Architecture) ​

3.1 بنية جسم VLM ​