قاموس قدرات الذكاء الاصطناعي

مع الانتشار الواسع لتقنيات الذكاء الاصطناعي التوليدي في مختلف المنتجات وسيناريوهات الأعمال، يبرز سؤال واقعي متزايد أمام كل منا: ما هي قدرات الذكاء الاصطناعي المتاحة فعليًا؟ وفي متطلبات محددة، أي قدرة، أو أي فئة من النماذج، أو أي منتج ينبغي اختياره لتحقيقها؟

عند مواجهة هذا الالتباس، قد يكون النهج الأكثر بديهية هو "اللجوء إلى الحلول المؤقتة": عند ظهور متطلب، ابحث عن واجهات برمجة التطبيقات (APIs) الخاصة بمزودي الخدمات السحابية في السوق، أو النماذج المقابلة، وابحث عن الحلول التجارية الجاهزة في السوق وقارن بين الوثائق والعروض التوضيحية (Demo) للتعامل معها. ترى متطلبًا متعلقًا بالصور فتتذكر توليد الصور، وتواجه مهمة نصية فتستدعي نموذجًا لغويًا كبيرًا، ويذكرك التفاعل الصوتي بتقنيات التعرف على الكلام (ASR) وتحويل النص إلى كلام (TTS)، ثم تقارن بين عدد هائل من واجهات API والخدمات. لكن، تجميع المنتجات المبعثرة معًا يختلف اختلافًا جوهريًا عن التخطيط والاختيار والدمج المنهجي لقدرات الذكاء الاصطناعي في السيناريوهات المؤسسية. الاعتماد فقط على البحث المؤقت للمعلومات والحكم المبني على الخبرة يؤدي إلى سلسلة من التحديات الخطيرة مثل تجزؤ المعرفة بالقدرات، وعشوائية تصميم الحلول، وصعوبة إعادة استخدام القدرات.

لمعالجة هذه المشكلات، وُلدت فكرة هذا الدليل الذي يتمحور حول "الخريطة الشاملة لقدرات الذكاء الاصطناعي". ما نهدف إليه في هذا الدليل ليس سرد المصطلحات، بل مساعدتك على استيعاب ثلاثة أمور بسرعة: "ما هي قدرات الذكاء الاصطناعي التي يمكن استخدامها لهذه المهمة؟ ما هي فئة النماذج أو المنتجات التي ينبغي اختيارها تقريبًا؟ ما هي الكلمات المفتاحية التي سأستخدمها بعد ذلك للبحث عن واجهات API، أو المشاريع، أو الخدمات للتجربة؟" من خلال التنظيم المنهجي وفقًا للأنماط (النص، الصورة، الصوت، الفيديو، ثلاثي الأبعاد، متعدد الأنماط) وطبقات البنية (النماذج، الاسترجاع، الوكيل، هندسة المنصات)، يمكننا لكل فئة من المتطلبات والسيناريوهات النموذجية إيجاد قدرات الذكاء الاصطناعي المناسبة، والنماذج/المنتجات الممثلة، والاستخدامات الشائعة في سياقات الأعمال الحقيقية، مما يساعد الفرق على بناء منظومة الذكاء الاصطناعي بتكلفة تجريب أقل، وكفاءة قرار أعلى، وقابلية أقوى لإعادة الاستخدام.

في هذا الدليل، سنقدم بشكل منهجي خريطة قدرات الذكاء الاصطناعي السائدة حاليًا، بدءًا من الأنماط الأحادية وصولًا إلى الدمج متعدد الأنماط، ومن النماذج المنفردة إلى الإطار الشامل للمنصات والهندسة، مع ربطها بأشكال المنتجات الشائعة وسيناريوهات التطبيق، لنقدم مرجعًا عمليًا لاختيار القدرات.

نظرًا لكثرة المحتوى، يمكنك الرجوع إلى الدليل للبحث عن مرجع عندما تواجه سيناريو لا تعرف كيفية الاختيار فيه أثناء التطبيق العملي؛ نوصي بأن تطلب من الذكاء الاصطناعي، وفقًا لاتجاه التطبيق المحدد، الرجوع إلى هذا الدليل وتقديم اقتراحات قابلة للتطبيق حول اختيار النماذج، واقتراحات لاستدعاء واجهات API للحلول.

إذا كنت ترغب فقط في فهم الفئة المقابلة ولا تريد الاطلاع على المحتوى التفصيلي، فيكفي الاطلاع على محتوى الفقرة الافتتاحية لكل فصل رئيسي، مثل محتوى 1.1 و1.2، دون الحاجة للاطلاع على محتوى 1.1.1 أو 1.1.2.

يُنصح بالرجوع إلى هذا الدليل فقط عند الحاجة للاطلاع على الجزء المقابل، أو تصفح أقسام المستوى الأول فقط، وفي حال وجود اهتمام يمكنك تصفح النص الكامل.

ستُضاف التحديثات لاحقًا في كل قسم، مع التوصية بعناوين خدمات واجهات API للنماذج التي يمكن تجربتها.

ما ستتعلمه في هذا الدرس

المشهد الشامل لقدرات الذكاء الاصطناعي: الإطار العام لتقسيم القدرات من النصوص، الصور، الصوت، الفيديو، ثلاثية الأبعاد إلى التعددية النمطية، الوكيل (Agent)، التوليد المعزز بالاسترجاع (RAG)، الأمن وهندسة المنصات
النماذج والمنتجات المرتبطة بكل قدرة: التعرّف على النماذج والخدمات التمثيلية وراء القدرات الرئيسية مثل Embedding، OCR، ASR، TTS، VLM، RAG
منهجية ربط القدرات بالسيناريوهات: إتقان كيفية تحويل "قائمة القدرات" إلى تطبيقات ملموسة مثل محتوى المنتجات، البحث والإجابة على الأسئلة، خدمة العملاء الذكية، والأتمتة التشغيلية

بعد إكمال دراسة هذا الدليل، ستبني معرفة منهجية على المستوى التمهيدي بقدرات الذكاء الاصطناعي السائدة، بحيث لا تقتصر معرفتك على "ما هي القدرات المتاحة في السوق والمنتجات المرتبطة بها"، بل ستفهم أيضًا مواقعها وعلاقاتها المتبادلة ضمن البنية الشاملة. وستعرف كيفية تحديد القدرات المطلوبة بسرعة واتخاذ قرارات اختيار مبنية على أسس سليمة عند مواجهة احتياجات عمل محددة، مما يرسّخ أساسًا متينًا لبناء منظومة قدرات الذكاء الاصطناعي.

معلمات النماذج المذكورة في الدليل

قبل الدخول في خريطة القدرات التفصيلية، دعنا نوضح أولاً مفهوماً يُطرح كثيراً لكنه يبقى مجرداً بعض الشيء: ما الذي يُعتبر نموذجاً كبيراً (Large Model)؟ وما الذي يُعتبر نموذجاً صغيراً (Small Model)؟

من الناحية الأكاديمية، تشير النماذج الكبيرة عادةً إلى النماذج العامة التي تتراوح معلماتها بين مليارات وعشرات المليارات بل ومئات المليارات أو حتى تريليونات المعلمة، بينما النماذج الصغيرة هي نماذج متخصصة لمهام أو سيناريوهات محددة بعدد معلمات أقل (من عشرات الملايين إلى مئات الملايين).

من ناحية التسعير، إذا كانت استدعاءات API لنموذج ما رخيصة جداً — مثلاً بتكلفة بضعة أجزاء من السنت لكل استدعاء، أو أجزاء من السنت لكل ألف رمز (token) — ولم يُروَّج له بشكل خاص كنموذج كبير عام، فعادةً ما يكون إما نموذجاً صغيراً تقليدياً (مثل النماذج المخصصة لـ OCR أو ASR أو تصنيف الصور أو مراجعة المحتوى)، أو نسخة خفيفة من نموذج كبير بعدد معلمات أقل (مضغوطة أو مقطرة خصيصاً للتزامن العالي والتكلفة المنخفضة). أما إذا كان سعر الاستدعاء الواحد مرتفعاً بشكل ملحوظ — مثلاً يبدأ من بضعة دولارات للاستدعاء الواحد — فعلى الأرجح أنه نموذج كبير.

بالإضافة إلى ذلك، إذا نصت المواد التسويقية للمنتج صراحةً على استخدام نماذج اللغة الكبيرة (LLM)، أو النماذج الكبيرة العامة، أو النماذج الكبيرة متعددة الوسائط، أو أشارت إلى إنجاز مهام معقدة من البداية إلى النهاية (مثل روبوتات المحادثة الشاملة، أو أنظمة الاسترجاع والإجابة الشاملة، أو توليد الفيديو الشامل)، فيمكن اعتباره عادةً نموذجاً كبيراً.

على النقيض، إذا كان التركيز التسويقي ينصب على قدرة رأسية محددة — مثل التعرف على البطاقات البنكية، أو التعرف على الفواتير، أو التعرف على لوحات المركبات، أو التنبؤ بنسبة النقر على الإعلانات، أو تحويل الصوت إلى نص، أو مراجعة سلامة المحتوى — فهذا يشير إلى أن المنتج يعتمد على الأرجح على نموذج صغير واحد أو مجموعة من النماذج الصغيرة.

لذلك، يمكننا وضع اتفاق عملي لما تبقى من هذا الدليل:

النماذج الكبيرة تشير غالباً إلى تلك النماذج العامة القابلة للحوار والبرمجة والتي تكون أسعارها أعلى قليلاً (بما في ذلك إصداراتها متعددة الوسائط، مثل GPT-4o وGemini 1.5 Pro وClaude 3.5 Sonnet وغيرها)، وهي قادرة على تغطية معظم المهام العامة في النصوص والبرمجة وكذلك الصور والصوت والفيديو.
النماذج الصغيرة تشير إلى تلك النماذج المضبوطة أو المخصصة لمهمة محددة، وعادةً ما تكون أرخص ثمناً وأكثر استقراراً وقابلية للتحكم في الأداء، لكن نطاق تطبيقها أضيق، وتتطلب منك دمجها وتنسيقها بشكل فعال داخل النظام.

يجدر هنا ذكر تغير مهم في المجال: العديد من قدرات النماذج المذكورة في هذا الدليل كانت تُنفذ فعلياً بواسطة "نماذج صغيرة" قبل عام 2021 — حيث كانت تُدرَّب نماذج مخصصة لسيناريوهات وبيانات محددة لتلبية الاحتياجات الدقيقة. أما اليوم، فإن الغالبية العظمى من السيناريوهات والمهام العامة يمكن حلها مباشرةً باستدعاء النماذج الكبيرة.

من منظور السعي الأقصى للدقة والتكلفة، لا يزال لتدريب النماذج الصغيرة وتطبيقها قيمة لا يمكن الاستغناء عنها؛ لكن بالنسبة للمبتدئين، يمكننا البدء تماماً بتعلم كيفية العثور على نماذج كبيرة واستدعاء API الخاص بها، ثم التعمق تدريجياً في التقنيات المتقدمة. كل ما عليك هو الموازنة بين التكلفة والدقة وزمن الاستجابة، ثم تحديد أين تستخدم النموذج الكبير العام، وأين تبقي أو تدخل النموذج الصغير المتخصص.

التعرف على النماذج الكبيرة النصية ومتعددة الوسائط الشائعة من خلال بعض المنتجات المعروفة:
سلسلة OpenAI: GPT-4، GPT-4.1، GPT-4o، GPT-5.1 وغيرها
سلسلة Google: Gemini 1.5 Pro، Gemini 1.5 Flash وغيرها
سلسلة Anthropic: Claude 3.5 Sonnet، Claude 3.5 Haiku وغيرها
النماذج المحلية الصينية: سلسلة Tongyi Qianwen (Qwen)، سلسلة Wenxin Yiyan (ERNIE Bot)، GLM / Zhipu Qingyan، Tencent Hunyuan، iFlytek Spark، النموذج الكبير خلف Kimi من Moonshot AI، سلسلة MiniMax-M2.7 وغيرها
النماذج والخدمات الكبيرة الأكثر توجهاً نحو الرؤية والفيديو تشمل:
توليد الصور: DALL·E، Midjourney، Stable Diffusion، SDXL، Flux وغيرها
الفهم البصري متعدد الوسائط: GPT-4o، GPT-4.1 with Vision، Gemini 1.5 (نصوص وصور متعددة الوسائط)، Claude 3.5 Sonnet Vision، LLaVA وغيرها
توليد الفيديو: Sora، Kling، Runway Gen-2، Pika، Luma، Veo وغيرها
النماذج الكبيرة في مجال الصوت والصوتيات تشمل:
التعرف على الكلام (ASR): سلسلة Whisper (Whisper، Whisper-large-v3 وغيرها)، Deepgram، نماذج ASR الكبيرة الشاملة من مزودي الخدمات السحابية (مثل iFlytek، Baidu، Volcano Engine، Alibaba وغيرها)
النماذج الصوتية متعددة الوسائط والحوار الصوتي: GPT-4o (حوار صوتي شامل)، OpenAI Realtime، قدرات الفهم الصوتي في Gemini 1.5 وغيرها
TTS / توليد الصوت والموسيقى: OpenAI TTS، ElevenLabs، Suno، Udio، MusicGen وغيرها
نماذج التوليد والفهم في المجال ثلاثي الأبعاد / المكاني تشمل:
التحويل من النص إلى 3D ومن الصورة إلى 3D: DreamFusion، Shap-E، GET3D، Zero-1-to-3، TripoSR وغيرها
عائلة NeRF / العرض العصبي: Instant-NGP، سلسلة NeRF، النماذج المرتبطة بـ Gaussian Splatting وغيرها

1. المهام النصية (Text / NLP / LLM)

في قدرات الذكاء الاصطناعي، تُعد المهام النصية الوظيفة الأساسية. سواء كنا نهدف في النهاية إلى الإشراف على المحتوى، أو توصيات البحث، أو الإجابة على الأسئلة المعرفية، أو مساعدي الكتابة، أو Code Copilot، فإننا في الجوهر لا يمكننا تجاوز سؤال واحد: كيف يمكن للآلة أن تفهم النص حقًا.

1.1 النمذجة اللغوية الأساسية والتمثيل

دعونا نبدأ من المستوى الأساسي: النمذجة اللغوية الأساسية والتمثيل. دورها هو جعل الآلة تتعرف أولاً على اللغة من الناحية الإحصائية، وبناءً على ذلك، إيجاد تمثيل متجهي مستقر للكلمات والجمل والمستندات، لتسهيل المهام اللاحقة مثل التصنيف والمطابقة والاستخراج والتوليد. بغض النظر عن مهام معالجة النصوص التي سنقوم بها مستقبلاً، نحتاج بدرجة أو بأخرى إلى الإجابة عن السؤال نفسه أولاً: كيف يمكنني تمثيل هذه الفقرة باستخدام سلسلة من الأرقام؟

يمكننا النظر إلى المحتوى المرتبط بهذا السؤال من ثلاث زوايا: السيناريوهات، والمبادئ، والنماذج:

السيناريوهات
- ذات الصلة بالبحث والاسترجاع
  - محركات البحث العامة: يقوم المستخدم بإدخال جملة عشوائية ويحصل على مستندات ذات صلة دلالية، بدلاً من المطابقة الدقيقة للكلمات المفتاحية فقط.
  - البحث داخل المواقع / البحث في التجارة الإلكترونية: يستخدم المستخدم أوصافاً بلغة طبيعية (مثل "قميص أبيض مناسب للتنقل الصيفي")، ويجد منتجات متطابقة في المعنى.
  - البحث في قواعد المستندات / المعرفة: في المستندات التقنية واللوائح وقواعد المعرفة المؤسسية، يمكن إدخال جملة واحدة مباشرةً للحصول على العناصر ذات الصلة.
- ذات الصلة بالتوصية والترتيب
  - تدفق المحتوى / توصية المحتوى: بناءً على المحتوى الذي شاهده المستخدم أو نقره مؤخراً، يتم العثور تلقائياً على محتوى آخر مشابه للتوصية به، بدلاً من الاعتماد فقط على القواعد اليدوية أو الوسوم.
  - التجارة الإلكترونية / توصية المنتجات: بناءً على أوصاف المنتجات التي شاهدها المستخدم أو اشتراها أو أضافها للمفضلة، يتم العثور على منتجات مشابهة في الأسلوب أو الاستخدام للتوصية الشخصية.
  - نمذجة اهتمامات المستخدم: بناءً على العناوين التي شاهدها المستخدم والكلمات التي بحث عنها، يتم تلخيص عدة اتجاهات اهتمام رئيسية لتحسين فعالية التوصية والترتيب.
- ذات الصلة بالمساعد الذكي للأسئلة والأجوبة
  - الأسئلة الشائعة (FAQ): عندما يسأل المستخدمون السؤال نفسه بطرق مختلفة ("كيف أُصدر فاتورة؟" مقابل "أين يمكنني إصدار الفاتورة؟")، يستطيع النظام التوجه إلى الإجابة نفسها.
  - الأسئلة والأجوبة من قاعدة المعرفة / المساعد المؤسسي: يقوم المستخدم بطرح سؤال باللغة الطبيعية، ويقوم النظام بالبحث في المستندات الداخلية ومطابقتها دلالياً للعثور على الفقرات الأكثر صلة للإجابة.
- ذات الصلة بفهم النصوص وتحليلها
  - تحليل المشاعر في التعليقات: تصنيف عدد كبير من التعليقات والمنشورات إلى عدة فئات تقريبية حسب "ما الذي تتحدث عنه / ما هي المشاعر".
  - إزالة التكرار في النصوص / اكتشاف التشابه: يُستخدم لاكتشاف النسخ المُعاد صياغتها والمقالات شبه الأصلية.
  - تجميع المستندات / التقسيم: تقسيم العديد من المقالات والتقارير إلى مجموعات حسب تقارب المحتوى، لتسهيل التصفح أو التوصية أو الفحص بالعينة.
- كميزات عامة للمهام اللاحقة (المهام اللاحقة تعني استخدام القدرات الأساسية للنموذج لتحقيق مهام معالجة نصوص أكثر تحديداً)
  - تصنيف النصوص: نماذج تصنيف المشاعر، والتعرف على النية، وتحديد المحتوى غير المرغوب فيه وغيرها من النماذج اللاحقة تعيد استخدام تمثيل هذه الطبقة مباشرةً.
  - استخراج المعلومات: يتم الضبط الدقيق لاستخراج الكيانات والعلاقات بناءً على تمثيل الكلمات/الجمل، بدلاً من التدريب من الصفر.
  - توليد النصوص: توفير مدخلات تمثيل دلالي لمهام التوليد مثل التلخيص وإعادة الصياغة والاستكمال، مما يحسن جودة التوليد وقابلية التحكم فيه.
المبادئ تعلم تمثيل الكلمات والجمل والمستندات كقاعدة للمهام الأكثر تعقيداً لاحقاً.
- النمذجة اللغوية
  - نموذج اللغة الانحداري الذاتي: التنبؤ بالرمز (token) التالي (GPT، LLaMA، Qwen، إلخ)
  - نموذج اللغة المُقنَّع (Masked LM): التنبؤ بالرمز المُغطى (BERT، RoBERTa، ERNIE)
- تمثيل الكلمات / الجمل / الفقرات
  - المتجهات الثابتة للكلمات: Word2Vec، GloVe، FastText
  - التمثيل السياقي: BERT embedding، Sentence‑BERT، إلخ
  - متجهات على مستوى المستند: تُستخدم للاسترجاع الدلالي ومطابقة التشابه
النماذج BERT / RoBERTa / ERNIE، عائلة GPT، LLMs مثل LLaMA / Qwen / Yi؛ نماذج Embedding المتنوعة (سلسلة OpenAI text‑embedding‑3، bge، E5، SimCSE، إلخ).

1.1.1 النمذجة اللغوية: تعلم اللغة من خلال "تخمين الكلمة التالية"

الخطوة الأولى في هذه الطبقة هي جعل النموذج يتعرف على أنماط اللغة من خلال كميات هائلة من النصوص. يمكن تبسيط الطريقة على النحو التالي: نعطي النموذج عدداً لا نهائياً من "أسئلة تخمين الكلمات"، وبعد رؤية سياق فقرة ما، نطلب منه ملء الكلمة (الرمز) الأكثر منطقية. مع وجود عدد كافٍ من التمارين ومواد لغوية واسعة بما يكفي، سيتعلم النموذج تدريجياً: كيف تبدو الجملة الطبيعية، وأي الكلمات تظهر معاً بشكل متكرر، وأي التعابير تبدو غريبة. تُسمى هذه العملية "النمذجة اللغوية"، وهي في جوهرها آلية موحدة للتدريب على تخمين الكلمات.

هناك طريقتان شائعتان لصياغة الأسئلة، وسنقدم مثالاً بسيطاً لكل منهما بجملة واحدة:

التكميل للأمام (الانحداري الذاتي) : إعطاء المحتوى السابق فقط، وجعل النموذج يخمن "ما الذي سيُقال لاحقاً".
بادئة الإدخال: اليوم تمطر، لذلك
مهمة النموذج: تخمين الكلمة التالية، مثل " أحضرت (المظلة)" أو " لم (أخرج)" أو " أنوي (البقاء في المنزل)"، ثم الاستمرار في التكميل. بهذه الطريقة، يُمرَّن النموذج بشكل أساسي على الاستمرارية والترابط والتعابير الشائعة.
ملء الفراغ (الإخفاء) : إخفاء كلمة في المنتصف وجعل النموذج يستخدم السياق السابق واللاحق معاً لملء الفراغ.
الجملة الأصلية: اليوم تمطر، لذلك أحضرت المظلة
جملة التدريب: اليوم [MASK]، لذلك أحضرت المظلة
مهمة النموذج: إكمال [MASK] بكلمة معقولة مثل " تمطر ". هنا يجب على النموذج أن ينظر في آنٍ واحد إلى "اليوم" و"،" على اليسار وإلى "لذلك أحضرت المظلة" على اليمين، ليقرر ما يجب ملؤه، مما يساعد بشكل أكبر على تعلم دلالات الجملة الكاملة.

من خلال القيام بهذين النوعين من "أسئلة تخمين الكلمات" بشكل متكرر على كميات هائلة من النصوص، يتراكم لدى النموذج تدريجياً حس لغوي وإلمام إحصائي باللغة. بناءً على ذلك، في الخطوة التالية، نحول هذه القدرة بشكل صريح إلى تمثيلات متجهية للكلمات والجمل والمستندات، لتكون أساساً لمهام الاسترجاع والتوصية والأسئلة والأجوبة اللاحقة.

1.1.2 تمثيل الكلمات والجمل والمستندات: نقل الرموز المتقطعة إلى الفضاء الدلالي

الجيل الأول من طرق بناء متجهات النصوص هو المتجهات الثابتة للكلمات : تخصيص متجه ثابت لكل كلمة، لا يتغير مع السياق بعد التدريب، وهو بسيط ومباشر، لكنه لا يستطيع التمييز بين معاني الكلمات متعددة المعاني في السياقات المختلفة. لحل هذه المشكلة، ظهرت لاحقاً طرق التمثيل الديناميكي المعتمدة على السياق: الكلمة نفسها تولد متجهات مختلفة في جمل مختلفة، تحدده تماماً السياق الذي توجد فيه. على سبيل المثال، كلمة "تفاحة" في "أصدرت تفاحة هاتفاً جديداً" ستكون أقرب إلى اتجاه "شركة التكنولوجيا" دلالياً، بينما في "التفاح غني بالفيتامينات" ستكون أقرب إلى مفهوم "الفاكهة".

لم تُحسِّن هذه الآلية القدرة التعبيرية على مستوى الكلمات فحسب، بل مهدت الطريق أيضاً لتوجيه الجمل والمستندات. بالنسبة للجمل، يمكن توليد متجهات جمل؛ وبالنسبة للمستندات، يمكن ترميزها كاملةً (إذا سمح الطول بذلك)، أو ترميزها على أجزاء ثم تجميعها في متجه شامل من خلال آليات الانتباه أو التجميع الهرمي أو التعلم التقابلي. تركز نماذج embedding المتخصصة في السنوات الأخيرة (مثل bge و E5 وسلسلة text-embedding) على التحسين المستمر نحو هدف "جعل النصوص المتقاربة دلالياً أقرب في فضاء المتجهات"، خاصةً في مهام الاسترجاع الدلالي ومطابقة التشابه.

أصبح هذا المسار من النمذجة السياقية إلى توليد متجهات الجمل/المستندات بنية تحتية أساسية وراء أنظمة البحث والتوصية والأسئلة والأجوبة، ولنعد إلى السيناريوهات المختلفة المذكورة سابقاً:

سيناريوهات البحث والاسترجاع (البحث العام، البحث في التجارة الإلكترونية، البحث في قواعد المعرفة) كلها تحتاج إلى ترميز مدخلات المستخدم والمستندات المرشحة إلى متجهات، ثم إجراء مطابقة التشابه في فضاء المتجهات لإيجاد النتائج الأقرب دلالياً، بدلاً من الاعتماد على المطابقة الدقيقة للكلمات المفتاحية فقط.
سيناريوهات التوصية والترتيب (توصية تدفق المحتوى، توصية المنتجات، نمذجة اهتمامات المستخدم) تحتاج إلى تحويل المحتوى المقابل لسلوك المستخدم التاريخي إلى متجهات، ثم إيجاد محتوى جديد قريب منها في فضاء المتجهات للتوصية به للمستخدم، مما يحقق تأثير التخصيص "شاهد A فوصِّي له بـ B".
سيناريوهات المساعد الذكي للأسئلة والأجوبة (الأسئلة الشائعة، الأسئلة والأجوبة من قاعدة المعرفة) تحتاج إلى ترميز أسئلة المستخدمين والأسئلة أو الفقرات في قاعدة المعرفة إلى متجهات، ومن خلال تشابه المتجهات يتم العثور على الإجابة الأكثر تطابقاً.
سيناريوهات فهم النصوص وتحليلها (تحليل مشاعر التعليقات، إزالة التكرار، التجميع) تحتاج أولاً إلى تحويل كل نص إلى متجه، ثم إجراء التجميع أو حساب التشابه أو التصنيف بناءً على المتجهات.
سيناريوهات المهام اللاحقة (تصنيف النصوص، استخراج المعلومات، توليد النصوص) تستخدم مباشرةً تمثيل المتجهات من هذه الطبقة كميزات إدخال، وتُغذيها إلى المُصنِّف أو المستخرج أو المولِّد اللاحق، مما يجنب تعلم الدلالات من الصفر.

من الناحية الهندسية، الممارسة الشائعة هي تغليفها في "خدمة موحدة لمتجهات النصوص": إدخال أي فقرة نصية، وإخراج سلسلة من المتجهات ذات البعد الثابت، لتستخدمها أنظمة البحث والتوصية والأسئلة والأجوبة بشكل مشترك. على مستوى المنتج، تتجلى قدرة هذه الطبقة بشكل رئيسي في: الاسترجاع الدلالي في البحث والتوصية (لم يعد الاعتماد على الكلمات المفتاحية فقط، بل استرجاع المحتوى "المختلف صياغةً والمتقارب معنىً" من خلال تشابه المتجهات)، بالإضافة إلى خدمات embedding / الاسترجاع المتجهي الموحدة الموجهة لقواعد المعرفة المؤسسية والأسئلة الشائعة وقواعد الحالات.

1.2 تصنيف النصوص ومطابقة النصوص (Classification & Matching)

في القسم السابق، تمكّنا من إيجاد "إحداثيات" كل نص في الفضاء الدلالي من خلال النمذجة والتمثيل اللغوي الأساسي. لكن الإحداثيات وحدها لا تكفي؛ فالمسائل التي تهم الأعمال فعليًا غالبًا ما تكون: إلى أي فئة ينتمي هذا النص؟ هل يتحدث هذا النص ونص آخر عن الشيء نفسه؟ هل العلاقة المنطقية بين جملتين هي دعم متبادل أم تناقض؟ يمكننا تشبيه ذلك باستخدام قدرتي التصنيف والمطابقة لتحويل التمثيلات المتجهية الأساسية إلى تسميات وإشارات ارتباط يمكنها توجيه القرارات التجارية مباشرة. وسنواصل استعراض هذه الطبقة من الزوايا الثلاث: السيناريوهات، والمبادئ، والنماذج:

السيناريوهات
- فهم المحتوى ومراجعته: إضافة تسميات مثل الموضوع، والمشاعر، والمخاطر إلى التعليقات والمنشورات والمقالات، لاستخدامها في المراجعة والتوصية والتحليل الإحصائي.
- التوصية والترتيب: تحديد المحتوى الذي سيُعرض ومدى أولويته بناءً على درجة المطابقة بين "تسميات اهتمامات المستخدم" و"تسميات المحتوى".
- البحث والأسئلة الشائعة: عندما يُدخل المستخدم سؤالاً بلغة طبيعية، يتمكن النظام تلقائيًا من إيجاد أزواج الأسئلة والأجوبة أو مقاطع المستندات الأكثر صلة.
- التعرف على المحتوى المتشابه: إيجاد العناصر "المتقاربة محتوىً" ضمن كميات كبيرة من النصوص، لاستخدامها في إزالة التكرار، ودمج الإحصائيات، والتوصية بـ"محتوى ذي صلة".
- الحكم على العلاقات المنطقية: تحديد ما إذا كانت العلاقة بين جملتين هي دعم متبادل، أم تناقض، أم عدم ارتباط، ويُستخدم ذلك في التحقق من الحقائق، وفحص اتساق الحوارات متعددة الجولات، وغيرها.
المبادئ بالاعتماد على التمثيل الدلالي، يتم إجراء حكم شامل على النص بالكامل أو على أزواج النصوص:
- تصنيف النصوص: إضافة تسمية إلى نص منفرد (مثل المشاعر، الموضوع، نوع المخاطرة، إلخ)؛
- مطابقة النصوص: الحكم على درجة التشابه أو الصلة بين نصين، أو ما إذا كان "السؤال والجواب" متطابقين؛
النماذج تعتمد على مشفّر (encoder) مُدرّب مسبقًا كأساس، وتُضاف إليه بنية تصنيف/مطابقة بسيطة:
- تصنيف النص المنفرد: BERT / RoBERTa / DeBERTa + طبقة تصنيف متصلة بالكامل (Fully Connected)؛
- مطابقة النصوص: Sentence‑BERT، وSimCSE، والنموذج ثنائي الأبراج (Bi‑Encoder)، والمشفّر المتقاطع (Cross‑Encoder)؛
- الأحكام المعقدة: الضبط الدقيق عبر التعليمات (Instruction Fine-tuning) على نماذج اللغة الكبيرة (LLM)، لجعل النموذج يُخرج التسمية أو العلاقة المنطقية مباشرة.

1.2.1 تصنيف النصوص: من "فهم المحتوى" إلى "توصيف المحتوى"

بالاعتماد على التمثيل الدلالي من الطبقة السابقة، يمكننا بشكل طبيعي جدًا إضافة رأس تصنيف بسيط فوقه، ومن خلال كمية محدودة من البيانات الموسومة، نجعل النموذج يتعلم الإجابة عن سؤال واحد: "إلى أي فئة ينتمي هذا النص؟" .

أكثرها كلاسيكية هو تصنيف المشاعر . قد يكون تقييم المستخدم تعبيرًا عن تقدير، أو شكوى، أو مجرد سرد لواقعة. بعد أن يحصل النموذج على التمثيل المتجهي للجملة، لا يحتاج سوى إضافة طبقة تصنيف softmax ليتمكن من إخراج احتمالات "إيجابي / سلبي / محايد". هذه القدرات ناضجة جدًا بالفعل في سيناريوهات مثل التجارة الإلكترونية، ومنصات التواصل الاجتماعي، وأسواق التطبيقات.

فئة رئيسية أخرى هي تصنيف الموضوع / المجال . في التوصية بالأخبار، نرغب في معرفة ما إذا كان المقال رياضيًا أم ماليًا أم ترفيهيًا؛ أما في أنظمة خدمة العملاء وتذاكر الدعم داخل المؤسسات، فنهتم أكثر بمعرفة ما إذا كان الأمر استشارة حول منتج، أم خللًا وظيفيًا، أم شكوى واقتراحًا. هذه التسميات تساعد في توجيه المحتوى بدقة أكبر إلى سير العمل المناسب، كما يمكن أن تكون سمات مهمة في مرحلة الترتيب في أنظمة التوصية.

وللمضي قدمًا، يرتبط تصنيف المخاطر / الامتثال مباشرة بسلامة المنصة. فنقوم بإعداد نماذج تصنيف مخصصة لفئات مثل الإعلانات غير المرغوب فيها، والسب والشتم، والحساسية السياسية، والمحتوى الخادش أو الإباحي، وبتعاون مع المراجعة البشرية، نعترض المحتوى عالي المخاطر أو نخفض ظهوره. يمكن القول إن أول بوابة في معظم استراتيجيات سلامة المحتوى تتكون من هذا النوع من المصنفات.

كما نرى، حتى هذه الطبقة، أصبحنا قادرين على تحويل "التمثيل الدلالي المجرد" إلى تسميات متعددة قابلة للاستخدام في الأعمال. بعد ذلك، سننتقل لمناقشة: عندما تنشأ علاقات بين النصوص، كيف نقوم بالمطابقة والاستدلال .

1.2.2 مطابقة النصوص: "العثور على الجملة الأنسب" لجملة ما

على عكس التصنيف الذي "يُوصّف النص المنفرد"، تهتم مطابقة النصوص بـ"العلاقة بين نصين". في العديد من المنتجات، غالبًا ما يكون هذا هو الحلقة الأساسية لتحقيق "الذكاء": عندما يقول المستخدم جملة، هل يستطيع النظام إيجاد أنسب رد في قاعدة المعرفة، يعتمد كليًا على جودة المطابقة.

أبسط أشكالها هو حساب التشابه الدلالي . نستخدم أولاً نموذج embedding من الطبقة السابقة لترميز الجملتين إلى متجهين، ثم نحكم على المسافة بينهما في الفضاء الدلالي من خلال تشابه جيب التمام (cosine similarity) أو الجداء النقطي (dot product) وغيرها. نماذج مثل SimCSE وSentence‑BERT، من خلال التعلم التقابلي (contrastive learning)، تقوم تحديدًا بتقريب "أزواج الجمل المتشابهة" وإبعاد "أزواج الجمل غير المتشابهة".

وفوق هذا الأساس، فإن كشف إعادة الصياغة وكشف الانتحال ليسا سوى مهام مطابقة في سيناريوهات تطبيقية محددة. الأول يُستخدم في إزالة تكرار المحتوى لتجنب امتلاء المنصة بالتكرار؛ والثاني يُستخدم في سياقات مثل التعليم ومجتمعات المعرفة للتعرف على الإجابات أو المقالات شديدة التشابه. من الناحية التقنية، كلاهما يقومان أساسًا على التصنيف الثنائي أو الترتيب بناءً على تشابه النص.

أحد أهم التطبيقات العملية هو مطابقة الأسئلة والأجوبة . عندما يطرح المستخدم سؤالاً بلغة طبيعية، لا نقوم بمطابقة الأسئلة الشائعة باستخدام الكلمات المفتاحية مباشرة، بل نستخدم المتجهات الدلالية أولاً للاسترجاع (recall)، ثم نستخدم نموذج مطابقة أدق (مثل المشفّر المتقاطع Cross‑Encoder) لإعادة ترتيب عدد من المرشحين، واختيار الأكثر تطابقًا. تشكل هذه السلسلة أساس روبوتات الأسئلة الشائعة وأنظمة الإجابة عن الأسئلة من المستندات.

في هذه الطبقة، أصبحنا نمتلك القدرة على تصنيف "النص الكامل" والحكم على العلاقات بينه. لكن في العديد من السيناريوهات، لا تكتفي الأعمال بهذا، بل ترغب في معرفة المزيد: ما هي الكيانات المحددة المذكورة في هذا النص، وما الأحداث التي وقعت . وهذا يقودنا بطبيعة الحال إلى موضوع القسم التالي—— توسيم التسلسلات واستخراج المعلومات .

1.3 تصنيف التسلسل واستخراج المعلومات (Sequence Labeling & Information Extraction)

بعد الانتهاء من تصنيف النصوص ومطابقتها على المستوى الكلي، غالبًا ما نواجه حاجة أكثر تفصيلاً: ليس فقط معرفة "ما هو موضوع هذه المقالة وما مستوى خطورتها"، بل أيضًا معرفة "من ذُكر فيها تحديدًا، وأين، ومتى، وما هو المبلغ". تمثل هذه الخطوة انتقالًا محوريًا من الحكم الكلي نحو "الهيكلة الدقيقة". يمكنك فهمها على النحو التالي: بعد أن عرفنا "أي نوع من النصوص يجب النظر إليه وما الذي يتحدث عنه تقريبًا"، ننتقل إلى استخراج الكيانات والعلاقات والأحداث والحقول المختلفة من داخل النص، مما يجعل النصوص غير المهيكلة قابلة للاستهلاك المباشر من قبل أنظمة الأعمال. سننظر إلى هذه الطبقة من أربعة جوانب: الهدف، والمبدأ، والنموذج، والمنتج:

السيناريوهات
- هيكلة النصوص القطاعية: استخراج الحقول الرئيسية مثل أسماء الأشخاص والمؤسسات والمبالغ والتواريخ والبنود من المستندات كالعقود والتقارير والإعلانات والسجلات الطبية والسياسات، لإدخالها في قواعد البيانات والبحث فيها.
- الرسوم البيانية المعرفية وشبكات العلاقات: التعرف على الكيانات وعلاقاتها من الأخبار والأوراق البحثية والأسئلة والأجوبة، وبناء رسم بياني يوضح "من له علاقة بمن"، لاستخدامه في البحث والتوصية والتحليل.
- معالجة الفواتير والمستندات: الاستخراج التلقائي لحقول مثل العنوان والرقم الضريبي والمبلغ والتاريخ من الفواتير وكشوف الحسابات ونماذج المصروفات، لتقليل الإدخال اليدوي.
- تحليل الرأي العام والأحداث: استخراج "من فعل ماذا ومتى وأين" من كميات هائلة من النصوص، لاستخدامه في تتبع الأحداث والإنذار المبكر بالمخاطر والتقارير الإحصائية.
- هيكلة السجلات وتذاكر الدعم: استخراج المعلومات الأساسية من النصوص غير المهيكلة مثل محادثات خدمة العملاء وتذاكر الدعم وسجلات النظام، لتسهيل الإحصاء والمراقبة والمعالجة الآلية.
المبدأ على مستوى token / العبارة، يتم وضع تصنيف دقيق وهيكلة للنص:
- تصنيف التسلسل: وضع تصنيف على كل token (مثل اسم شخص، اسم مكان، اسم مؤسسة، اسم منتج، إلخ)، لتحقيق التعرف على الكيانات المسماة، وتصنيف أجزاء الكلام، وتقطيع العبارات، وغيرها؛
- استخراج العلاقات والأحداث: التعرف على العلاقات بين "كيان-كيان" فوق مستوى الكيانات، بالإضافة إلى بنية الحدث المتمثلة في "من فعل ماذا ومتى وأين"؛
- استخراج حقول الأعمال: تحويل المستندات الطويلة إلى أزواج key‑value قياسية أو جداول سجلات بناءً على schema عمل محددة (مثل حقول العقود، حقول الفواتير).
النموذج بناءً على التمثيل المُدرَّب مسبقًا، يتم إكمال استخراج المعلومات من خلال بنى مثل تصنيف التسلسل أو استخراج span:
- نماذج تصنيف التسلسل: BiLSTM‑CRF، BERT + CRF / Softmax، وغيرها؛
- الاستخراج القائم على Span: التنبؤ المباشر بمواضع بداية ونهاية مقاطع الكيانات / العلاقات؛
- الاستخراج على مستوى المستند: نماذج من فئة DocIE التي تجمع بين التنسيق والتخطيط؛
- الاستخراج القائم على LLM: استخدام Prompt / Few‑shot لجعل النماذج الكبيرة تستخرج الحقول المطلوبة وفقًا لتنسيق محدد.

1.3.1 تصنيف التسلسل: وضع "تصنيفات" دلالية على كل token وعبارة

في مرحلة تصنيف النصوص، كنا نهتم فقط بمعرفة الفئة التي ينتمي إليها النص بأكمله؛ أما في مرحلة تصنيف التسلسل، فنحن بحاجة إلى تصنيف كل token وكل عبارة في النص. المهمة الأكثر شيوعًا هي التعرف على الكيانات المسماة (NER): التعرف على أنواع محددة من الكيانات مثل أسماء الأشخاص وأسماء المؤسسات وأسماء الأماكن وأسماء المنتجات وأسماء الأمراض.

على سبيل المثال، في جملة "انضم تشانغ سان إلى شركة تقنية معينة في بكين"، يتم تصنيف "تشانغ سان" كاسم شخص، و"بكين" كاسم مكان، و"شركة تقنية معينة" كمؤسسة.

من منظور النمذجة، كان النهج التقليدي يستخدم بنى تصنيف التسلسل مثل BiLSTM + CRF، ثم أصبح الاعتماد لاحقًا أكبر على BERT + CRF أو BERT + Softmax، مستفيدًا من قدرة التمثيل السياقي للمُشَفِّر المُدرَّب مسبقًا للحكم على تصنيف كل token (مثل B‑ORG وI‑ORG وO وغيرها). عمليًا، غالبًا ما يكون نموذج NER هو أول "معالجة تمهيدية" للرسوم البيانية المعرفية واستخراج العلاقات اللاحقة.

بالإضافة إلى NER، يُعد تصنيف أجزاء الكلام وتقطيع العبارات أيضًا من مهام تصنيف التسلسل النموذجية. وهي تخدم بشكل أكبر التحليل اللغوي الأساسي، وتوفر البنية الأساسية للمهام النحوية / الدلالية الأكثر تعقيدًا لاحقًا.

على سبيل المثال، في عبارة "تحسين أداء النموذج بسرعة"، يتم تصنيف "بسرعة" كظرف، و"تحسين" كفعل، و"أداء" كاسم، لاستخدامها في التحليل اللاحق.

1.3.2 استخراج العلاقات والأحداث: ربط "النقاط" لتشكيل "خطوط" و"قصص"

بعد أن نتعرف على الكيانات في النص من خلال تصنيف التسلسل، يبرز سؤال طبيعي: ما هي العلاقات بين هذه الكيانات بالضبط، وما هي الأحداث التي تشكلها معًا؟

يركز استخراج العلاقات على "زوج الكيانات + نوع العلاقة". على سبيل المثال، في جملة "انضم تشانغ سان إلى شركة تقنية معينة كمدير تقني في عام 2024"، لا نحتاج فقط إلى التعرف على كياني "تشانغ سان" و"شركة تقنية معينة"، بل أيضًا استخراج علاقة "يعمل لدى" بينهما.

ببساطة، يتم وضع تصنيف علاقة مثل "يعمل لدى" على زوج الكيانات "تشانغ سان – شركة تقنية معينة".

وفوق مستوى العلاقات، يحاول استخراج الأحداث إعادة بناء "من فعل ماذا ومتى وأين". بأخذ خبر كمثال، قد يتضمن قالب الحدث القياسي عدة حقول مثل: نوع الحدث (استحواذ، تعاون، حادث)، والتاريخ، والمكان، والأطراف المشاركة، والمبلغ، والعواقب. يحتاج نموذج استخراج الأحداث إلى ملء هذه الحقول تلقائيًا من النصوص الطويلة، وبالتالي بناء "جدول أحداث" يمكن البحث فيه وإحصاؤه والاستدلال عليه.

على سبيل المثال، من جملة "استحوذت شركة معينة على شركة أخرى بـ 500 مليون يوان"، يتم استخراج: نوع الحدث = استحواذ، المبلغ = 500 مليون يوان، الأطراف المشاركة = شركتان.

من حيث أساليب النمذجة، بالإضافة إلى الاستخراج التقليدي القائم على تصنيف التسلسل، نستخدم أيضًا Span‑based IE (التنبؤ المباشر بمواضع بداية ونهاية span الكيانات / العلاقات) بالإضافة إلى Prompt‑based IE والاستخراج القائم على Few‑shot باستخدام LLM الذي ظهر في السنوات الأخيرة. تكمن ميزة الأخير في إمكانية التكيف السريع مع schema جديدة من خلال التعليمات النصية باللغة الطبيعية، مما يقلل بشكل كبير من تكلفة إعادة التصنيف والتدريب.

من منظور هندسي، غالبًا ما تشكل أنظمة الاستخراج الناضجة خط أنابيب:

المرحلة الأولى: NER / تصنيف التسلسل للتعرف على الكيانات؛
الطبقة الوسطى: نمذجة بنية العلاقات والأحداث؛
المرحلة النهائية: كتابة النتائج في قاعدة بيانات أو رسم بياني معرفي، لتستهلكها أنظمة البحث والتحليل وإدارة المخاطر.

1.4 إنشاء النصوص وتحريرها (Text Generation & Editing)

في الأقسام السابقة، قمنا ببناء سلسلة الفهم "التمثيل ← التصنيف والمطابقة ← توسيم التسلسل والاستخراج" خطوة بخطوة: حيث لم يعد النموذج قادرًا فقط على تعيين النصوص إلى الفضاء الدلالي، بل يمكنه أيضًا إصدار أحكام على نصوص كاملة واستخراج معلومات منظمة منها. ما سنفعله في هذا القسم هو "عكس" سلسلة الفهم هذه مرة أخرى: بعد الفهم الكافي، نجعل النموذج ينتج النصوص ويعيد كتابتها ويضغطها ويصقلها بشكل نشط. يمكنك اعتبار ذلك بمثابة "ترميز عكسي" في الفضاء الدلالي، أي تحويل التمثيل الداخلي مرة أخرى إلى مخرجات بلغة طبيعية عالية الجودة، وهي الطبقة الأقرب إلى إدراك المستخدم في سلسلة قدرات النمط النصي بأكملها. سنحللها كما في السابق من أربعة أبعاد: الهدف، والمبدأ، والنموذج، والمنتج:

السيناريوهات
- الكتابة اليومية والأعمال المكتبية: إنشاء مسودات أولية للرسائل والإشعارات والخطط، أو توسيع النصوص الحالية وإعادة كتابتها وصقلها.
- إدارة المعرفة والتلخيص: تلخيص المستندات الطويلة والتقارير ومحاضر الاجتماعات تلقائيًا، للمساعدة في استيعاب النقاط الرئيسية بسرعة.
- خدمة العملاء والأسئلة والأجوبة: إنشاء ردود تلقائية واضحة الهيكل وموحدة النبرة بناءً على أسئلة المستخدم والمواد المسترجعة.
- المحتوى التسويقي والإبداعي: إنشاء نصوص إعلانية، ومنشورات لوسائل التواصل الاجتماعي، ومقدمات للفعاليات، وسيناريوهات، وما إلى ذلك.
- السيناريوهات متعددة اللغات: إكمال الترجمة وإعادة الكتابة مع التوطين مع الحفاظ على المعنى الأصلي، بما يتناسب مع اللغات والسياقات المختلفة.
المبدأ بناءً على نمذجة اللغة، يتم إنشاء النصوص "من الصفر" و"تعديل المحتوى الموجود":
- التوليد الحر: إنشاء نص كامل من الصفر بناءً على النية أو الموجهات أو المخطط العام؛
- إعادة الكتابة الموجهة: تعديل الأسلوب والطول والهيكل (مثل التلخيص والتوسيع وتحويل الأسلوب) مع الحفاظ على المعلومات الأساسية دون تغيير؛
- التصحيح والصقل: تصحيح الأخطاء الإملائية والنحوية، وتحسين ترتيب التعبير والبنية المنطقية.
النموذج يعتمد بشكل أساسي على نماذج التوليد القائمة على التدريب المسبق واسع النطاق + الضبط الدقيق بالإرشادات:
- نماذج اللغة الكبيرة المضبوطة بالإرشادات: سلسلة GPT، LLaMA / Qwen / GLM وغيرها، تُستخدم للتوليد والتحرير العام؛
- نماذج Seq2Seq: T5، BART، mT5 وغيرها، تُستخدم لمهام التلخيص والترجمة وتحويل التنسيقات؛
- المحاذاة والسلامة: من خلال وسائل مثل RLHF / RLAIF، لجعل المحتوى المُنشأ أكثر توافقًا مع الإرشادات ومتطلبات السلامة.

نظرًا لأن هذا الجزء يعادل بشكل أساسي هندسة الموجهات، فلن نتوسع في الشرح أكثر، ويمكنك الرجوع إلى قسم هندسة الموجهات في البرنامج التعليمي.

2. نمط الصورة (Image / Vision)

في قدرات الذكاء الاصطناعي، يكون نمط الصورة مسؤولاً عن "فهم العالم بصرياً". سواء كان الهدف النهائي هو المراقبة الأمنية، أو القيادة الذاتية، أو مؤثرات الفيديو القصير، أو تحرير الصور الذكي في التجارة الإلكترونية، أو الإجابة على الأسئلة متعددة الوسائط، أو الرسم بالذكاء الاصطناعي، فإن كل ذلك يعتمد بشكل أساسي على مسار واحد: بدءاً من البكسلات الأولية، والوصول تدريجياً إلى فهم منظم للصورة وقدرة على التوليد المتحكم به.

2.1 الرؤية منخفضة المستوى (Low‑Level Vision)

في القسم السابق، قدمنا نظرة شاملة عن دور الطريقة البصرية في الأنظمة متعددة الوسائط، وكيفية تكاملها مع اللغة والصوت. لكن قبل الدخول في "المهام الدلالية عالية المستوى" مثل اكتشاف الكائنات وفهم الصور والإجابة البصرية عن الأسئلة، هناك طبقة أساسية غالبًا ما يتم تجاهلها ولكنها بالغة الأهمية — الرؤية منخفضة المستوى. يمكنك اعتبارها كالتالي: قبل "فهم ما في الصورة"، يحتاج النظام أولاً إلى حل مشكلتين: "ما مدى جودة هذه الصورة نفسها؟" و"ما هي البنى المحلية المستقرة التي يمكن للطبقات العليا إعادة استخدامها؟"، وذلك باستخدام طبقة عامة من الاستعادة والتحسين واستخراج البنى، لتحويل البكسلات الخام إلى تمثيل صوري أنظف وأكثر استقرارًا.

من منظور هندسي، تؤثر الرؤية منخفضة المستوى مباشرة على "تجربة جودة الصورة" التي تراها العين البشرية، كما تحدد ما إذا كان توزيع المدخلات للمهام العلوية مثل الاكتشاف والتعرف والتقسيم صحيًا. إذا لم يتم إنجاز هذه الطبقة بشكل جيد، ستضطر جميع النماذج اللاحقة إلى العمل في بيئة "ذات ضوضاء عالية وتشوه كبير وإضاءة قصوى"؛ وعلى العكس، إذا تم إصلاح الصورة قدر الإمكان واستخلاص المعلومات البنيوية بشكل جيد في هذه الطبقة، يمكن للمهام عالية المستوى أن تؤدي قدراتها على قاعدة أكثر ملاءمة. فيما يلي نوضح هذه الطبقة من ثلاثة زوايا: السيناريوهات، والمبادئ، والنماذج:

السيناريوهات
- الكاميرات وأجهزة التصوير: إزالة الضوضاء التلقائية، وHDR، والوضع الليلي، وتثبيت الصورة في الهواتف/الكاميرات، ودمج الإطارات المتعددة لتحسين التفاصيل والمدى الديناميكي.
- منصات المحتوى والفيديوهات القصيرة: تحسين جودة الصور/الفيديوهات المرفوعة بنقرة واحدة، وإزالة كتل الضغط، وزيادة الوضوح والتباين، وتحسين الانطباع البصري.
- استعادة الصور القديمة والمستندات: إزالة الضوضاء، والتلوين، ورفع الدقة الفائقة للصور القديمة؛ وتقويم وتحسين المستندات والفواتير وصفحات الكتب الملتقطة بشكل مائل أو مظلم، لتسهيل التعرف البصري على الحروف (OCR).
- المراقبة والأمن: تقليل ضوضاء لقطات المراقبة منخفضة الإضاءة، وإزالة الضباب، ومنع قطرات المطر، ورفع الدقة، تمهيدًا للتعرف على الوجوه/لوحات السيارات لاحقًا.
- AR/VR وإعادة البناء ثلاثي الأبعاد: توفير زوايا وحواف وواصفات محلية مستقرة لتحديد المواقع المتزامن ورسم الخرائط (SLAM)، والتطويق البانورامي، وإعادة البناء ثلاثي الأبعاد، لضمان متانة التتبع والتسجيل.
المبادئ تتمحور حول الهدفين الأساسيين "جودة الصورة" و"البنية المحلية"، مع نمذجة فيزيائية وإحصائية للمعلومات على مستوى البكسلات:
- استعادة الصورة وتحسينها: بافتراض أن الصورة المرصودة هي الصورة المثالية بعد تعرضها لتدهور ناتج عن الضوضاء ونواة التمويه والضغط واللاخطية التصويرية، يتم إجراء إزالة الضوضاء، وإزالة التمويه، وإزالة تشوهات الضغط، وتحسين الإضاءة المنخفضة، وإعادة بناء الدقة الفائقة تحت هذا الافتراض، لجعل المخرجات أقرب إلى التصوير الواقعي للمشهد الحقيقي، وفي نفس الوقت تتوافق مع عادات الإدراك البصري البشري.
- استخراج السمات البنيوية: دون إدخال تسميات دلالية محددة، يتم استخراج الحواف والزوايا والأنسجة المحلية والمناطق البارزة وغيرها من السمات من تدرجات البكسلات وإحصائيات النسيج، مما يوفر "هيكلًا هندسيًا" للمهام اللاحقة مثل الاكتشاف والتسجيل والتتبع والتقسيم.
- المعالجة الهندسية والإضاءة المسبقة: بناءً على نموذج الكاميرا والأدلة الهندسية البسيطة (الخطوط المستقيمة، نقاط التلاشي، التناظر، إلخ)، يتم تقدير علاقات التشوه والمنظور، ومن خلال عمليات إزالة التشوه والتقويم وتطبيع التباين والإضاءة، يتم محاذاة الصورة الخام إلى فضاء إدخال أكثر معيارية واستقرارًا.
النماذج استخدام شامل لطرق معالجة الصور الكلاسيكية ونماذج التعلم العميق، مع الموازنة بين الكفاءة والفعالية:
- معالجة الصور التقليدية: التصفية ثنائية الجانب، والمتوسط غير المحلي، والتصفية الموجهة، وRetinex، ومعادلة المدرج التكراري، واكتشاف الحواف Canny/LoG، وزوايا Harris/FAST، وواصفات SIFT/SURF/ORB، وتحويل Hough، ومعايرة الكاميرا والتصحيح الهندسي، إلخ.
- نماذج الاستعادة والتحسين العميقة: نماذج إزالة الضوضاء، وإزالة التمويه، ورفع الدقة الفائقة، وإزالة المطر/الضباب/تشوهات الضغط القائمة على CNN أو محول الرؤية (Vision Transformer) (مثل EDSR، RCAN، SwinIR، ESRGAN، إلخ)، بالإضافة إلى شبكات تحسين الإطارات المتعددة/الفيديو، التي تتعلم بطريقة شاملة من طرف إلى طرف التعيين من الصورة المتدهورة إلى الصورة عالية الجودة، أو استخدام نماذج تحرير الصور الحديثة مثل Jimeng ونماذج تحرير Qwen.

2.1.1 استعادة الصورة وتحسينها: من "قابلة للرؤية" إلى "واضحة المعالم"

في الرؤية منخفضة المستوى، تواجه استعادة الصورة وتحسينها أولاً أنواعًا مختلفة من التدهور: الضوضاء، والتمويه، وتشوهات الضغط، والإضاءة المنخفضة، ونقص المدى الديناميكي، إلخ. في العديد من السيناريوهات الواقعية، لا تكون الصور الخام "نظيفة": فالمناظر الليلية والإضاءة الداخلية الخافتة تجعل الصورة مليئة بالحبيبات والبقع اللونية، وغالبًا ما تكون لقطات التصوير السريع والمراقبة غير واضحة بسبب الحركة أو عدم دقة التركيز، ويُحدث ضغط الفيديو ضوضاء على شكل كتل مربعة. الهدف من الاستعادة والتحسين هو، دون تغيير المحتوى الدلالي للصورة، استعادة التفاصيل الواضحة والمظهر الطبيعي قدر الإمكان، وتحويل المدخلات "الضبابية، المظلمة، المتسخة" إلى مخرجات "واضحة، مضيئة، مريحة".

تشمل المهام النموذجية إزالة الضوضاء، وإزالة التمويه، وتحسين الإضاءة المنخفضة، ورفع الدقة الفائقة. تتطلب إزالة الضوضاء وإزالة التمويه موازنة بين النسيج المحلي والبنية الكلية: يجب كبت الضوضاء عالية التردد وإزالة تأثير نواة التمويه من خلال التفكيك العكسي، دون محو التفاصيل الحقيقية معًا؛ ويتطلب تحسين الإضاءة المنخفضة رفع السطوع والتباين مع تجنب تضخيم ضوضاء المناطق المظلمة، وتصحيح الانحراف اللوني، وكبت مناطق التعرض المفرط؛ بينما يركز رفع الدقة الفائقة على إضافة معلومات ترددية عالية معقولة أثناء التكبير، بحيث لا تبدو الصورة المكبرة "ضبابية" أو "ذات مظهر بلاستيكي مفرط"، دون "اختلاق" تفاصيل بشكل مفرط. تستخدم معظم الطرق الحديثة شبكات عميقة (CNN أو محول الرؤية)، تتعلم التعيين من الصورة المرصودة y إلى الصورة المثالية x على كميات كبيرة من البيانات المزدوجة "المتدهورة–الواضحة"، مع استخدام أهداف مركبة تشمل خطأ البكسل، وفقدان الإدراك، وفقدان الخصومة، لتحقيق توازن بين "المؤشرات الجيدة" و"المظهر الجيد للعين البشرية".

غالبًا ما يكون ظهور هذه القدرات في المنتجات ضمنيًا: وضع التصوير الليلي والتصوير HDR في كاميرات الهواتف، وتحسين جودة الصورة بنقرة واحدة في منصات الفيديوهات القصيرة، وأدوات استعادة الصور القديمة، وخدمات التحسين السحابية لأنظمة المراقبة — جميعها تعتمد بشكل أساسي على وحدات الاستعادة والتحسين في هذه الطبقة. بالنسبة للأعمال، فهي تؤثر مباشرة على انطباع المستخدمين الشخصي عن "جودة الصورة"، كما تحدد بشكل غير مباشر جودة المدخلات لخوارزميات الاكتشاف والتعرف والتقسيم العلوية. يمكن القول إنه كلما كانت المهام البصرية العلوية أكثر تعقيدًا، زاد اعتمادها على "أرضية صورية" عالية الجودة ومستقرة التوزيع في الطبقة السفلية.

2.1.2 السمات البنيوية والمعالجة المسبقة: بناء "السقالات" للفهم عالي المستوى

بعد استعادة جودة الصورة إلى مستوى قابل للاستخدام، فإن المهمة الرئيسية الثانية للرؤية منخفضة المستوى هي استخراج سمات من البكسلات غير مرتبطة بالدلالات المحددة مؤقتًا، ولكنها مهمة جدًا للبنية الهندسية والإدراك البصري، وتوحيد الهندسة والإضاءة. لن تخبرك هذه الخطوة مباشرة "هذه سيارة" أو "هذا وجه شخص ما"، لكنها ستجيب عن أسئلة مثل "أين توجد الخطوط الواضحة والزوايا"، و"ما هي المناطق ذات البنية النسيجية البارزة"، و"هل تعاني الصورة من تشوه أو ميل"، مما يوفر مدخلات بنيوية موثوقة للنماذج العلوية.

فيما يتعلق باستخراج السمات، تُعد الحواف والزوايا من العناصر الأساسية. من خلال مؤثرات مثل Canny وSobel، يمكن للنظام تحديد "الحواف" ذات التغير الأشد في التدرج الرمادي أو اللوني عبر الصورة بأكملها، والتي غالبًا ما تتوافق مع خطوط الكائنات وحدود الأجزاء واتجاهات النسيج؛ ويجد اكتشاف الزوايا (مثل Harris وFAST) "الزوايا" التي يتغير فيها التدرج المحلي بشكل ملحوظ في اتجاهات متعددة، وعادة ما تظهر عند زوايا الكائنات وتقاطعات الخطوط. علاوة على ذلك، تقوم الواصفات المحلية مثل SIFT وSURF وORB بتشفير نمط نسيج منطقة صغيرة حول هذه النقاط الرئيسية، مما يسمح بمطابقة نفس النقطة الفيزيائية تحت زوايا رؤية ومقاييس وتغيرات إضاءة مختلفة، وهذا يوفر الدعم الأساسي لتسجيل الصور، والتطويق البانورامي، وSLAM، وتتبع AR، وإعادة البناء ثلاثي الأبعاد.

بالتوازي مع استخراج السمات، هناك عمليات معالجة هندسية وإضاءة مسبقة متنوعة. التشوه البرميلي/الوسادي الناتج عن العدسات واسعة الزاوية، والميل والتمدد المنظوري عند تصوير المستندات، يتم التعرف عليها جميعًا من خلال الأدلة الهندسية منخفضة المستوى مثل اكتشاف الخطوط المستقيمة وتقدير نقاط التلاشي، ويتم "إعادتها إلى الوضع الطبيعي" من خلال خطوات إزالة التشوه والتقويم والتصحيح المنظوري؛ وتقوم معادلة المدرج التكراري الشاملة أو التكيفية، وتمديد التباين، وتطبيع الإضاءة، بتحسين التباين المحلي وتقليل تأثيرات الإضاءة غير المتساوية والظلال، دون فقدان التفاصيل. توفر تحويلات الفضاء اللوني (RGB→HSV/Lab) وإحصائيات المدرج التكراري اللوني مدخلات قابلة للاستخدام مباشرة لمهام مثل التقسيم البسيط القائم على اللون، واكتشاف المناطق البارزة، وتصحيح الانحراف اللوني.

بعد أن أصبح التعلم العميق الشامل من طرف إلى طرف هو السائد، تم "استيعاب" جزء من هذه السمات البنيوية والمعالجات المسبقة في نوى الالتفاف واستراتيجيات التطبيع في الطبقات الأولى من الشبكة، ولم تعد تظهر كمؤثرات صريحة في مخططات هندسة النظام. لكن من الناحية الوظيفية، لا تزال تؤدي نفس الدور: أولاً، استخدام طبقة معالجة سفلى عامة نسبيًا وغير مرتبطة بفئات محددة، لتنظيم البكسلات الخام إلى تمثيل أكثر استقرارًا من حيث الشكل الهندسي وظروف الإضاءة والبنية المحلية، ثم تسليمها إلى وحدات التصنيف والاكتشاف والتقسيم ومتعددة الوسائط العلوية لإكمال مهمة "فهم ما هذا". بدون هذه "السقالات"، ستضطر النماذج العلوية إلى العمل على صور خام ذات ضوضاء عالية وتشوه كبير وبنية ضبابية، مما يؤدي إلى انخفاض كبير في متانة النظام الكلي وقدرته على التعميم.

2.2 تصنيف الصور والتعرف عليها (Image Classification & Recognition)

في معظم مهام الصور، السؤال الحقيقي الذي يهتم به طرف الأعمال هو: إلى أي فئة تنتمي هذه الصورة بشكل عام؟ من هو هذا الشخص في الصورة؟ هل هذا المشاة هو نفسه تحت كاميرات مختلفة؟ يمكنك فهم هذه الطبقة على أنها: في فضاء إدخال موحد ونظيف، إضافة "تسمية فئة" أو "تسمية هوية" للصورة بأكملها أو للشخص/الهدف بأكمله، وتحويل الإشارات المرئية إلى نتائج تعريف مباشرة قابلة للاستخدام.

من منظور المنتج، يُعد تصنيف الصور والتعرف عليها من أوائل قدرات الرؤية التي تم نشرها على نطاق واسع، كما أنها "وحدة الدخول" للعديد من التطبيقات العليا. تستخدمها منصات التجارة الإلكترونية والمحتوى لوضع العلامات تلقائياً على الصور وتحديد فئات الموضوعات؛ وتستخدمها أنظمة الأمن والتحكم في الوصول لتأكيد "هل هو نفس الشخص"؛ بينما تقوم أنظمة إعادة تعريف المشاة (Person Re-Identification) بتتبع الهدف نفسه عبر مسارات الكاميرات المتعددة. فيما يلي ننظم هذه الطبقة من ثلاث زوايا: السيناريو، والمبدأ، والنموذج:

السيناريوهات
- فهم الصور العامة: وضع علامات موضوعات تلقائياً مثل "مناظر طبيعية / طعام / حيوانات أليفة / مستندات" على الصور التي يرفعها المستخدمون، لاستخدامها في البحث والتوصية ومراجعة المحتوى.
- التعرف على الوجوه والتحكم في الوصول: في أنظمة التحكم في الوصول بالوجه والحضور والانصراف، التعرف على الهوية الشخصية من صورة الوجه لتحقيق "المرور بالوجه" و"تسجيل الحضور بالوجه".
- إعادة تعريف المشاة/الأشخاص: تحديد ما إذا كان المشاة أو الشخص نفسه يظهر في لقطات كاميرات مختلفة، لاستخدامها في البحث الأمني وتحليل المسارات.
- التعرف على سمات الجسم البشري: دون تأكيد الهوية مباشرة، التعرف على الجنس، الفئة العمرية، ما إذا كان يرتدي قبعة/حقيبة ظهر/زياً موحداً وغيرها من السمات، مما يوفر أدلة للبحث والتحليل السلوكي.
المبادئ في فضاء السمات المرئية الموحد، إجراء نمذجة تمييزية على الصورة بأكملها أو الشخص/الهدف بأكمله:
- تصنيف الصور: بأخذ الصورة كاملة كمدخل، يتم استخراج السمات العامة عبر شبكات التفافية (CNN) أو محول الرؤية (Vision Transformer)، وتوصيل رأس تصنيف في الطبقة العليا لإخراج احتمالات الفئات (تسمية واحدة أو متعددة)، للإجابة عن "أي نوع من الصور هذه".
- التعرف على الهوية/المثيل: تحويل سؤال "من هو" إلى مسألة تعلم قياسي (Metric Learning) في فضاء السمات، أي تعلم فضاء تضمين (Embedding Space) بحيث تكون سمات الصور لنفس الهوية متقاربة، وسمات الهويات المختلفة متباعدة، ثم استخدام البحث عن أقرب الجيران (Nearest Neighbor) أو التجميع لإكمال التعرف والاسترجاع.
- التعرف على السمات: فوق السمات المشتركة للمشاة/الجسم البشري، إضافة رؤوس مخرجات متعددة المهام للتنبؤ بتسميات السمات مثل الجنس، الفئة العمرية، لون الملابس، وما إذا كان يحمل أغراضاً، مما يجعل نفس السمة قابلة للخدمة في احتياجات بحث وتحليل متعددة.
النماذج تعتمد على الشبكات الالتفافية العميقة ومحول الرؤية (Vision Transformer) كهيكل أساسي، مع رأس تصنيف أو رأس تعلم قياسي لتحقيق أنواع مختلفة من مهام التعرف:
- الهياكل الأساسية لتصنيف الصور (Backbone): ResNet، DenseNet، EfficientNet، ConvNeXt، Vision Transformer (ViT)، Swin Transformer وغيرها، وعادة ما تُدرب مسبقاً على مجموعات بيانات واسعة مثل ImageNet، ثم تُضبط بدقة على بيانات الأعمال المحددة.
- بنية التصنيف العامة: Backbone + طبقة تصنيف متصلة بالكامل (Softmax / Sigmoid)، تُستخدم لمهام تصنيف الصور ذات التسمية الواحدة أو المتعددة، ويمكن معالجة التوزيع طويل الذيل (Long-tail Distribution) من خلال إعادة ترجيح الفئات (Class Reweighting) أو focal loss.
- التعرف على الهوية/المثيل: فوق مخرجات سمات Backbone، استخدام دوال خسارة ذات قيود زاوية مثل ArcFace وCosFace وSphereFace، لتوسيع الفجوة بين الهويات المختلفة بشكل صريح، وتحسين قابلية الفصل في فضاء السمات، وإكمال المطابقة على مكتبات واسعة النطاق عبر البحث المتجهي التقريبي (ANN).
- بنية التعرف على المشاة/السمات: لمهام إعادة تعريف المشاة والتعرف على سمات الجسم البشري، الممارسة الشائعة هي استخدام Backbone مشترك لاستخراج سمات المشاة، ثم التفرع في الطبقة العليا إلى "فرع الهوية" و"فرع السمات"، مما يحسن قدرة تمييز الهوية عبر الكاميرات مع مراعاة التنبؤ بالسمات المتعددة في نفس الوقت.

بالتوافق مع أشكال المنتجات الملموسة، غالباً ما تُقدم قدرات هذه الطبقة عبر "واجهة برمجة تطبيقات (API) للتعرف على محتوى الصور / التصنيف"، و"حزمة تطوير برمجيات (SDK) / خدمة سحابية (SaaS) للتعرف على الوجوه"، و"منصة إعادة تعريف المشاة" وغيرها. وهي غالباً ما تقود قرارات الأعمال مباشرة (مثل سماح التحكم في الوصول، وكتابة علامات المحتوى)، كما تعمل كطبقة عليا، حيث توفر علامات منظمة وتمثيلات هوية مستقرة لعمليات البحث والتوصية وتحليل السلوك والفهم متعدد الوسائط اللاحقة. فيما يلي، سنتوسع من زاويتي تصنيف الصور والتعرف على الهوية/السمات على التوالي.

2.2.1 تصنيف الصور: الإجابة عن "أي نوع من الصور هذه؟"

في أبسط مهام تصنيف الصور، يواجه النظام الصورة بأكملها، والهدف هو إلصاق تسمية دلالية واحدة أو عدة تسميات بها. الأكثر شيوعاً هو التصنيف أحادي التسمية (Single-label Classification)، كما في مجموعات البيانات مثل ImageNet، حيث تُوصف كل صورة بفئة رئيسية واحدة مثل "كلب" "قطة" "سيارة" "طائرة"؛ وفي سيناريوهات الأعمال، تُستخدم هذه القدرة على نطاق واسع لإضافة علامات موضوعات مثل "مناظر طبيعية / طعام / حيوانات أليفة / بورتريه / مستندات" للصور التي يرفعها المستخدمون، لدعم البحث والتوصية ومراجعة المحتوى. على غرار تصنيف النصوص، يقوم النموذج بتوصيل طبقة متصلة بالكامل + Softmax فوق السمات المرئية العامة المستخرجة من Backbone المُدرَّب مسبقاً، ويُخرج توزيعاً احتمالياً على جميع الفئات المرشحة.

في العديد من التطبيقات الواقعية، غالباً ما تنتمي الصورة الواحدة إلى فئات متعددة في نفس الوقت، فمثلاً صورة "سيلفي غروب الشمس على الشاطئ" يمكن أن تكون "مناظر طبيعية" و"بورتريه" في آنٍ واحد، وقد تُوصف أيضاً بـ "سفر" و"شاطئ". هنا تبرز الحاجة إلى التصنيف متعدد التسميات (Multi-label Classification): لا يزال النموذج ينطلق من سمات الصورة الكاملة، لكن طبقة المخرجات لم تعد Softmax حصرية، بل تتنبأ لكل تسمية باحتمال وجود/عدم وجود بشكل منفصل (Sigmoid)، وتُستخدم دالة خسارة متعددة التسميات للتدريب. للتعامل مع "الفئات طويلة الذيل" (العناصر النادرة ذات العينات القليلة جداً) الكثيرة في البيانات الواقعية، غالباً ما تُضيف نماذج التصنيف متعدد التسميات آليات مثل إعادة ترجيح الفئات، أو التنقيب عن الأمثلة الصعبة (Hard Example Mining)، أو نمذجة بنية التسميات، لتحسين استدعاء الفئات النادرة.

على مستوى الواجهة البشرية، يُقدم تصنيف الصور عادة عبر "واجهة برمجة تطبيقات (API) للتعرف على محتوى الصور". يحتاج طرف الأعمال العلوي فقط إلى رفع صورة واحدة ليحصل على مجموعة من تسميات الفئات ودرجات ثقتها، لاستخدامها في الأحكام الاستراتيجية اللاحقة: مثلاً، يمكن لنظام عرض الإعلانات تقييد فئات حساسة معينة بناءً على محتوى الصورة، ويمكن لمنصة التجارة الإلكترونية استخدام تصنيف الصور للمساعدة في تصحيح فئات المنتجات، بينما تستخدمه منصة المحتوى لإثراء سمات التوصية وإشارات المراجعة. من الناحية التقنية، هذه القدرات ناضجة نسبياً، لكنها لا تزال حجر الأساس لمهام أكثر تعقيداً مثل اكتشاف الأهداف (Object Detection)، والتجزئة على مستوى المثيل (Instance Segmentation)، والإجابة المرئية على الأسئلة (Visual Question Answering).

2.2.2 التعرف على الصور والتعرف على السمات: الإجابة عن "من هذا / أي مثيل هذا؟"

على عكس "أي نوع من الصور هذه"، يهتم التعرف على الصور أكثر بـ "من هو الشخص/الهدف في الصورة"، أي التمييز على مستوى الهوية والمثيل. الممثلان النموذجيان هما التعرف على الوجوه (Face Recognition) وإعادة تعريف المشاة (Person Re-Identification): الأول يحكم في سيناريوهات التحكم في الوصول والحضور والدفع "أي هوية في المكتبة هي الأقرب للوجه الحالي"؛ بينما يبحث الثاني عن وجود نفس المشاة في لقطات كاميرات متعددة وفترات زمنية مختلفة، للمساعدة في استرجاع الحالات وتحليل المسارات. جوهر هذا النوع من المهام لم يعد التصنيف المتعدد البسيط، بل كيفية تعلم تضمين (Embedding) في فضاء السمات يكون "متراصاً داخل الفئة ومتباعداً بين الفئات"، بحيث يمكن تجميع صور نفس الهوية الملتقطة في وضعيات وإضاءات وكاميرات مختلفة معاً.

في تصميم النماذج، يتبنى التعرف على الوجوه وإعادة تعريف المشاة عادة نموذجاً متشابهاً: أولاً استخدام هياكل أساسية (Backbone) مثل ResNet وConvNeXt وViT وSwin لاستخراج السمات المتمحورة حول الوجه/المشاة، ثم توصيل دوال خسارة مصممة خصيصاً لتعلم القياس (Metric Learning)، مثل ArcFace وCosFace وغيرها. على عكس دوال الخسارة التصنيفية العادية، تفرض هذه الدوال قيوداً على الحدود بين الفئات في الفضاء الزاوي أو فضاء السمات مباشرة، مما يوسع الفجوة بين سمات الهويات المختلفة بشكل صريح، وبالتالي يمكن استخدام السمات بعد التدريب لإجراء بحث متجهي واسع النطاق، دون الاقتصار على الفئات الثابتة التي شوهدت أثناء التدريب. عند الخدمة عبر الإنترنت، يقوم النظام أولاً بحساب وفهرسة سمات كل هوية في المكتبة مسبقاً، ثم إجراء بحث تقريبي عن أقرب الجيران (Approximate Nearest Neighbor) على سمات الوجه/المشاة القادمة للاستعلام، للعثور على أقرب المرشحين، واتخاذ القرار النهائي بالدمج مع حدود الثقة التجارية والمعلومات متعددة الوسائط.

في مقابل "التعرف المباشر على الهوية"، يأتي التعرف على السمات الذي لا يشير إلى شخص محدد. في العديد من سيناريوهات الأمن والتجزئة، يحتاج النظام فقط إلى معرفة "ذكر أم أنثى" "الفئة العمرية التقريبية" "هل يرتدي قبعة/كمامة" "لون ونمط الملابس" "هل يحمل حقيبة ظهر/يسحب أمتعة" وغيرها من السمات، لاستخدامها في الفلترة السريعة للأهداف، دون الحاجة ولا المناسبة لإخراج الهوية الشخصية مباشرة. هذا النوع من المهام عادة ما يضيف عدة رؤوس سمات متوازية فوق السمات المشتركة للمشاة/الجسم البشري (ويُقصد بالرأس موضع إخراج الاحتمالات، ويمكن إضافة عدة مواضع لنتائج احتمالية تُستخدم للحكم على الفئة)، وكل رأس مسؤول عن التنبؤ بسمة واحدة أو مجموعة من تسميات السمات، مما يشكل إطار تعلم متعدد المهام (Multi-task Learning). من ناحية، يمكن للتدريب متعدد المهام أن يجعل السمات أكثر ثراءً وقدرة على التعميم؛ ومن ناحية أخرى، يمكن للسمات نفسها أن تعمل كشروط مساعدة لـ Re-ID أو البحث، مما يحسن قابلية استخدام النظام في السيناريوهات المعقدة.

في شكل المنتج، تُجمع هذه القدرات عادة في "حزمة تطوير برمجيات (SDK) / خدمة سحابية للتعرف على الوجوه"، و"منصة إعادة تعريف المشاة"، و"واجهة برمجة تطبيقات (API) للتعرف على سمات الجسم البشري"، وتُدمج في بوابات التحكم في الوصول، وأجهزة الحضور والانصراف، ومنصات الأمن، وأنظمة هيكلة الفيديو. بالمقارنة مع تصنيف الصور العام، تتطلب هذه القدرات متطلبات أعلى لأمن البيانات وحماية الخصوصية، كما أن المفاضلة بين معدل الخطأ في التعرف (False Acceptance Rate) ومعدل الاستدعاء (Recall) أكثر حساسية، لذلك بالإضافة إلى الخوارزميات، تُستكمل بآليات مثل فحص الجودة (مثل التحقق من كونها صورة حقيقية وليست محجوبة/معاد تصويرها)، والكشف عن الحيوية (Liveness Detection)، والتحقق المتقاطع متعدد الوسائط، لتشكيل حل تعرف هوية أكثر اكتمالاً ومسؤولية.

2.3 اكتشاف الكائنات (Object Detection)

في مهام تصنيف الصور والتعرف عليها السابقة، كنا نعطي تسمية واحدة فقط "للصورة الكاملة" أو "للشخص الكامل"، متجاهلين موقعه وحجمه داخل الصورة. لكن المشكلة الأكثر شيوعًا في الأعمال الحقيقية هي: ما الكائنات الموجودة في هذه الصورة؟ وأين تقع بالتحديد؟ على سبيل المثال، في صورة شارع، نرغب في تحديد جميع المشاة والمركبات وعلامات المرور في آن واحد؛ وفي خطوط الإنتاج الصناعي، نحتاج إلى تحديد جميع مناطق العيوب ومواقع الأجزاء في نفس الإطار. وُلد اكتشاف الكائنات لتلبية هذه الاحتياجات: حيث يتنبأ في وقت واحد لكل كائن داخل الصورة الواحدة أو إطار الفيديو بـ الموقع (bounding box) والفئة، ويُعد قدرة أساسية للعديد من مهام الرؤية اللاحقة (التتبع، التجزئة، تحليل السلوك، عد الكائنات المتعددة، إلخ).

من منظور الاستخدام الهندسي، يُعد اكتشاف الكائنات "الخطوة الهيكلية الأولى" للعديد من أنظمة الرؤية، حيث يحلل الصورة الخام إلى عدة مربعات مستطيلة معنونة، يمكن إرسال كل منها لاحقًا إلى وحدات أخرى للتعرف والتتبع وتحليل السمات وحتى التوليد الدلالي. اكتشاف المشاة/المركبات في كاميرات المراقبة، واكتشاف المنتجات على أرفف التجزئة غير المأهولة، واكتشاف العيوب/الأجسام الغريبة في فحص الجودة الصناعي، بالإضافة إلى واجهات API لاكتشاف الكائنات التي يقدمها مزودو الخدمات السحابية، كلها تعتمد في جوهرها على هذه القدرة. فيما يلي نستعرض اكتشاف الكائنات من ثلاث زوايا: السيناريوهات، والمبادئ، والنماذج، ثم نفصل الاتجاهات الرئيسية في الأقسام الفرعية اللاحقة.

السيناريوهات
- المراقبة الأمنية ومراقبة المرور: اكتشاف المشاة والمركبات والمركبات غير الآلية وعلامات المرور والأهداف المخالفة/المحتلة للمسار في الوقت الفعلي ضمن لقطات الكاميرا، مما يوفر الأساس لتحليل السلوك والإنذارات اللاحقة.
- فحص الجودة الصناعي والتصنيع: اكتشاف عيوب المنتج (خدوش، كسور، أجسام غريبة)، مواقع الأجزاء، وفقدان التجميع على خط الإنتاج، لدعم الاستبعاد التلقائي وتحديد مواقع الروبوتات.
- التجزئة والخدمات اللوجستية: اكتشاف المنتجات على أرفف التجزئة غير المأهولة وعمليات الدفع؛ اكتشاف وتحديد مواقع الطرود والمنصات والأكوام في المستودعات، للمساعدة في جرد المخزون والتقاط الروبوتات.
- فهم المحتوى والتدقيق: اكتشاف الأشخاص والشعارات والأسلحة والأشياء الحساسة وغيرها في الصور/الفيديو، لتوفير إشارات هيكلية لتدقيق المحتوى وامتثال الإعلانات والتعرف على العلامات التجارية.
المبادئ يتمثل جوهر اكتشاف الكائنات في بناء آلية تنبؤ كثيف على الصورة:
- استخراج الصورة المدخلة إلى خرائط سمات متعددة المقاييس عبر Backbone، ثم على هذه الخرائط، يتم التنبؤ في كل "موضع" (أو منطقة مرشحة) في وقت واحد بـ "هل يوجد هدف"، و"ما هي الفئة"، و"معاملات bbox المقابلة".
- حسب تقسيم الهيكلية، هناك الكشف ثنائي المراحل (Two‑stage) الذي يولد أولاً مربعات مرشحة ثم ينقحها، والكشف أحادي المرحلة (One‑stage) المدمج الذي يقوم بالتصنيف + الانحدار مباشرة على خريطة السمات، ولكل منهما تركيز مختلف على الدقة والسرعة.
- حسب تصميم المربعات المرشحة، هناك طرق قائمة على المربعات الارتساء المحددة مسبقًا (anchor‑based)، وطرق خالية من المربعات الارتساء (anchor‑free) تتنبأ مباشرة بنقطة المركز/الحدود، وعائلة DETR القائمة على المطابقة الجمعية.
- للتعامل مع الأهداف الصغيرة والكثيفة والانسداد وتغير المقاييس في البيانات الواقعية، عادةً ما يجمع الكاشف بين السمات متعددة المقاييس (FPN)، ودقة إدخال أعلى، ودوال خسارة محددة واستراتيجيات ما بعد المعالجة (مثل متغيرات NMS، والاختبار متعدد المقاييس) للتحسين.
النماذج تتكون نماذج الكشف عمومًا من ثلاثة أجزاء: الشبكة الأساسية + هرم السمات / هيكل الرأس + الخسارة وما بعد المعالجة:
- كاشفات ثنائية المراحل كلاسيكية: Faster R‑CNN و Mask R‑CNN وغيرها، تولد أولاً مربعات مرشحة عبر RPN، ثم تصنف وتنحدر بدقة لكل منطقة مرشحة، بدقة عالية وهيكل واضح، مناسبة للسيناريوهات التي تتطلب دقة عالية جدًا.
- كاشفات أحادية المرحلة: SSD و RetinaNet وسلسلة YOLO (YOLOv5/6/7/8 و YOLOX و YOLOv10 وغيرها)، تكمل الكشف في شبكة موحدة واحدة، بهيكل مدمج وزمن انتقال منخفض، وهي العمود الفقري للكشف الفوري في الصناعة.
- كاشفات خالية من المربعات الارتساء / Transformer: FCOS و CenterNet و ATSS وغيرها تتنبأ مباشرة بالمربعات بناءً على نقاط البكسل كمراكز؛ بينما تعالج DETR / Deformable DETR وغيرها الكشف عبر Transformer والمطابقة الجمعية، معتبرة الكشف كمسألة "توليد مجموعة أهداف من مجموعة استعلامات"، مما يبسط العديد من التصاميم اليدوية.
- كشف وتتبع الفيديو: بالبناء على كاشفات الصور، يتم إدخال المعلومات الزمنية واستراتيجيات الربط (مثل رأس التتبع، التدفق البصري، مطابقة المسارات)، لتشكيل إطار موحد Detection + Tracking، يدعم تحليل السلوك طويل الأمد ومتعدد الأهداف.

بشكل عام، يحتل اكتشاف الكائنات "موقعًا محوريًا" في طيف قدرات الرؤية — فهو من جهة يتلقى الصور النظيفة التي توفرها الرؤية منخفضة المستوى، ومن جهة أخرى يحلل الصورة إلى عناصر "على مستوى الهدف" قابلة للاستخدام في التعرف والتتبع والتجزئة والفهم متعدد الوسائط. فيما يلي، نستعرض ثلاثة اتجاهات: هيكليات الكشف أحادية/ثنائية المرحلة، والكشف القائم على المربعات الارتساء / الخالي منها / Transformer، والأهداف الصغيرة وكشف الفيديو.

2.3.1 الكشف أحادي المرحلة وثنائي المرحلة: مقايضة هيكلية بين الدقة والسرعة

من الناحية الهيكلية، التقسيم الأكثر كلاسيكية لاكتشاف الكائنات هو ثنائي المرحلة (Two‑stage) وأحادي المرحلة (One‑stage). يكمن الفرق الرئيسي بينهما في: هل يتم "اختيار مجموعة من المربعات المرشحة أولاً، ثم تنقيحها"، أم "التنبؤ بجميع المربعات والفئات دفعة واحدة" على خريطة السمات.

الكشف ثنائي المرحلة يمثله Faster R‑CNN. حيث يولد أولاً على خريطة سمات Backbone مجموعة من المربعات المرشحة "ذات الاحتمالية العالية لاحتواء هدف" عبر RPN (Region Proposal Network) (المرحلة الأولى)، ثم يجري محاذاة RoI واستخراج السمات لكل منطقة مرشحة، قبل أن يقوم بتصنيف وانحدار مربعات أكثر دقة (المرحلة الثانية). ميزة هذا التصميم هي: تصفية عدد كبير من العينات السلبية في مرحلة RPN، مما يسمح للمرحلة الثانية بالتركيز على عدد قليل من المناطق المرشحة لإصدار أحكام عالية الجودة، وبالتالي يكون غالبًا أفضل من حيث الدقة، وأسهل في التوسع إلى مهام مثل تجزئة النسخ (Mask R‑CNN) واكتشاف النقاط الرئيسية (Keypoint R‑CNN). لكن التعقيد الحسابي والتنفيذي الناتج عن الهيكل متعدد المراحل مرتفع نسبيًا، مما يجعله أكثر ملاءمة للسيناريوهات غير المتصلة أو شبه الفورية التي لا تتطلب وقتًا حقيقيًا صارمًا لكنها تؤكد على الدقة وقابلية التوسع.

أما الكشف أحادي المرحلة فيسعى إلى دمج العملية بأكملها، وإكمال تصنيف الفئات وانحدار المربعات في شبكة موحدة واحدة. النماذج الممثلة تشمل SSD و RetinaNet وسلسلة YOLO وغيرها: حيث تتنبأ مباشرة في كل موضع من خرائط السمات متعددة المقاييس بـ "خلفية/مقدمة + فئة + bbox" لعدد من المربعات المرشحة، متجاوزة مرحلة الـ proposal الصريحة، مما يجعلها أكثر ملاءمة للتسريع والنشر من طرف إلى طرف. كانت الفجوة في الدقة بين الكاشفات أحادية المرحلة المبكرة ونظيراتها ثنائية المرحلة ملحوظة، لكنها سرعان ما هيمنت على الصناعة بفضل هيكلها البسيط وسرعتها العالية؛ ومع إدخال FPN و focal loss و IoU‑aware loss، بالإضافة إلى Backbone و Neck أقوى، حققت النماذج الأحدث مثل RetinaNet و YOLOX و YOLOv7/8/10 توازنًا بين الدقة والسرعة "يقترب أو يتجاوز" النماذج ثنائية المرحلة في العديد من المهام.

على مستوى التطبيق، عادةً ما يتم الاختيار بين هاتين الهيكليتين وفقًا للاحتياجات الهندسية: بالنسبة لمهام التحليل الدفعي غير المتصل على السحابة التي تتطلب دقة عالية وقابلية للتوسع (مثل القيام بالكشف + التجزئة + النقاط الرئيسية في وقت واحد)، يظل الكشف ثنائي المرحلة خيارًا مستقرًا وموثوقًا؛ أما بالنسبة للأجهزة الطرفية وتطبيقات الهاتف المحمول والكشف الفوري عبر الكاميرا وغيرها من السيناريوهات الحساسة لزمن الانتقال، فإن كاشفات المرحلة الواحدة مثل سلسلة YOLO تكاد تكون الخيار الافتراضي الأول، وعادةً ما تُدمج مع تقنيات مثل التكميم والتقليم والتقطير لضغط النموذج وزيادة الإنتاجية بشكل أكبر.

2.3.2 القائم على المربعات الارتساء والخالي منها: من الإعداد اليدوي إلى التعلم من طرف إلى طرف

فيما يتعلق بكيفية تعريف "المربعات المرشحة"، يمكن تقسيم طرق الكشف إلى فئتين رئيسيتين: القائمة على المربعات الارتساء (Anchor‑based) والخالية من المربعات الارتساء (Anchor‑free). استخدمت الطرق السائدة المبكرة (مثل Faster R‑CNN و SSD و RetinaNet و YOLOv3/v4/v5 وغيرها) نهج Anchor‑based: حيث يتم تعريف عدة مربعات ارتساء (anchor) بمقاييس ونسب عرض إلى ارتفاع مختلفة مسبقًا في كل موضع من خريطة السمات، ثم تعلم احتمالية المقدمة وإزاحات bbox المقابلة لكل anchor. هذه الطريقة سهلة التنفيذ وفعالة، لكنها تتطلب ضبطًا يدويًا كبيرًا لأحجام ونسب anchor، وتكون عرضة لمشاكل العدد الهائل من anchor وعدم التوازن الشديد بين العينات الإيجابية والسلبية في سيناريوهات الأهداف الصغيرة والكثيفة.

أما طرق Anchor‑free فتحاول التخلص من الاعتماد على anchor المحددة مسبقًا. نماذج مثل FCOS و CenterNet و ATSS تمثل هذا الاتجاه، حيث تتنبأ عادةً مباشرة في كل نقطة بكسل من خريطة السمات "بما إذا كانت هذه النقطة تمثل مركز هدف ما (أو تنتمي إليه)" بالإضافة إلى مسافات الحدود المقابلة، مما يتجنب تمامًا تعقيد anchor المحددة مسبقًا. ميزة هذا النهج هي: هيكل نموذج أبسط، واستراتيجيات توزيع عينات تدريب أكثر طبيعية، وقدرة أفضل على التعميم والتوسع خاصة في السيناريوهات الواقعية ذات التغير الكبير في المقاييس وأشكال الأهداف المعقدة. في الوقت نفسه، دفعت كاشفات Anchor‑free أيضًا نحو المزيد من الأطر الموحدة القائمة على البكسل/النقطة، مما يجعل الكشف أسهل في النمذجة المشتركة مع مهام مثل النقاط الرئيسية والتجزئة.

للمضي قدمًا، أعادت كاشفات Transformer‑based مثل DETR / Deformable DETR التفكير في مسألة الكشف من بُعد آخر: فهي لا تضع anchor بكثافة على خريطة السمات، بل تقدم مجموعة ثابتة العدد من "متجهات الاستعلام" (object queries)، ومن خلال آليات الانتباه الذاتي والانتباه المتقاطع في Transformer، "تولد" مجموعة من تنبؤات الأهداف من السمات العامة، وتحقق محاذاة واحد لواحد عبر المطابقة المجرية (Hungarian Matching). فكرة التنبؤ الجمعي (set prediction) هذه تقضي تمامًا على المكونات التقليدية مثل NMS وتوزيع العينات اليدوي، وهي بسيطة جدًا من الناحية المفاهيمية، لكنها واجهت في التنفيذ المبكر مشاكل مثل بطء التقارب وعدم ملاءمتها للأهداف الصغيرة؛ أما الإصدارات اللاحقة مثل Deformable DETR فقد حققت تحسنًا ملحوظًا في سرعة التقارب والأداء من خلال إدخال الانتباه القابل للتشوه والآليات متعددة المقاييس، مما جعلها تكتسب المزيد من التطبيقات تدريجيًا في سيناريوهات الكشف والمهام المتعددة.

بالنسبة للممارسة الهندسية، فإن الكشف القائم على Anchor‑based و Anchor‑free و Transformer ليس خيارات متبادلة، بل أشبه بسلسلة تطورية: من تصميم anchor اليدوي الثقيل (heavily engineered)، إلى التنبؤ القائم على النقطة/المركز الأكثر طرفية، ثم إلى الإطار الموحد القائم بالكامل على التنبؤ الجمعي والانتباه. في التطبيقات الصناعية الحالية، لا تزال نماذج Anchor‑based الناضجة مثل سلسلة YOLO هي القوة الرئيسية، بينما تظهر عائلة Anchor‑free و DETR بشكل أكبر في الأنظمة التي تتطلب بساطة هيكلية عالية وتوحيد المهام المتعددة وقابلية التوسع.

2.3.3 الأهداف الصغيرة وكشف الفيديو: نحو المتانة في السيناريوهات الواقعية

غالبًا ما يعطي اكتشاف الكائنات على مجموعات البيانات العامة انطباعًا بأن "المشكلة قد حُلت أساسًا"، لكن بمجرد الدخول في السيناريوهات الواقعية، تظهر فورًا فئتان من المشاكل الصعبة: الأهداف الصغيرة/الكثيفة والكشف والتتبع المستقر في الفيديو.

في اكتشاف الأهداف الصغيرة، غالبًا ما تشغل الأهداف مساحة بكسل صغيرة جدًا في الصورة الأصلية، مثل المشاة البعيدين، أو المركبات البعيدة، أو الطائرات بدون طيار في الجو، أو العيوب الدقيقة في الصور الصناعية عالية الدقة. مع انخفاض دقة Backbone وخريطة السمات أثناء الاختزال، تغرق هذه الأهداف الصغيرة بسهولة في السمات عالية المستوى، مما يؤدي إلى تفويت الكشف. لذلك، عادةً ما تعتمد الكاشفات على هرم السمات متعدد المقاييس (FPN/PAFPN وغيرها)، وزيادة دقة الإدخال، وإضافة رؤوس كشف على خرائط السمات الضحلة، وقد تصمم حتى فروعًا مخصصة واستراتيجيات ترجيح خسارة للأهداف الصغيرة. في الوقت نفسه، يجب على مستوى البيانات تحسين قدرة النموذج على الإحساس والتذكر للأهداف صغيرة المقاييس من خلال القص والتكبير وإعادة أخذ العينات للأهداف الصغيرة.

أما الأهداف الكثيفة (مثل الحشود المزدحمة، ومواقف السيارات الكثيفة، والمنتجات/الأجزاء المتراصة) فتكشف عن مشاكل مثل تداخل مربعات الارتساء، والقتل الخاطئ بواسطة NMS، والانسداد الشديد. تشمل استراتيجيات التحسين توزيع التسميات بشكل أدق (مثل طرق التوزيع التكيفي كـ ATSS)، و NMS الناعم أو استراتيجيات إزالة التكرار القائمة على التعلم، بالإضافة إلى نمذجة خرائط المراكز/الكثافة لتخفيف التنافس بين المربعات. في فحص الجودة الصناعي، تجمع العديد من الأنظمة أيضًا بين الكشف والتجزئة على مستوى البكسل لتحقيق تحديد أكثر دقة للعيوب، لتسهيل المعالجة التلقائية اللاحقة.

عندما يمتد الكشف من الإطار الواحد إلى الفيديو، يظهر تحدٍ آخر هو الاستمرارية الزمنية واستقرار الأهداف. تقوم كاشفات الإطار الواحد بالتنبؤ بشكل مستقل على كل إطار، مما يجعل من الصعب تجنب فقدان الكشف قصير المدى، واهتزاز المعرفات (ID)، والإنذارات الكاذبة، بينما تتطلب الإنذارات والعد وتحليل المسارات في التطبيقات الواقعية مسارات أهداف متسقة عبر الإطارات. لذلك، عادةً ما يُضاف فوق كشف الفيديو وحدة تتبع، لربط "الكشف + تتبع الأهداف": النهج الكلاسيكي يستخدم كاشف الصور كواجهة أمامية، وفي الخلفية يستخدم مرشح كالمان والمطابقة المجرية وتشابه سمات المظهر لتحقيق تتبع متعدد الأهداف (مثل SORT و DeepSORT وغيرها)؛ والنهج الأكثر تقدمًا يدمج رأس التتبع مباشرة في شبكة الكشف، لتعلم الكشف والربط عبر الإطارات بشكل مشترك، مما يحسن المتانة في سيناريوهات الانسداد قصير المدى والحركة السريعة.

في الأنظمة الواقعية، لا تكون مشاكل الأهداف الصغيرة والكثيفة وكشف الفيديو معزولة، بل تظهر معًا في آن واحد: مثل المشاة/المركبات البعيدة في مراقبة الطرق الحضرية، والحشود الكثيفة في ساحات المحطات، والأجزاء سريعة الحركة في فيديوهات خطوط الإنتاج. وهذا يؤكد أن وحدات اكتشاف الكائنات عالية الجودة، بالإضافة إلى تحقيقها مؤشرات ممتازة على المعايير القياسية (benchmark)، تحتاج أكثر إلى الصمود في وجه مختلف العوامل المعقدة في الظروف الواقعية متعددة المقاييس والكثافات والفيديوهات الطويلة، لتتمكن حقًا من دعم تحليل السلوك والإنذارات الذكية والفهم متعدد الوسائط في المستويات العليا.

2.4 تجزئة الصور (Image Segmentation)

مع اكتشاف الكائنات، أصبح بإمكاننا معرفة "ما هي الكائنات الموجودة في الصورة وأين توجد تقريبًا"، لكن العديد من المهام لا تزال تتطلب فهمًا هيكليًا أكثر دقة: التحديد الدقيق لكل بكسل، وتصنيفه إلى أي فئة ينتمي وأي مثيل يمثل. على سبيل المثال، في القيادة الذاتية، يجب معرفة أي البكسلات تمثل الطريق وأيها تمثل الأشخاص والسيارات؛ وفي أدوات القص، يجب فصل خصلات الشعر عن الخلفية بدقة؛ وفي الصور الطبية، يجب تحديد حدود الأورام والأعضاء بدقة. تُعرف هذه المهام مجتمعة بتجزئة الصور، حيث تنتج تسميات دلالية أو تسميات مثيلات مباشرة على مستوى البكسل، مما يوفر معلومات هيكلية مكانية أكثر تفصيلاً مقارنة بالاكتشاف.

من منظور المنتج، تُعد تجزئة الصور القدرة الأساسية "للهيكلة على مستوى البكسل": تعتمد أدوات القص واستبدال الخلفية عليها لتحديد البكسلات التي يجب الاحتفاظ بها؛ وتعتمد وحدة الإدراك في القيادة الذاتية عليها لبناء خريطة دقيقة "للمنطقة القابلة للقيادة + العوائق"؛ وتعتمد برامج التصوير الطبي عليها لقياس حجم الآفات وشكلها وحجمها؛ وتعتمد منصات الاستشعار عن بُعد عليها لتمييز الأراضي الزراعية والمسطحات المائية والمباني والطرق وغيرها. فيما يلي، نستعرض تجزئة الصور من ثلاث زوايا: السيناريوهات والمبادئ والنماذج، ونتوسع في الأقسام الفرعية اللاحقة في اتجاهات التجزئة الدلالية/المثيلات/الشاملة/النماذج الكبيرة.

السيناريوهات
- تحرير المحتوى والقص: قص الصور الشخصية، استبدال الخلفية على مستوى خصلات الشعر، قص الكائنات والتحرير الطبقي، المستخدم في تجميل الصور، المؤثرات الخاصة للفيديوهات القصيرة، وإنتاج الإعلانات الإبداعية.
- القيادة الذاتية والروبوتات: تسمية كل بكسل بالطريق، خطوط المسار، المشاة، المركبات، الحواجز، المباني، السماء وغيرها، المستخدمة في تخطيط المسار، التحذير من التصادم، ونمذجة البيئة.
- تحليل الصور الطبية: تجزئة دقيقة للأعضاء، الأورام، ومناطق الآفات في صور CT، MRI، الموجات فوق الصوتية وغيرها، لدعم التشخيص المساعد، تخطيط العمليات الجراحية، وتقييم فعالية العلاج.
- الاستشعار عن بُعد والمعلومات الجغرافية: تجزئة الأراضي الزراعية، المسطحات المائية، الطرق، المباني، الغابات وغيرها في صور الأقمار الصناعية/الجوية، لدعم تخطيط الأراضي، مراقبة استخدام الأراضي، وتقييم الكوارث.
المبادئ جوهر تجزئة الصور هو "التنبؤ الكثيف"، حيث يتم استخراج الميزات متعددة المقاييس من الصورة المدخلة عبر المشفر (Backbone)، ثم عبر مفكك التشفير أو وحدات الرفع (upsampling)، يتم استعادة خريطة الميزات تدريجيًا إلى خريطة تجزئة بنفس حجم المدخلات، مع إخراج تسمية دلالية أو تسمية مثيل في كل موضع بكسل.
- التجزئة الدلالية (Semantic Segmentation): تعيين فئة دلالية لكل بكسل (مثل طريق، شخص، سيارة، سماء)، دون تمييز الكائنات المختلفة من نفس الفئة، وهي مناسبة لوصف "تكوين المشهد".
- تجزئة المثيلات (Instance Segmentation): تمييز إضافي بين المثيلات المختلفة من نفس الفئة فوق المعلومات الدلالية، وإنشاء قناع مستقل "لكل سيارة، لكل شخص"، وهي مزيج من الاكتشاف والتجزئة.
- التجزئة الشاملة (Panoptic Segmentation): معالجة موحدة "للكائنات القابلة للعد (thing، مثل الأشخاص، السيارات)" و"الخلفيات غير القابلة للعد (stuff، مثل الطريق، السماء)"، مع إعطاء كل بكسل تسمية دلالية ومعرف مثيل في آن واحد. بالمقارنة مع الاكتشاف، تكون التجزئة أكثر حساسية للتفاصيل المكانية وجودة الحدود، وتتطلب معلومات سياقية متعددة المقاييس أكثر ثراءً واستراتيجيات رفع/دمج أكثر دقة.
النماذج تطورت نماذج التجزئة من الكلاسيكية إلى الأحدث تقريبًا على طول مسار "FCN → encoder-decoder → السياق متعدد المقاييس → الاكتشاف + التجزئة المتكاملة → تجزئة النماذج الكبيرة":
- التجزئة الدلالية: FCN، U‑Net ومتغيراتها، سلسلة DeepLab (DeepLabv3/v3+)، PSPNet وغيرها، تحصل على سياق متعدد المقاييس وحدود دقيقة من خلال الالتفاف الموسع (dilated convolution)، التجميع الهرمي (pyramid pooling)، والاتصالات التخطية (skip connections).
- تجزئة المثيلات/الشاملة: Mask R‑CNN، Panoptic FPN، Mask2Former وغيرها، تجمع بين رأس الاكتشاف ورأس التجزئة لتحقيق تجزئة على مستوى الكائن وتجزئة شاملة.
- النماذج الكبيرة والتجزئة العامة: نماذج التجزئة الأساسية مثل Segment Anything Model (SAM)، التي ترتقي بالتجزئة من "التدريب المنفصل لكل مهمة" إلى "نموذج واحد يتكيف مع معظم سيناريوهات التجزئة"، وتدعم التجزئة التفاعلية والموجهة بالتلميحات (prompt‑based).

بشكل عام، توفر تجزئة الصور تمثيلاً هيكليًا مكانيًا أكثر دقة مقارنة باكتشاف الكائنات، وهي حلقة لا غنى عنها في بناء أنظمة إدراك عالية الموثوقية وأدوات تحرير متقدمة. فيما يلي، نتوسع في ثلاثة اتجاهات: التجزئة الدلالية وتجزئة المثيلات، والتجزئة الشاملة والاكتشاف المتكامل، والتجزئة العامة والنماذج الكبيرة والتجزئة غير الموجهة.

2.4.1 التجزئة الدلالية وتجزئة المثيلات: من "فئة البكسل" إلى "مثيل البكسل"

هدف التجزئة الدلالية (Semantic Segmentation) هو تعيين فئة دلالية لكل بكسل في الصورة، بحيث تتعلم الشبكة أن "هذه المنطقة طريق، وتلك المنطقة سيارة، وهنا شخص، وهناك سماء ومبانٍ". تستخدم الممارسات الكلاسيكية عادةً بنية encoder-decoder: يستخرج المشفر (مثل ResNet، EfficientNet، Swin Transformer وغيرها) الميزات عالية المستوى مع الاختزال التدريجي، ويقوم مفكك التشفير من خلال الرفع (upsampling)، والاتصالات التخطية (skip connections)، والدمج متعدد المقاييس، بدمج الميزات الدلالية عالية المستوى الخشنة مع التفاصيل منخفضة المستوى، واستعادتها إلى الدقة الأصلية. قامت FCN بتنظيم هذا الشكل من التنبؤ الكثيف لأول مرة بشكل منهجي، وحققت U‑Net نجاحًا كبيرًا في التصوير الطبي من خلال البنية المتماثلة على شكل U مع عدد كبير من الاتصالات التخطية؛ وقامت سلسلة DeepLab بتوسيع مجال الاستقبال دون تقليل الدقة من خلال الالتفاف الموسع (dilated convolution) وASPP (التجميع الهرمي الموسع)؛ بينما حصلت PSPNet على معلومات السياق الشامل من خلال التجميع الهرمي. وقد دفعت هذه النماذج مجتمعة التطبيقات واسعة النطاق في مجالات مشاهد الطرق، والاستشعار عن بُعد، والطب وغيرها.

تقوم تجزئة المثيلات (Instance Segmentation) بالإضافة إلى ذلك بتمييز الكائنات المختلفة من نفس الفئة فوق التسميات الدلالية للبكسلات: ليس فقط معرفة أي البكسلات تمثل "سيارة"، بل أيضًا معرفة أي سيارة تنتمي إليها هذه البكسلات. النموذج الأكثر تمثيلاً هو Mask R‑CNN، الذي يضيف فرع تجزئة متوازيًا فوق إطار الاكتشاف Faster R‑CNN: يتنبأ أولاً بفئة وموقع كل صندوق مرشح عبر رأس الاكتشاف، ثم ينتج قناعًا ثنائيًا داخل كل صندوق، للحصول على نتيجة تجزئة على مستوى الكائن "بصندوق + قناع". بالمقارنة مع التجزئة الدلالية البحتة، يتعامل هذا النهج بشكل جيد مع تداخل الكائنات وانسدادها، وهو أساس مهام مثل قص الصور الشخصية/المنتجات، وعد الكائنات المتعددة، والتحرير الدقيق. استمرت طرق تجزئة المثيلات اللاحقة في التحسين من حيث جودة الأقنعة، وتعدد المقاييس، والسرعة، كما ظهرت بنى جديدة قائمة على anchor‑free وTransformer، لكن فكرة "الاكتشاف + التجزئة المحلية" لا تزال سائدة للغاية.

على مستوى المنتج، تظهر التجزئة الدلالية عادةً في التطبيقات "على مستوى المشهد"، مثل تجزئة الطرق في القيادة الذاتية، وتعرف المعالم في الاستشعار عن بُعد، وتجزئة الأعضاء الطبية وغيرها؛ بينما تُستخدم تجزئة المثيلات بشكل أكثر شيوعًا في القص والعد والتحرير "على مستوى الكائن"، مثل تحديد وفصل كل سيارة، كل شخص، وكل منتج بنقرة واحدة. يوفر الجمع بينهما معلومات مكانية دقيقة وهيكلية للمهام العليا.

القيام بالتجزئة الدلالية فقط سيخلط الكائنات من نفس الفئة معًا (جميع بكسلات "السيارة" تنتمي إلى نفس الفئة)؛ والقيام بتجزئة المثيلات فقط غالبًا ما يركز على "الأشياء" القابلة للعد (things، مثل الأشخاص، السيارات، الحيوانات)، ويتجاهل "الخلفيات" غير القابلة للعد ذات المساحات الكبيرة (stuff، مثل الطريق، العشب، السماء). في العديد من السيناريوهات، نحتاج إلى معرفة قناع على مستوى المثيل لكل كائن، وفهم تكوين المشهد الكلي في نفس الوقت. وهذا ما أدى إلى ظهور التجزئة الشاملة (Panoptic Segmentation): إعطاء كل بكسل فئة دلالية ومعرف مثيل في آن واحد، لتحقيق نمذجة موحدة لـ thing + stuff.

كانت أنظمة التجزئة الشاملة المبكرة تُنفذ عادةً من خلال "نموذج تجزئة دلالية + نموذج تجزئة مثيلات + معالجة لاحقة للتوليف": يتم أولاً التنبؤ بالفئة الدلالية لكل بكسل باستخدام شبكة، ثم إخراج أقنعة وفئات المثيلات المختلفة باستخدام شبكة أخرى، وأخيرًا عبر مجموعة من القواعد (مثل الأولوية، معالجة التداخل) يتم دمج الاثنين في نتيجة تجزئة شاملة متسقة. مثّلت Panoptic FPN مسارًا هندسيًا أكثر أناقة: على Backbone مشترك وهرم ميزات (FPN)، يتم تركيب رأس تجزئة دلالية ورأس تجزئة مثيلات، ومن خلال التدريب المشترك ومشاركة الميزات، يتم الحصول على كلا المخرجين في وقت واحد، ثم دمجهما من خلال معالجة لاحقة خفيفة. هذا لا يحسن الكفاءة فحسب، بل يعزز أيضًا الاتساق بين الدلالي والمثيل.

على مستوى النماذج، مع تطور تكامل الاكتشاف/التجزئة وبنية Transformer، ظهرت أطر تجزئة شاملة موحدة مثل Mask2Former: تميل إلى استخدام بنية "query + mask decoder" عامة، للتنبؤ في نفس الشبكة بالأقنعة الدلالية والمثيلات وحتى أقنعة المهام الأخرى، مما يبسط النظام المعماري بشكل كبير ويسهل توسيع المهام المتعددة. بالنسبة للمهام المعقدة مثل القيادة الذاتية، والملاحة الروبوتية، وفهم مشاهد AR، توفر التجزئة الشاملة وصفًا مكتملاً للمشهد أقرب إلى "الإدراك البصري البشري"، مما يسمح باتخاذ القرارات والتخطيط على مستوى أعلى بناءً على دلالات مكانية أكثر دقة.

على مستوى شكل المنتج، غالبًا ما تكون التجزئة الشاملة مضمنة في أنظمة القيادة الذاتية، والأنظمة الروبوتية، ومنصات التحليل البصري المتقدمة، وقد لا يشعر المستخدم مباشرة بمفهوم "التجزئة الشاملة"، لكنه يستفيد حقًا من فهم أكثر قوة للمشهد وتجربة تفاعل أكثر طبيعية.

2.4.2 التجزئة العامة والتجزئة غير الموجهة: من التخصيص للمهمة إلى "Segment Anything"

غالبًا ما تُدرب نماذج التجزئة التقليدية حول مجموعات بيانات ومهام محددة: مثل "التجزئة الدلالية لـ 19 فئة في مشاهد الطرق"، "تجزئة نوع معين من الأورام"، "تجزئة فئات معينة من المنتجات" وغيرها، وكل تغيير في المهمة يتطلب إعادة التسمية وإعادة التدريب. في الأعمال الفعلية، هذه الطريقة التي تعتمد بشدة على البيانات المسمّاة بدقة مكلفة للغاية، ويصعب معها تغطية الفئات النادرة (long-tail) والمشاهد الجديدة المتزايدة. في السنوات الأخيرة، مع تطور نماذج الرؤية مسبقة التدريب واسعة النطاق ونموذج التوجيه بالتلميحات (prompt‑based)، ظهرت نماذج التجزئة العامة الكبيرة الممثلة بـ Segment Anything Model (SAM)، محاولةً الارتقاء بقدرة التجزئة من "التخصيص للمهمة" إلى "بنية تحتية".

على سبيل المثال SAM، يستخدم مشفر صور قوي (عادةً ViT مدرب مسبقًا على نطاق واسع) لتعلم الميزات العامة للصورة الكاملة، ثم عبر مشفر تلميحات خفيف ومفكك تشفير الأقنعة، يحول التلميحات التي يقدمها المستخدم من نقاط، صناديق، نصوص وغيرها إلى نتائج تجزئة. في مرحلة التدريب، استفاد SAM من كمية هائلة من تسميات الأقنعة متعددة المصادر والمهام، مما جعل النموذج يتعلم "قدرة تجزئة عامة"، وليس حفظ تسميات مجموعة بيانات معينة عن ظهر قلب؛ وفي مرحلة الاستخدام، يحتاج المستخدم فقط إلى تقديم القليل جدًا من التلميحات (نقطة واحدة أو صندوق تقريبي)، للحصول على أقنعة عالية الجودة على أنواع صور وفئات كائنات غير مسبوقة. هذا النموذج يخفض بشكل كبير عتبة بناء تطبيقات تجزئة جديدة، ويوفر أيضًا أداة قوية للسيناريوهات غير الموجهة/ضعيفة التوجيه.

يرتبط بذلك، اتجاه التجزئة غير الموجهة/ذاتية التوجيه الأوسع: دون الاعتماد أو بالاعتماد القليل جدًا على الأقنعة البشرية، من خلال إشارات مثل التشابه الداخلي في الصورة، والاتساق الزمني، والقيود متعددة وجهات النظر، يتم تقسيم الصورة تلقائيًا إلى عدة مناطق ذات معنى. ركزت الأعمال المبكرة في الغالب على "التجميع البصري" وتوليد المقترحات (proposal generation)، أما الآن فقد أصبحت داخليًا في النماذج الكبيرة كطريقة لتعلم التمثيل، مما يوفر تهيئة جيدة لمهام التجزئة اللاحقة. بالدمج مع نماذج التعلم التبايني بين النص والصورة مثل CLIP، يمكن لعدد متزايد من الطرق إجراء تجزئة بدون أمثلة (zero-shot) أو بأمثلة قليلة (few-shot) في ظل شرط "إعطاء أسماء الفئات النصية فقط دون توفير تسميات الأقنعة"، مما يوفر حلولاً جديدة لسيناريوهات البدء البارد والفئات النادرة.

في المنتجات الفعلية، غالبًا ما تظهر نماذج التجزئة العامة الكبيرة في شكل "أداة قص تفاعلية"، "تحديد ذكي"، "إزالة الخلفية بنقرة واحدة"، كما يتم دمجها تدريجيًا في البرامج المتخصصة في مجالات الطب، والاستشعار عن بُعد، والصناعة وغيرها، كمسرّع للتسمية شبه التلقائية والتجزئة المساعدة. بالمقارنة مع النماذج المخصصة التقليدية، قد لا تصل إلى أقصى درجات الأداء في مهمة محددة معينة، لكن لديها ميزة واضحة في "القدرة على فعل القليل من كل شيء، والهبوط السريع في سيناريوهات متعددة"، كما تضع الأساس لبناء نماذج رؤية أساسية متعددة الوسائط حقًا في المستقبل.

2.5 اكتشاف النقاط الرئيسية والتعرف على الحركات (Keypoint Detection & Action Recognition)

بعد التصنيف والكشف والتجزئة، أصبحنا نعرف "ما الموجود في الصورة، وأين يقع، وإلى ماذا تنتمي كل بكسل". لكن في العديد من المهام الواقعية، لا يقتصر اهتمام الأعمال على "وجود الأشياء وموقعها" فحسب، بل يمتد إلى الوضعية والحركة: هل الشخص يمشي أم يركض؟ هل هذه اليد مرفوعة، وهل تؤدي إيماءة معينة؟ هل يرتدي العامل معدات السلامة بشكل صحيح وينفذ الحركات القياسية؟ هل الحركات الفنية للرياضي صحيحة؟ تتطلب هذه الأسئلة منا فهمًا أعمق للتركيب الداخلي للأشياء وتغيراتها الزمنية.

يمثل اكتشاف النقاط الرئيسية والتعرف على الحركات قدرتين تستجيبان لهذا الاحتياج:

اكتشاف النقاط الرئيسية (Keypoint Detection): التنبؤ بعدد من "النقاط الهيكلية" (مثل المفاصل، أطراف الأصابع، ملامح الوجه) على هدف معين (عادةً جسم الإنسان، أو اليد، أو الوجه، أو تركيبات ميكانيكية محددة) في إطار صورة أو فيديو، للحصول على تمثيل وضعية هيكلي دقيق (pose).
التعرف على الحركات (Action Recognition): تحليل التغير الزمني لهذه النقاط الرئيسية أو السمات الظاهرية للتمييز بين "ما يفعله هذا الشخص/هؤلاء الأشخاص من حركات أو سلوكيات".

من منظور المنتج، تخدم هذه القدرة على نطاق واسع: التفاعل بين الإنسان والحاسوب (التحكم بالإيماءات)، والتحليل الرياضي (تقييم الحركات الفنية)، والأمن (اكتشاف السقوط، والتعرف على السلوكيات غير الطبيعية مثل الشجار/الجري)، والسلامة الصناعية (اكتشاف الحركات المخالفة)، وقيادة الشخصيات الافتراضية (قيادة الهياكل العظمية والرسوم المتحركة ثلاثية الأبعاد بالاعتماد على النقاط الرئيسية للجسم/الوجه) وغيرها من السيناريوهات. فيما يلي نستعرض هذه القدرة من زوايا السيناريوهات والمبادئ والنماذج، ونتوسع في الأقسام الفرعية في اكتشاف النقاط الرئيسية والتعرف على الحركات كل على حدة.

السيناريوهات
- التفاعل بين الإنسان والحاسوب والواقع المعزز/الافتراضي: من خلال التعرف على الإيماءات واكتشاف وضعية الجسم، لتحقيق تفاعل طبيعي "بمجرد الإشارة"، أو قيادة الصور الرمزية الافتراضية في الوقت الفعلي في الواقع المعزز/الافتراضي.
- التدريب الرياضي وتحليل الحركات: تتبع النقاط الرئيسية وتحليل الزوايا لحركات مثل الجري، الوثب العالي، التسديد، رفع الأثقال، وتقديم تقييم للحركات الفنية واقتراحات للتصحيح.
- الأمن والسلامة العامة: اكتشاف السلوكيات غير الطبيعية مثل السقوط، الشجار، الجري الشديد، تسلق الحواجز، لاستخدامها في التنبيه الفوري؛ والتعرف على ما إذا كانت العمليات في مواقع البناء والمصانع مطابقة للمعايير.
- الصناعة والتعاون بين الإنسان والروبوت: اكتشاف ما إذا كان العمال يعملون بوضعيات قياسية، ومسافة الأمان عند التعاون مع الروبوتات، وما إذا كانت هناك حركات خطيرة.
- قيادة الوجه/التعابير والشخصيات الافتراضية: التقاط تفاصيل التعابير من خلال النقاط الرئيسية للوجه، لاستخدامها في نقل التعابير، وقيادة الشخصيات الرقمية، والصور الرمزية الافتراضية في اجتماعات الفيديو وغيرها.
المبادئ تركز كل من المهمتين على التركيب المكاني والتغير الزمني على التوالي، لكنهما في جوهرهما تقومان بالتنبؤ الهيكلي في فضاء سمات عالي الأبعاد:
- اكتشاف النقاط الرئيسية: تحديد مجموعة من النقاط الرئيسية المعرفة مسبقًا في الصورة (مثل 17/25 مفصلًا لجسم الإنسان، 21 مفصلًا لليد، 68/106 نقطة رئيسية للوجه)، والطريقة الشائعة هي التنبؤ بخريطة حرارية (heatmap) لكل نقطة رئيسية على خريطة السمات، ثم استنتاج الإحداثيات من موقع القمة؛ وفي سيناريوهات تعدد الأشخاص، يلزم أيضًا "تجميع المفاصل لكل شخص".
- التعرف على الحركات في الإطار الواحد/النافذة الزمنية القصيرة: بالاعتماد على صورة واحدة أو نافذة زمنية قصيرة، ومن خلال وضعية الجسم (النقاط الرئيسية) والسمات الظاهرية، يتم تصنيف فئة الحركة التي تحدث في هذا الإطار/المقطع (مثل المشي، الجري، رفع اليد، التلويح، الجلوس، إلخ).
- التعرف على الحركات الزمنية: على مقياس زمني أطول، يتم تحليل تسلسل السمات (سمات الصورة، تسلسل النقاط الرئيسية، أو التدفق البصري، إلخ)، لنمذجة بداية الحركة واستمرارها ونهايتها، والتعرف على سلوكيات معقدة مثل "يتحدث في الهاتف"، "يمارس تمارين الضغط"، "شخصان يتشاجران".
- التمثيل الهيكلي: يوفر تسلسل النقاط الرئيسية تمثيلًا هيكليًا أكثر إحكامًا واستقرارًا من البكسلات الخام، مما يسهل معالجة تغيرات زاوية الرؤية وتداخل الخلفية والاختلافات الظاهرية في التعرف على الحركات.
النماذج تتطور النماذج الشائعة عمومًا وفق نمط موحد هو "استخراج السمات بالالتفاف/المحول + رأس النقاط الرئيسية/الزمن":
- اكتشاف النقاط الرئيسية: سلسلة OpenPose، وشبكة Hourglass، وHRNet، وتنقسم إلى فرعين رئيسيين: من الأعلى إلى الأسفل (اكتشاف الشخص أولاً ثم تقدير الوضعية) ومن الأسفل إلى الأعلى (اكتشاف المفاصل أولاً ثم تجميعها)؛ وفي السنوات الأخيرة ظهرت مقدرات وضعية مبنية على Transformer.
- التعرف على الحركات في الفيديو: نماذج الفيديو المبنية على CNN ثنائية/ثلاثية الأبعاد (I3D، SlowFast وغيرها)، ونماذج GCN المبنية على الهيكل العظمي (ST‑GCN وغيرها، التي تنمذج العلاقات الزمكانية مباشرة على بيان النقاط الرئيسية)، والحلول الشاملة المبنية على فيديو Transformer (Video Swin، TimeSformer وغيرها).
- تعدد المهام الموحد والنماذج الكبيرة: على العمود الفقري البصري العام (Visual Backbone)، يتم إخراج الكشف والتجزئة والنقاط الرئيسية ووسوم الحركات في آن واحد، أو الاستفادة من النماذج الكبيرة متعددة الوسائط لفهم "ما يفعله هذا الشخص من حركات" مباشرة من خلال تلميحات نصية، لربط التنبؤ الهيكلي بالفهم الدلالي.

فيما يلي نتوسع في اتجاهي اكتشاف النقاط الرئيسية وتقدير الوضعية والتعرف على الحركات وفهم السلوك على التوالي.

2.5.1 اكتشاف النقاط الرئيسية وتقدير الوضعية: "رسم الهيكل العظمي" للأشخاص والأشياء

يركز اكتشاف النقاط الرئيسية (والذي يُطلق عليه غالبًا تقدير الوضعية، Pose Estimation) على التركيب المكاني في الإطار الواحد أو الصورة الواحدة: إيجاد مجموعة من النقاط الرئيسية ذات الدلالة الدلالية في الصورة ثنائية الأبعاد وربطها لتكوين هيكل عظمي. على سبيل المثال، في تقدير وضعية جسم الإنسان، نحتاج عادةً إلى اكتشاف مفاصل الرأس، الكتفين، المرفقين، المعصمين، الوركين، الركبتين، الكاحلين؛ وفي وضعية الوجه تكون زوايا العينين، زوايا الفم، طرف الأنف، محيط الوجه، إلخ؛ وفي وضعية اليد تكون جذور الأصابع، مفاصل الأصابع، أطراف الأصابع. وبالنسبة للأشياء غير البشرية مثل الأذرع الآلية والقطع المفصلية، يمكن أيضًا تعريف مجموعة من النقاط الرئيسية بالمثل.

في تصميم النماذج، يشيع في اكتشاف النقاط الرئيسية نمط "استخراج السمات + التنبؤ بالخرائط الحرارية":

أولاً، استخدام CNN أو محول الرؤية (مثل ResNet وHRNet وSwin وغيرها) لاستخراج سمات متعددة المقاييس من الصورة المدخلة.
ثم، من خلال رأس فك الترميز أو التفاف متعدد الطبقات، يتم إخراج خريطة حرارية (heatmap) لكل نوع من النقاط الرئيسية، حيث تمثل قيمة كل بكسل "احتمالية أن يكون هذا الموقع هو هذه النقطة الرئيسية".
في مرحلة الاستدلال، يُؤخذ موقع القمة في كل خريطة حرارية عادةً كإحداثيات النقطة الرئيسية، ويتم التحسين على مستوى البكسل الفرعي من خلال الاستيفاء ثنائي الخطوط والملاءمة المحلية.

بالنسبة لسيناريوهات تعدد الأشخاص، تنقسم طرق تقدير الوضعية تقريبًا إلى مسارين:

من الأعلى إلى الأسفل (Top‑down): استخدام كاشف المشاة أولاً لإيجاد صندوق إحاطة كل شخص في الصورة، ثم إجراء تقدير وضعية فردي على الصورة داخل كل صندوق. تتميز هذه الطريقة بدقة عالية للفرد الواحد وبساطة الإطار، لكن تكلفتها الحسابية كبيرة في المشاهد المزدحمة وهي حساسة لجودة الكشف. تشمل الأنظمة الممثلة العديد من التوليفات المبنية على Faster R‑CNN/YOLO + Hourglass/HRNet.
من الأسفل إلى الأعلى (Bottom‑up): بدلاً من تمييز كل شخص أولاً، يتم التنبؤ مباشرة بجميع النقاط الرئيسية المحتملة (وأنواعها) على الصورة الكاملة، مع التنبؤ في نفس الوقت بعلاقات الاتصال أو حقول التقارب بين النقاط الرئيسية (مثل PAF في OpenPose). ثم من خلال خوارزميات مطابقة البيان/التجميع، يتم تجميع النقاط الرئيسية في عدة هياكل عظمية بشرية مستقلة. هذه الطرق أكثر كفاءة في المشاهد المزدحمة وأكثر متانة مع اختلاف عدد الأشخاص، لكن عملية التجميع معقدة وحساسة لجودة الاتصالات.

في السنوات الأخيرة، ظهرت نماذج تقدير الوضعية المبنية على Transformer تدريجيًا، حيث تنظر إلى اكتشاف النقاط الرئيسية كمجموعة من مهام "الاستعلام-الاستجابة"، على غرار DETR، مما يمكن من توحيد اكتشاف الأشياء وتقدير الوضعية معماريًا. في التطبيقات الهندسية، تُغلَّف قدرة اكتشاف النقاط الرئيسية عادةً في "حزمة أدوات تطوير (SDK) أو واجهة برمجة تطبيقات (API) للنقاط الرئيسية للجسم/الإيماءات/الوجه"، حيث يحتاج التطبيق العلوي فقط إلى إدخال الصورة أو إطار الفيديو للحصول على إحداثيات هيكلية منظمة، لاستخدامها في التعرف على الحركات اللاحق، أو التحكم التفاعلي، أو قيادة الرسوم المتحركة.

2.5.2 التعرف على الحركات وفهم السلوك: جعل "الهيكل العظمي" يتحرك

بعد الحصول على النقاط الرئيسية أو السمات البصرية عالية المستوى، تكون الخطوة التالية هي فهم التغيرات في البعد الزمني — أي التعرف على الحركات (Action Recognition) وتحليل السلوك (Behavior Understanding). على عكس اكتشاف النقاط الرئيسية، لم يعد التعرف على الحركات مقتصرًا على الإطار الواحد؛ بل يهتم بنمط تطور السمات خلال فترة زمنية: من "رفع اليد" إلى "التلويح"، ومن "المشي" إلى "الجري"، ومن "الوقوف" إلى "السقوط".

فيما يتعلق بتمثيل المدخلات، توجد ثلاث مسارات تقريبًا:

بناءً على إطارات الفيديو الخام/التدفق البصري: نمذجة تسلسل إطارات الفيديو مباشرة، أو إضافة التدفق البصري (حقل يصف سرعة الحركة المحلية) كمدخل إضافي، ليتعلم النموذج بشكل مشترك من معلومات المظهر + الحركة.
بناءً على الهيكل العظمي/تسلسل النقاط الرئيسية: الحصول أولاً على تسلسل إحداثيات النقاط الرئيسية لجسم الإنسان من خلال تقدير الوضعية، ثم النمذجة على "البيان الزمكاني للهيكل العظمي"، مما يقلل من تداخل الخلفية والإضاءة ويركز أكثر على تركيب جسم الإنسان ونمط الحركة.
الدمج متعدد الوسائط: دمج سمات الفيديو، وتسلسل النقاط الرئيسية، وحتى الصوت والنص وغيرها من الوسائط المتعددة معًا، لمعالجة سيناريوهات السلوك المعقدة (مثل التفاعل بين عدة أشخاص، والحركات على مستوى الأحداث).

وبالمقابل، تظهر تنوعًا في هياكل النماذج:

اعتمد التعرف على الحركات في المراحل المبكرة بشكل رئيسي على 2D CNN + تجميع زمني أو 3D CNN (مثل I3D وC3D): الأولى تستخرج السمات من كل إطار ثم تقوم بالتجميع أو RNN في البعد الزمني؛ والأخيرة تقوم بالالتفاف ثلاثي الأبعاد مباشرة في المكان والزمان لالتقاط أنماط الحركة قصيرة المدى.
بالنسبة لتسلسلات الهيكل العظمي، الطريقة النموذجية هي شبكة الالتفاف البياني الزمكاني (ST‑GCN): اعتبار النقاط الرئيسية لجسم الإنسان كعقد في تركيب بياني، والاتصالات بين المفاصل كحواف، مع إضافة حواف في البعد الزمني أيضًا، لنشر المعلومات على البيان الزمكاني من خلال الالتفاف البياني، وبالتالي تعلم أنماط الحركة. هذه الطرق خفيفة الوزن ومتينة ضد الخلفية، ومناسبة للنشر على الأجهزة ذات الموارد المحدودة.
في السنوات الأخيرة، برزت نماذج فيديو Transformer (مثل TimeSformer وVideo Swin) بشكل لافت في التعرف على الحركات، حيث تقوم بتقطيع الفيديو إلى رقع زمكانية (spatial‑temporal patches)، وتنمذج الاعتماديات طويلة المدى من خلال آلية الانتباه الذاتي، مما يمكنها من التقاط الحركات المعقدة والتفاعلات متعددة الأهداف بشكل أفضل.

على صعيد الأعمال، غالبًا ما يجتمع التعرف على الحركات مع الكشف والتتبع واكتشاف النقاط الرئيسية لتشكيل نظام تحليل سلوكي شامل:

في الأمن، يتم أولاً اكتشاف الأشخاص وتتبعهم، ثم تصنيف الحركات على تسلسل النقاط الرئيسية لكل مسار، لتحقيق اكتشاف السقوط والتعرف على الشجار/الجري وغيرها؛
في تطبيقات الرياضة واللياقة البدنية، يتم تحليل ما إذا كانت الحركات قياسية والنطاق مناسبًا من خلال تسلسل النقاط الرئيسية، وتقديم اقتراحات تصحيحية؛
في سيناريوهات التفاعل بين الإنسان والحاسوب، يتم إجراء تصنيف خفيف للحركات على تيار الوضعية في الوقت الفعلي، لتحقيق تفاعلات مثل التلويح، وعلامة القلب، وأوامر الإيماءات؛
في السلامة الصناعية، يتم المراقبة المستمرة لحركات العمال التشغيلية، والتعرف على الوضعيات الخطيرة (مثل الانحناء للدخول إلى منطقة خطر، وتجاوز خط الأمان، إلخ).

بالنظر إلى المستقبل، تعمل النماذج الكبيرة متعددة الوسائط على ترقية "التعرف على الحركات" إلى مستوى أعلى من "فهم الأحداث والنوايا": حيث لا يقتصر النموذج على وسم "المشي، الجري، التحدث في الهاتف" فحسب، بل يمكنه أيضًا الإجابة على أوصاف أقرب إلى اللغة اليومية مثل "يبدو أن هذا الشخص يشير لتحية شخص ما" و"هذان الشخصان يتشاجران". ويقف اكتشاف النقاط الرئيسية والتعرف على الحركات في هذا السياق، كدلائل حركية هيكلية مهمة، إلى جانب السمات الظاهرية والتلميحات اللغوية، داعمين معًا قدرات فهم زمكانية أكثر تعقيدًا.

2.6 الكشف بالمفردات المفتوحة / العالم المفتوح / المجال المفتوح

（Open‑Vocabulary / Open‑World / Open‑Domain Detection）

تفترض قدرات الكشف والتقسيم السابقة افتراضيًا مبدأً أساسيًا: أن مجموعة الفئات أثناء التدريب والاستدلال ثابتة. بمعنى أن النموذج يرى "جميع الفئات المطلوب التعرف عليها" بشكل كامل خلال مرحلة التدريب، وفي مرحلة الاستدلال يحتاج فقط إلى الاختيار من بين هذه المجموعة المغلقة من التصنيفات. لكن العالم الحقيقي أكثر تعقيدًا بكثير من مجموعات البيانات: فالمنتجات الجديدة، والعلامات التجارية الجديدة، واللوحات الإرشادية الجديدة، والأنواع الجديدة، والمشاهد الجديدة تظهر باستمرار، ومن المستحيل إعداد بيانات مُعلَّمة كافية لكل فئة جديدة وإعادة تدريب الكاشف. وهذا ما أدى إلى ظهور الكشف بالمفردات المفتوحة / العالم المفتوح / المجال المفتوح: في ظل اقتصار بيانات التدريب على "فئات معروفة" محدودة، يظل النموذج قادرًا أثناء الاستدلال على إدراك وتحديد والتعرف على فئات جديدة غير مرئية، مع الحفاظ على المتانة عند تغير الأنماط البصرية ومجالات التصوير (domain).

يمكنك فهم هذه الطبقة على أنها: إضافة "قدرة المحاذاة والتعميم مع الفضاء اللغوي والعالم المفتوح" فوق الكشف التقليدي. لم يعد النموذج يقتصر على قول "هذا أحد فئات COCO الثمانين"، بل أصبح بإمكانه فهم الأهداف والبحث عنها في فضاء الوصف النصي الحر، مثل "اكتشف جميع 'الأحذية الرياضية الحمراء' في الصورة" أو "حدد جميع 'الأجسام الطائرة الصغيرة المشتبه بها'"، حتى لو لم تظهر هذه الفئات الدقيقة صراحةً في مجموعة التدريب. فيما يلي نستعرض هذه الطبقة من ثلاث زوايا: السيناريوهات، والمبادئ، والنماذج، ثم نفصّل في الأقسام الفرعية الكشف بالمفردات المفتوحة، والكشف بالعالم المفتوح، وتعميم المجال المفتوح.

السيناريوهات
- واجهات الفهم العام للمشهد البرمجية (API): يقدم المستخدم وصفًا نصيًا حرًا (كلمة فئة أو جملة قصيرة)، ويقوم النظام بإرجاع مربعات الكشف أو أقنعة التقسيم للأهداف المطابقة في صور متنوعة الأساليب، مثل "جميع خوذات السلامة في الصورة" أو "جميع شعارات العلامات التجارية المشتبه بها" أو "جميع الأجسام ذات العجلات".
- التعرف على المنتجات / الأنواع على نطاق واسع: المنتجات طويلة الذيل التي تُضاف باستمرار في التجارة الإلكترونية، والعدد الهائل من أنواع الكائنات الحية في الطبيعة — بيانات التدريب لا تغطي سوى جزء من الفئات المعروفة، لكن النظام يحتاج إلى تحديد وتصنيف أولي لعدد هائل من الفئات الجديدة، مع دعم البحث بالنص أو الصورة.
- الأمن / إدراك القيادة الذاتية عبر المجالات: تأتي بيانات التدريب غالبًا من طرق المدن نهارًا / زوايا كاميرات محدودة، بينما يواجه النشر الفعلي مدنًا مختلفة، وريفًا، وطرقًا سريعة، وظروف طقس قاسية، وكاميرات الأشعة تحت الحمراء / عين السمكة وغيرها من "المجالات الجديدة"، التي قد تظهر فيها أهداف جديدة لم تُعلَّم أبدًا في مجموعة التدريب (موديلات سيارات جديدة، مرافق مرورية جديدة، أنواع جديدة من العوائق).
المبادئ يتمثل جوهر هذه الأساليب في استبدال "رأس الفئات الثابت one‑hot" التقليدي بـ فضاء تضمين محاذٍ بين الرؤية واللغة، ومعالجة "الفئات غير المرئية" و"المجالات الجديدة" عبر آليات متعددة:
- الكشف بالمفردات المفتوحة (Open‑Vocabulary Detection): في مرحلة التدريب، يُستخدم التدريب المسبق على أزواج الصور والنصوص واسعة النطاق (image–text pairs) للحصول على فضاء محاذاة مشابه لـ CLIP، بحيث يمكن لمتجهات مناطق الصورة والنصوص أن تتطابق مباشرة في نفس الفضاء الدلالي عبر تشابه جيب التمام؛ لم يعد رأس الكشف يُخرج logit فئات ثابت، بل يُخرج متجه خصائص للمنطقة يُقارن مع أي متجه وصف نصي، مما يدعم "أن يرى التدريب جزءًا فقط من الفئات، بينما يمكن للاستدلال تحديد أي فئة نصية".
- الكشف بالعالم المفتوح (Open‑World Detection): يعالج بشكل إضافي "الفئات الجديدة غير المُعلَّمة إطلاقًا في مجموعة التدريب"، حيث يُطلب من النموذج اكتشاف هذه الأهداف كـ "فئة غير معروفة (unknown)"، ثم دمج هذه الفئات غير المعروفة تدريجيًا في مجموعة الفئات المعروفة من خلال التعليم التفاعلي أو التعلم المستمر، مما يشكل نظام تعلم عبر الإنترنت قابل للتوسع المستمر في الفئات.
- الكشف عبر المجالات / المجال المفتوح (Open‑Domain Detection): في مواجهة التغيرات الكبيرة في أنماط الصور وأجهزة التصوير والظروف البيئية (domain shift)، يتم استخدام تقنيات مثل تكييف المجال (Domain Adaptation) وتعميم المجال (Domain Generalization) للحفاظ على أداء كشف مستقر في المجالات الجديدة غير المرئية؛ تشمل الوسائل الشائعة المحاذاة العدائية للمجالات، والتدريب متعدد المجالات، وعشوائية الأنماط، والتعلم الفوقي (meta‑learning) وغيرها.
- المفردات المفتوحة الموحدة للتقسيم والكشف: توسيع الأفكار السابقة إلى مستوى البكسل، لتوليد أقنعة تقسيم (open‑vocabulary segmentation) لأي وصف نصي، من خلال خسائر محاذاة Region–Word أو Mask–Word، مما يحقق "وصف منطقة / كائن باللغة الطبيعية، والحصول على القناع أو المربع المناسب".
النماذج تدور الخطوط التقنية السائدة حاليًا في الكشف بالمفردات المفتوحة / العالم المفتوح / المجال المفتوح أساسًا حول "التدريب المسبق واسع النطاق للرؤية واللغة + تكييف رأس الكشف + آليات تعميم المجال":
- كاشفات مبنية على CLIP: تعتمد على مُشفِّر صور ومُشفِّر نصوص بأسلوب CLIP كأساس، وتُطبِّق التعلم التبايني وخسائر محاذاة Region–Word بين خصائص المناطق (ROI، وpatch خريطة الخصائص، ومناطق mask) ومتجهات النصوص؛ تشمل التطبيقات النموذجية استبدال أو توسيع رأس التصنيف في معماريات مثل Faster R‑CNN / RetinaNet / YOLO / DETR لإخراج درجات الفئات بطريقة "تشابه جيب التمام + تضمين النص".
- الكشف المعتمد على التوصيف / التلقين النصي (Caption‑driven / Prompt‑based Detection): استخدام بيانات التوصيف الواسعة (caption) لتوليد أوصاف نصية تلقائيًا لمناطق أو أقنعة الصورة، ثم تدريب المحاذاة بين هذه النصوص المُولَّدة ومناطق الكشف / التقسيم، مما يقلل الاعتماد على تصنيفات الفئات اليدوية؛ وفي الاستدلال، يُدار الكشف / التقسيم من خلال التلقين النصي (prompt) مثل "جميع الأشخاص الذين يرتدون الأحمر" أو "جميع المركبات الكهربائية".
- سلسلة أعمال الكشف بالعالم المفتوح: إدخال نمذجة صريحة لـ "الفئة غير المعروفة (unknown)"، والتوسع التدريجي للفئات، وآليات التعلم التزايدي في أطر الكشف التقليدية؛ بعض الأساليب تحدد "ما إذا كان هدفًا غير معروف" من خلال مسافة الفضاء المتري وتقدير عدم اليقين، بينما تقدم أساليب أخرى بنوك ذاكرة وإعادة تدريب عبر الإنترنت لتراكم معرفة الفئات الجديدة مع الوقت.
- كشف تكييف المجال / تعميم المجال: إضافة وحدات مثل مميز المجال، والخسائر العدائية، وتطبيع الدفعات متعدد المجالات (multi‑domain batch normalization)، وتعزيز عشوائية الأنماط على مستوى العمود الفقري (Backbone) ورأس الكشف، لجعل الكاشف يتعلم تمثيلات أكثر ثباتًا عبر المجالات؛ كما توجد أعمال تقدم تدريبًا متعدد المصادر واستراتيجيات تعلم فوقي على أطر كشف Transformer (مثل Deformable DETR) لتحسين قدرة التعميم عبر المجالات.
- نماذج الكشف العامة / الأساسية (Foundation Detection Models): رفع مشكلة الكشف إلى مستوى "النموذج الأساسي"، عبر التدريب المسبق لنموذج أساسي للكشف (Detection Foundation Model) عام قدر الإمكان من حيث الفئات والمجالات، ثم تكييفه للمشاهد المحددة من خلال الضبط الدقيق الخفيف أو التلقين النصي؛ تجمع هذه النماذج عادةً بين التعليقات التوضيحية واسعة النطاق للكشف، وأزواج الصور والنصوص متعددة المصادر، وحتى بيانات الفيديو، بهدف جعل الفهم العام لـ "أي نص + أي صورة بأي نمط" أمرًا ممكنًا.

على صعيد المنتج الفعلي، يتجلى الكشف بالمفردات المفتوحة / العالم المفتوح / المجال المفتوح غالبًا كواجهة بصرية "أكثر طبيعية وأقل قيودًا": لا يحتاج المستخدم إلى الاتفاق مسبقًا على مجموعة صغيرة من التصنيفات الثابتة، بل يمكنه وصف الهدف المطلوب باللغة الطبيعية؛ كما لا يحتاج النظام إلى إعادة تدريب الكاشف من الصفر لكل سيناريو عمل، بل يعتمد على نموذج عام موحد، ويتكيف بسرعة من خلال التلقين النصي (prompt) أو عدد قليل من العينات. بالنسبة لسيناريوهات التعرف على المنتجات / الأنواع على نطاق واسع، وأنظمة الأمن وإدراك القيادة الذاتية المنشورة عالميًا، أصبحت هذه الطبقة من القدرات نقطة انطلاق حاسمة للانتقال من "أداء مجموعات البيانات المغلقة" إلى "قابلية الاستخدام في العالم المفتوح الحقيقي".

2.6.1 الكشف بالمفردات المفتوحة: من رأس الفئات الثابت إلى فضاء الفئات المدفوع بالنص

ينطلق الكشف بالمفردات المفتوحة (Open‑Vocabulary Detection) من تجاوز قيود "رأس الفئات الثابت" في الكشف التقليدي. فالكاشفات السابقة كانت تُوصَّل في أعلاها بطبقة تصنيف ثابتة الحجم (تقابل N فئة في مجموعة التدريب)، ولا يمكنها بعد التدريب سوى الاختيار من بين هذه الفئات N؛ أما الكشف بالمفردات المفتوحة فيحقق ذلك من خلال إدخال مُشفِّر النصوص، وفضاء التضمين الدلالي المشترك، مما يسمح لخصائص المناطق التي يُخرجها رأس الكشف بالمقارنة التشابهية مع أي وصف نصي، وبالتالي استيعاب فئات جديدة غير مرئية أثناء الاستدلال.

النهج النموذجي هو استخدام نموذج تدريب مسبق للرؤية واللغة مشابه لـ CLIP:

جانب النص: ترميز أسماء الفئات أو الأوصاف النصية (مثل "person" و"red sports car" و"yellow construction helmet") للحصول على متجهات نصية.
جانب الرؤية: داخل إطار الكشف (Faster R‑CNN، RetinaNet، YOLO، DETR وغيرها)، استخراج متجهات خصائص لكل منطقة مرشحة أو نقطة خصائص.
تدريب المحاذاة: من خلال خسائر التباين وخسائر محاذاة Region–Word، جعل الخصائص النصية والمناطقية لنفس الدلالة تتقارب في فضاء التضمين، وتباعد المتجهات ذات الدلالات المختلفة. حتى لو قدم التدريب تعليقات توضيحية صريحة بالمربعات لجزء فقط من الفئات، يمكن توسيع التغطية الدلالية باستخدام أزواج الصور والنصوص أو توصيفات الصور (caption).

في مرحلة الاستدلال، لم يعد النظام يعتمد على مجموعة ثابتة من أسماء الفئات المحددة أثناء التدريب، بل يسمح للمستخدم بتقديم أي كلمة فئة أو وصف نصي عبر الإنترنت، وتحويله إلى تضمين عبر مُشفِّر النصوص، ثم مطابقته بالتشابه مع خصائص المناطق. وهذا يمكّن الكاشف من دعم متطلبات مرنة مثل "اكتشف جميع ألواح التزلج" و"اكتشف جميع النباتات الخضراء" و"اكتشف جميع المعدات المتعلقة بالسلامة" دون إعادة تدريب، حتى لو لم تظهر بعض الفئات المحددة كاملة التعليقات في مجموعة التدريب، طالما أن هناك تداخلًا دلاليًا مع فضاء الصور والنصوص المُدرَّب مسبقًا.

في الممارسة الهندسية، يحتاج الكشف بالمفردات المفتوحة إلى التوازن بين الفعالية والكفاءة: من جهة، الحفاظ على المحاذاة الدلالية مع العمود الفقري (Backbone) للرؤية واللغة المُدرَّب مسبقًا واسع النطاق؛ ومن جهة أخرى، تلبية متطلبات تعدد المقاييس والزمن الحقيقي لمهمة الكشف. غالبًا ما تعتمد الكاشفات المبنية على CLIP أسلوب "الحساب المسبق لتضمين النص + حساب تشابه المتجهات بكفاءة"، لتجنب ترميز النص بشكل متكرر في الخدمة عبر الإنترنت، مع تكميم أو تقطير خصائص المناطق لتحقيق التوازن بين الدقة وسرعة الاستدلال.

2.6.2 الكشف بالعالم المفتوح: من "الفئات غير المرئية" إلى "المجهول القابل للتعلم"

يذهب الكشف بالعالم المفتوح (Open‑World Detection) إلى أبعد من الكشف بالمفردات المفتوحة، حيث يطالب النموذج بمعالجة "الفئات غير المعروفة" صراحةً: بيانات التدريب تحتوي على تعليقات لجزء فقط من الفئات، بينما بقية الأجسام إما غير مُعلَّمة أو تُعامل كخلفية؛ وفي الاستدلال، يجب ألا تُعامل هذه "الأجسام الحقيقية غير المُعلَّمة" ببساطة كخلفية، ولا أن تُصنَّف خطأً ضمن فئة معروفة، بل يجب اكتشافها كـ "فئة غير معروفة (unknown)" مع إمكانية تحويلها لاحقًا إلى "فئة معروفة جديدة".

من ناحية النمذجة، يحتاج الكشف بالعالم المفتوح عادةً إلى حل ثلاث مشكلات:

إدراك الفئات غير المعروفة: كيف نتجنب أن يتعلم النموذج جميع الأهداف غير المُعلَّمة كـ "خلفية" أثناء التدريب؟ تشمل الممارسات الشائعة: إدخال خانة صريحة لـ "الفئة غير المعروفة"، وجعل النموذج يتعلم إخراج "unknown" في المناطق منخفضة الثقة من خلال التنقيب السلبي ونمذجة عدم اليقين؛ أو استخدام البيانات غير المُعلَّمة وآليات الإشراف الذاتي لتجميع وتوليد تصنيفات وهمية (pseudo‑labels) لمناطق الأهداف المحتملة عالية الثقة.
التحكم في التصنيف الخاطئ: يحتاج النموذج إلى الموازنة بين "تفضيل الحكم بـ unknown على التصنيف الخاطئ ضمن فئة معروفة خاطئة"، وهذا يتضمن تصميم الخسارة (مثل الهامش margin، والتمييز مفتوح المجموعة)، وعتبات القرار، واستراتيجيات ما بعد المعالجة.
التوسع التدريجي للفئات: عندما يقوم فريق العمل بتعليق يدوي لفئة جديدة لمجموعة من أهداف "unknown"، يجب أن يكون النموذج قادرًا على دمج هذه الفئات الجديدة في مجموعة "الفئات المعروفة" من خلال التعلم التزايدي، دون نسيان كبير للفئات القديمة. ولهذا الغرض، تقدم العديد من الأعمال بنوك ذاكرة، وخسائر تقطير، وعزل المعاملات، أو آليات إعادة التشغيل، لتحقيق استيعاب مستقر للفئات الجديدة.

من منظور المنتج، يناسب الكشف بالعالم المفتوح بشكل خاص السيناريوهات التي تتزايد فيها الفئات باستمرار ويكون الذيل الطويل شديدًا للغاية، مثل التعرف على الأنواع الطبيعية، والتعرف على المنتجات الجديدة سريعة الظهور في التجارة الإلكترونية، واكتشاف الأهداف الشاذة في سيناريوهات الأمن المعقدة. يمكن للنظام أولاً استخدام الكشف بالعالم المفتوح لوضع علامة على "أي هدف مشبوه غير خلفية"، ثم الترقية التدريجية للتجمعات القيّمة إلى فئات رسمية من خلال التعليق اليدوي أو شبه التلقائي، مما يشكل نظام كشف "تنمو فئاته باستمرار"، بدلاً من أن يكون مقيدًا بمجموعة بيانات ثابتة.

2.6.3 الكشف بالمجال المفتوح / التوزيع المفتوح: المتانة عبر الأنماط والأجهزة والمشاهد

حتى لو بقيت مجموعة الفئات دون تغيير، سيظل الكاشف يواجه في النشر الحقيقي انزياحًا حادًا في المجال (Domain Shift): قد تأتي بيانات التدريب من كاميرات عالية الدقة نهارًا في مدن قليلة، بينما تشمل بيئة النشر دولًا مختلفة، وريفًا، وطرقًا سريعة، وأنفاقًا، وليلًا، وأمطارًا وثلوجًا، وكاميرات منخفضة الدقة، وعدسات عين السمكة، وحتى تصويرًا بالأشعة تحت الحمراء؛ كما توجد فجوة هائلة بين تصوير منتجات التجارة الإلكترونية وصور المستخدمين الحقيقية، وبين الصور الإعلانية / الرسوم التوضيحية / أنماط الأنمي. يهتم الكشف بالمجال المفتوح (Open‑Domain Detection) تحديدًا بـ: الحفاظ على أداء كشف مستقر وموثوق في ظل تغير توزيع الصور بشكل كبير.

تشمل المسارات التقنية النموذجية:

تكييف المجال (Domain Adaptation): بوجود بيانات غير مُعلَّمة أو قليلة التعليقات من المجال الهدف، يتم استخدام المحاذاة العدائية للمجال (إرباك مجال المصدر / الهدف في فضاء الخصائص)، والمحاذاة متعددة المستويات (نمط الصورة، الخصائص، مخرجات رأس الكشف)، ونقل النمط (مثل نقل نمط صور المصدر إلى المجال الهدف) لتمكين النموذج من تعلم خصائص غير حساسة للمجال.
تعميم المجال (Domain Generalization): في ظل وجود بيانات من مجالات مصدر متعددة فقط دون بيانات المجال الهدف، يتم استخدام التدريب متعدد المجالات، وعشوائية الأنماط، واضطراب الخصائص، والتعلم الفوقي وغيرها من الوسائل، لتعريض النموذج لأكبر قدر ممكن من التوزيعات المتنوعة أثناء التدريب، مما يعزز قدرة التعميم على المجالات الجديدة غير المعروفة.
نماذج الكشف العامة / الأساسية: من خلال التدريب المسبق للعمود الفقري (Backbone) وهياكل رأس الكشف على بيانات واسعة النطاق ومتعددة المصادر والأنماط (بما في ذلك الصور الطبيعية، وإطارات الفيديو، والبيانات التركيبية، والبيانات عبر الوسائط وغيرها)، ثم الضبط الدقيق الخفيف في سيناريو العمل المحدد، للحصول على متانة في المجال المفتوح أقوى من "التدريب أحادي المجال".

غالبًا ما تتداخل آليات المجال المفتوح هذه مع قدرات المفردات المفتوحة / العالم المفتوح: فنظام الكشف العام الموجه للعالم الحقيقي يحتاج إلى أن يفهم أوصاف الفئات باللغة الطبيعية من المستخدم (المفردات المفتوحة)، وأن يقدم حكمًا معقولاً بـ "غير معروف" للأهداف الجديدة الظاهرة ويستوعبها تدريجيًا (العالم المفتوح)، وأن يحافظ على الأداء عبر مختلف الدول والأجهزة والظروف الجوية والأنماط (المجال المفتوح). في التطبيق الهندسي، هذه الثلاثة ليست اتجاهات بحثية منعزلة عن بعضها، بل تشكل معًا تركيبة القدرات الأساسية للانتقال من "المعايير المغلقة" إلى "قابلية الاستخدام في العالم المفتوح".

2.7 مهام الرؤية-اللغة (Vision–Language Tasks)

ركّزت الفصول السابقة بشكل أساسي على "الرؤية أحادية النمط": حيث يكون المدخل صورة واحدة، والمخرج عبارة عن مربعات كشف، أو أقنعة تجزئة، أو تسميات فئات، أو درجات جودة. لكن في العديد من التطبيقات الواقعية، لا توجد المعلومات البصرية بمعزل عن غيرها — فالصورة غالبًا ما تكون مصحوبة بعنوان، أو نص وصفي، أو حوار، أو استعلام بحث؛ ويريد المستخدم أن يعرف "ما الذي تحكيه الصورة" أو "ما إذا كانت هذه الصورة تطابق هذه الجملة". مهام الرؤية-اللغة هي بالضبط ما يعالج هذا النوع من المشكلات: فهي تأخذ صورة + نصًا كمدخل أو مخرج، ومن خلال المحاذاة عبر الأنماط والنمذجة المشتركة، تمكّن النظام من "التحدث عن الصور"، و"الإجابة عن الأسئلة حول الصور"، و"البحث عن الصور بالنص / البحث عن النص بالصورة".

من منظور المنتج، تُعد نماذج الرؤية-اللغة (VLM) القدرة المحورية لأنظمة متعددة الأنماط: تعتمد عليها محركات البحث لتحقيق "البحث عن الصور بالنص / البحث عن النص بالصورة"؛ وتستخدمها منصات المحتوى للمطابقة الذكية للصور، ومراجعة الإعلانات، والتحقق من اتساق النص مع الصورة؛ كما يعتمد عليها المساعدون متعددو الأنماط كقدرة أساسية لتحقيق وظائف مثل "الدردشة حول الصور" و"طرح الأسئلة على المستندات/لقطات الشاشة". فيما يلي، ننظم هذه الطبقة من ثلاث زوايا: السيناريوهات، والمبادئ، والنماذج، ثم نستعرض بالتفصيل في الأقسام الفرعية اللاحقة وصف الصور، والإجابة البصرية عن الأسئلة، واسترجاع النص والصورة.

السيناريوهات
- وصف الصور (Image Captioning): إنشاء وصف تلقائي من جملة أو جملتين باللغة الطبيعية للصورة، يُستخدم في القراءة المساعدة لإمكانية الوصول، والعناوين التلقائية للألبومات الذكية، وإثراء فهارس البحث.
- الإجابة البصرية عن الأسئلة (VQA): يطرح المستخدم أسئلة باللغة الطبيعية حول الصورة ("ماذا يحمل هذا الشخص؟"، "ما هو رقم لوحة السيارة؟")، ويقدم النظام إجابة دقيقة، ويمكن استخدامه في التعليم، ودعم القرار، والمساعدين متعددي الأنماط.
- الاسترجاج عبر الأنماط (Cross‑modal Retrieval): استرجاع الصور ذات الصلة باستخدام النص (Text‑to‑Image)، واسترجاع النصوص ذات الصلة باستخدام الصورة (Image‑to‑Text)، مما يدعم البحث "بالنص عن الصور / بالصورة عن النص"، واختيار الصور الإبداعية، ومراجعة الإعلانات.
- اتساق النص مع الصورة والمراجعة: الحكم على ما إذا كانت الصورة تتطابق مع العنوان/نص الإعلان، وما إذا كانت هناك مخاطر مثل "عدم تطابق النص مع الصورة" أو "الوصف المضلل"، ويُستخدم في مراجعة المحتوى وسلامة العلامة التجارية.
المبادئ السؤال الجوهري هو: كيفية تعيين الصور والنصوص إلى نفس الفضاء الدلالي، وإجراء المحاذاة والاستدلال داخل هذا الفضاء:
- المحاذاة عبر الأنماط: من خلال التدريب المشترك لمشفّر الصور ومشفّر النصوص، يتم تقريب أزواج "الصورة-النص" المتطابقة من بعضها البعض في فضاء التمثيل، وإبعاد الأزواج غير ذات الصلة عن بعضها البعض (مثال نموذجي: CLIP)؛ وهذا يوفر الأساس للاسترجاع والمطابقة.
- الفهم والتوليد المشترك: بناءً على التمثيلات المحاذية، يتم إدخال الانتباه عبر الأنماط، مما يسمح لنموذج اللغة بتوليد النص (وصف الصورة)، والاستدلال، والإجابة عن الأسئلة (VQA) مع "النظر" إلى ميزات الصورة.
- التوجيه والتعليم: استخدام تعليمات اللغة الطبيعية لتوحيد وصف مهام الرؤية-اللغة المتعددة ("اكتب عنوانًا لهذه الصورة"، "أجب عن سؤال حول هذه الصورة"، "حدد ما إذا كان هذا النص يصف الصورة")، مما يسمح لنموذج واحد بإنجاز مهام متعددة من خلال توجيهات مختلفة.
النماذج تطورت نماذج الرؤية-اللغة السائدة تقريبًا إلى فئتين: نماذج VLM بالتعلم التقابلي والنماذج الكبيرة التوليدية متعددة الأنماط:
- نماذج التعلم التقابلي: مثل CLIP وALIGN وغيرها، تقوم بترميز الصور والنصوص إلى متجهات بشكل منفصل، ومن خلال التدريب على أزواج الصورة-النص واسعة النطاق، تؤدي أداءً ممتازًا في مهام الاسترجاع والمطابقة، وهي أساس "البحث عن الصور بالنص / البحث عن النص بالصورة".
- نماذج توليد الرؤية-اللغة: مثل BLIP / BLIP‑2 وFlamingo وKosmos وLLaVA وغيرها، تربط مشفّر الرؤية بنموذج اللغة الكبير (LLM)، ومن خلال الانتباه عبر الأنماط والضبط بالتعليمات، تدعم مهامًا معقدة مثل وصف الصور، وVQA، والحوار متعدد الجولات.
- النماذج الكبيرة العامة متعددة الأنماط: مثل GPT‑4.1 with Vision وGemini 1.5 وغيرها، توحّد الرؤية مع أنماط أخرى (الصوت، الكود، إلخ) في نموذج كبير واحد، وتوفر واجهة موحدة لإنجاز الاسترجاع، والإجابة عن الأسئلة، والاستدلال، والتوليد.

بشكل عام، تشير مهام الرؤية-اللغة إلى أن "الرؤية لم تعد قناة إدراك منفصلة"، بل تشارك مع اللغة في تمثيل المعرفة والاستدلال على مستوى أعلى. فيما يلي، ننطلق من اتجاهين: وصف الصور والإجابة البصرية عن الأسئلة، والاسترجاع عبر الأنماط والمحاذاة عبر الأنماط (تم دمجهما هنا في قسمين فرعيين وفقًا للمحتوى).

2.7.1 وصف الصور والإجابة البصرية عن الأسئلة: من "التحدث عن الصور" إلى "الاستدلال على الصور"

هدف وصف الصور (Image Captioning) هو إدخال صورة وإخراج وصف باللغة الطبيعية، مثل "فتاة صغيرة تطير طائرة ورقية على العشب". تستخدم الطرق التقليدية عادةً بنية "CNN + RNN": استخراج ميزات الصورة الكاملة باستخدام شبكة التفافية، ثم توليد الوصف كلمة بكلمة باستخدام LSTM/GRU؛ ومع ظهور Transformer ونماذج VLM المُدرّبة مسبقًا، تحول النموذج السائد تدريجيًا إلى بنية "مشفّر الصور + مفكّك النصوص"، مثل BLIP / BLIP‑2 وViT + GPT وغيرها. من حيث التدريب، تُدرّب النماذج عادةً بتدريب ذاتي الانحدار على عدد كبير من أزواج الصورة-النص، وأحيانًا تُستخدم خسائر التعلم المعزز أو الخسائر التقابلية لتحسين تنوع الوصف وصحته. على مستوى المنتج، يُستخدم وصف الصور على نطاق واسع في القراءة المساعدة لإمكانية الوصول (توليد أوصاف الصور لبرامج قراءة الشاشة للمكفوفين)، والعناوين التلقائية للألبومات الذكية، وتوفير المزيد من الفهرسة النصية لأنظمة البحث.

الإجابة البصرية عن الأسئلة (VQA) تذهب خطوة أبعد بإدخال التفاعل البشري: لم يعد مدخل النموذج "صورة + موجه فارغ"، بل "صورة + سؤال"، والمخرج هو إجابة قصيرة أو شرح باللغة الطبيعية. بالمقارنة مع وصف الصور، تركز VQA بشكل أكبر على قابلية التحكم والقدرة على الاستدلال: يمكن أن يركز السؤال على التفاصيل المحلية ("ما لون قبعة الرجل؟")، أو العلاقات ("أي سيارة أقرب إلى التقاطع؟")، أو العد ("كم عدد الكلاب؟")، وقد يتطلب حتى معرفة خارجية ("إلى أي مطبخ ينتمي هذا الطبق؟"). استخدمت نماذج VQA المبكرة عادةً مشفّر صور + مشفّر أسئلة + وحدة دمج (مثل التجميع ثنائي الخط، والانتباه) + رأس تصنيف، لإخراج إجابة من مفردات محدودة؛ أما النماذج الكبيرة الحديثة متعددة الأنماط فتستخدم مباشرة مشفّر صور + LLM، وتقوم بتوليد اللغة الطبيعية بناءً على "رؤية" الصورة، مع تفوق واضح في الإجابات المفتوحة والحوار متعدد الجولات.

يمكن اعتبار كليهما "قوالب توجيه" مختلفة ضمن إطار VQA الموحد:

Captioning: <صورة> + "Describe this image in one sentence." → نص؛
VQA: <صورة> + "Q: ... A:" → نص.

من خلال الضبط بالتعليمات (Instruction Tuning)، يمكن لنفس النموذج الكبير متعدد الأنماط أن يكون متوافقًا مع مهام متعددة مثل الوصف، والإجابة عن الأسئلة، والشرح، والوسم، وهذا هو النهج الهندسي الأساسي لمنتجات VLM الحديثة (المساعدين متعددي الأنماط، وروبوتات الإجابة البصرية عن الأسئلة، إلخ).

2.7.2 الاسترجاع عبر الأنماط والمحاذاة عبر الأنماط: البحث عن الصور بالنص والبحث عن النص بالصورة

يعالج الاسترجاع عبر الأنماط (Cross‑modal Retrieval) حاجة شائعة أخرى: بالنظر إلى نص معين، ابحث عن الصور المطابقة (Text‑to‑Image Retrieval)؛ أو بالنظر إلى صورة، ابحث عن الأوصاف النصية ذات الصلة، أو معلومات المنتج، أو التقارير الإخبارية، إلخ (Image‑to‑Text Retrieval). تشكل هذه القدرات جوهر منتجات مثل "البحث عن الصور بالنص / البحث عن النص بالصورة"، و"البحث عن المنتجات بالصورة"، و"إرفاق الصور بالأخبار".

التقنية الأساسية هي المحاذاة عبر الأنماط: النماذج التي تمثلها CLIP تستخدم مشفّرات منفصلة للصور والنصوص (مثل ViT ومشفّر نصوص Transformer)، وتتدرب باستخدام التعلم التقابلي على بيانات واسعة النطاق من أزواج الصورة-النص:

بالنسبة للزوج المتطابق (صورة، نص)، تقرّب متجهاتهما من بعضها البعض في فضاء التضمين؛
بالنسبة لأزواج الصورة-النص غير المتطابقة، تُبعد متجهاتها عن بعضها البعض.

بعد اكتمال التدريب، يكفي ترميز جميع الصور والنصوص إلى متجهات، ومن ثم يمكن إجراء مطابقة سريعة في الفضاء المشترك من خلال استرجاع المتجهات (البحث عن أقرب الجيران):

Text‑to‑Image: نص → متجه النص → أقرب متجه صورة؛
Image‑to‑Text: صورة → متجه الصورة → أقرب متجه نص.

في الممارسة الهندسية، تعتمد هذه النماذج عادةً على بنية من مرحلتين:

المرحلة الأولى تستخدم مشفّرًا مزدوجًا خفيفًا وسريعًا (Bi‑Encoder، مثل CLIP) للاسترجاع التقريبي، لتصفية مجموعة صغيرة من المرشحين بسرعة من مكتبة صور بمئات الملايين؛
المرحلة الثانية يمكن أن تستخدم مشفّرًا متقاطعًا أقوى (Cross‑Encoder) أو نموذجًا كبيرًا متعدد الأنماط لإعادة الترتيب الدقيق للمرشحين، لتحسين الصلة والمتانة.

على مستوى المنتج، يُستخدم الاسترجاع عبر الأنماط والمحاذاة عبر الأنماط على نطاق واسع في: البحث عن الصور، واسترجاع الإعلانات (العثور على الصور المناسبة بناءً على نص الإعلان)، ومراجعة الامتثال (التحقق من اتساق نص الإعلان مع الصورة)، وتوصية المحتوى (توصية الصور/الفيديوهات ذات الصلة للمستخدمين بناءً على سجل النصوص المقروءة)، وغيرها. مع صعود النماذج الكبيرة متعددة الأنماط، يتم توحيد قدرات الاسترجاع هذه تدريجيًا في أطر أكبر متعددة الأنماط، لتقديم واجهة موحدة خارجيًا على شكل "تعليمات اللغة الطبيعية + ذاكرة/مكتبة متجهات متعددة الأنماط".

2.8 التعرف البصري على الأحرف (OCR)

في العديد من الأعمال، لا تتجلى أهم المعلومات في "الأشياء والمشاهد داخل الصورة"، ولا في وصف الصورة باللغة الطبيعية، بل في النصوص المكتوبة مباشرة على الصورة: بنود العقود، مبالغ الفواتير، أسماء اللافتات، قراءات العدادات، رسائل الخطأ على لقطات الشاشة، إلخ. يتمحور التعرف البصري على الأحرف (OCR) حول مهمة الفهم الهيكلي "للصورة + تخطيط المستند": الكشف التلقائي عن المحتوى النصي والتعرف عليه من المدخلات البصرية المعقدة، وفهم تخطيط المستند وبنيته، مما يدعم البحث والإحصاء والإدخال التلقائي والإجابة الذكية على الأسئلة.

من منظور المنتج، يُعد OCR الجسر الرئيسي "لتحويل المعلومات الورقية/البصرية إلى نصوص قابلة للحوسبة"، وهو البنية التحتية للرقمنة والأتمتة والمكاتب الذكية: مراجعة العقود، قيد الفواتير، رقمنة الأرشيفات الحكومية والمؤسسية، تحويل PDF إلى Word في البرامج المكتبية، مساعدي الإجابة على أسئلة المستندات، كلها مبنية على قدرات OCR. فيما يلي تنظيم لمنظومة OCR من ثلاثة زوايا: السيناريوهات، والمبادئ، والنماذج، مع تفصيل الاتجاهات الأساسية في الأقسام الفرعية اللاحقة.

السيناريوهات
- التعرف على النصوص في المشاهد: لافتات المتاجر في الشوارع، علامات الطرق، اللوحات الإعلانية، نصوص أغلفة المنتجات، وغيرها، تُستخدم للملاحة والبحث ورؤى البيع بالتجزئة والتدقيق الامتثالي.
- OCR للمستندات: التعرف على النصوص وهيكلتها من المستندات الممسوحة ضوئيًا، الفاكسات، ملفات PDF، صور العقود/الفواتير/التقارير، واستعادتها كنصوص قابلة للتحرير.
- سيناريوهات متخصصة: التعرف على لوحات المركبات، قراءة العدادات (عدادات الكهرباء والمياه والغاز)، استخراج النصوص من لقطات الشاشة، التعرف على نماذج الاختبارات/الاستمارات، إلخ.
- فهم المستندات: استخراج العناوين والفقرات والجداول والتعليقات وغيرها من الهياكل في المستندات الطويلة ذات التخطيط المعقد، مما يضع الأساس للبحث والتلخيص والإجابة على الأسئلة.
المبادئ تتكون منظومة OCR عادة من عدة خطوات رئيسية:
- كشف النص: اكتشاف جميع مناطق النص (أسطر أو كتل نصية) في الصورة، وإخراج مربعات تحديد المواقع (أفقية أو مضلعات رباعية النقاط)، وهي مدخلات مرحلة التعرف اللاحقة.
- التعرف على النص: إجراء التعرف التسلسلي على كل منطقة نص مكتشفة، وتحويل تسلسل البكسلات إلى تسلسل أحرف (مثل الصينية والإنجليزية والأرقام والرموز، إلخ).
- تحليل التخطيط (Layout Analysis): في سيناريوهات المستندات، التعرف على دور كل منطقة (عنوان، نص أساسي، صورة، جدول، رأس/تذييل الصفحة، إلخ)، واستعادة ترتيب القراءة والتسلسل الهرمي.
- التعرف على بنية الجداول: إجراء تقسيم الصفوف والأعمدة لمناطق الجداول، وتحليل حدود الخلايا، واستعادة الخلايا المدمجة، وإعادة بناء بنية الجدول المنطقية.
- الإجابة على أسئلة المستندات (DocVQA): بناءً على OCR وفهم التخطيط، تمكين النموذج من الإجابة على أسئلة مثل "ما هو تاريخ استحقاق الدفع في هذا العقد؟" و"ما هو مبلغ الفاتورة؟" وهي أسئلة تتطلب استدلالًا متعدد المناطق والخطوات.
النماذج من الناحية الهندسية، الشائع هو توليفة "وحدات OCR متخصصة + نموذج فهم المستندات + نموذج كبير متعدد الوسائط":
- كشف النص والتعرف عليه:
  - الكشف: EAST، DBNet/DBNet++ وغيرها من الطرق القائمة على التجزئة أو تعلم الحواف، بارعة في التعامل مع النصوص المنحنية والخلفيات المعقدة؛
  - التعرف: CRNN، RARE، SAR وغيرها من النماذج التسلسلية (CNN + RNN/Attention + CTC أو فك التشفير ذاتي الانحدار)، تدعم لغات متعددة وخطوطًا متعددة.
- تخطيط المستندات وفهم البنية:
  - LayoutLM / LayoutLMv2/v3، DocFormer وغيرها، تقوم بترميز محتوى النص (token) ومعلومات الموقع (bounding box) والخصائص البصرية بشكل مشترك؛
  - نماذج "فهم المستندات من طرف إلى طرف" مثل Donut، تنتقل مباشرة من الصورة إلى مخرجات مهيكلة (مثل JSON / Markdown)، مما يضعف حدود OCR التقليدي.
- الإجابة على أسئلة المستندات والفهم متعدد الوسائط:
  - بناءً على نماذج التخطيط، إضافة رؤوس مهام لإجراء DocVQA؛
  - أو استخدام النماذج الكبيرة متعددة الوسائط (VLM) مباشرة لقراءة صور المستندات، وإكمال الإجابة على الأسئلة والتلخيص على مستوى اللغة الطبيعية، مع الاستفادة الضمنية من قدرات OCR.

بشكل عام، تطور OCR من "التعرف البسيط على الأحرف" في البداية إلى منظومة متكاملة لفهم المستندات تغطي النص + التخطيط + البنية + الإجابة على الأسئلة، وهو ركيزة أساسية للرقمنة المؤسسية وإدارة الأرشيفات الحكومية والمكاتب الذكية. فيما يلي، ننطلق من ثلاثة اتجاهات: كشف النص والتعرف عليه، وتحليل تخطيط المستندات وبنية الجداول، والإجابة على أسئلة المستندات وDocVQA متعدد الوسائط.

2.8.1 كشف النص والتعرف عليه: من البكسلات إلى نصوص قابلة للاستخدام

الخطوة الأولى في OCR هي كشف النص: العثور على جميع المناطق التي تحتوي على نصوص في الصورة المدخلة. تواجه نصوص المشاهد/الشوارع تحديات مثل تنوع الخطوط، الميل والالتواء، الإضاءة المعقدة، والتداخل الشديد مع الخلفية؛ بينما تركز سيناريوهات المستندات على الدعم القوي للنصوص الكثيفة والتخطيط متعدد الأعمدة. طرق مثل EAST وDBNet تحول مشكلة الكشف إلى "تجزئة على مستوى البكسل + تعلم الحواف"، حيث تتنبأ باحتمالية النص والمعاملات الهندسية على خريطة المعالم، ثم تحصل على مربعات نص دقيقة (يمكن أن تكون أفقية أو رباعيات/مضلعات عشوائية) من خلال المعالجة اللاحقة، محققة توازنًا بين الدقة والسرعة.

أما التعرف على النص فيقوم بقص كل منطقة نص مكتشفة وتحويلها إلى تسلسل أحرف. النهج الكلاسيكي يتمثل في CRNN: استخراج المعالم أولاً باستخدام CNN، ثم نمذجة التسلسل عبر RNN أو Transformer، وأخيرًا استخدام CTC أو فك التشفير بالانتباه لإخراج تسلسل الأحرف. بالنسبة للنصوص ذات الطول المتغير، والنصوص المنحنية، واللغات المعقدة (المزج بين الصينية والإنجليزية، تعدد اللغات)، يحتاج نموذج التعرف إلى التفوق في كل من نمذجة الخصائص البصرية ونمذجة لغة الأحرف. طرق مثل RARE وSAR تُدخل شبكات التحويل المكاني (STN) أو آليات محاذاة الانتباه لتصحيح التشوهات الهندسية وتعزيز القدرة على التكيف مع التخطيطات المعقدة.

في الأنظمة الهندسية، عادة ما يعمل الكشف والتعرف كخدمتين منفصلتين تشكلان خط أنابيب OCR: الكشف في الواجهة الأمامية يقسم الصورة إلى أسطر/كتل نصية، والتعرف في الخلفية يقوم بالتعرف على الأحرف لكل كتلة، ويمكن إضافة نموذج لغة لتصحيح الأخطاء (مثل تصحيح الإملاء، التحقق من الأرقام/المبالغ). بالنسبة لسيناريوهات محددة مثل لوحات المركبات وقراءة العدادات، تُستخدم نماذج كشف/تعرف مضبوطة خصيصًا للاستفادة من المعرفة المسبقة بالسيناريو (خط ثابت، مجموعة أحرف محدودة) للحصول على دقة أعلى وزمن انتقال أقل.

2.8.2 تحليل تخطيط المستندات وبنية الجداول: استعادة "شكل المستند"

مجرد التعرف على النصوص ليس كافيًا، خاصة في سيناريوهات المستندات الطويلة والتقارير والعقود والفواتير، حيث تحدد بنية التخطيط غالبًا معنى المعلومات وأهميتها: العلاقة الهرمية بين العناوين والنصوص الأساسية، مواقع الرسوم البيانية والنصوص المصاحبة، دور رؤوس وتذييلات الصفحات، الترتيب المنطقي للنصوص داخل الجداول وخارجها، إلخ. الهدف من تحليل تخطيط المستندات (Document Layout Analysis) هو التعرف على أدوار وحدود المناطق المختلفة على الصفحة ثنائية الأبعاد، واستعادة ترتيب قراءة معقول وبنية هرمية.

نماذج مثل LayoutLM / LayoutLMv2/v3 وDocFormer تقوم بترميز محتوى كل token نصي (text embedding) وموقعه المكاني (إحداثيات bounding box) والخصائص البصرية المحلية (من CNN/ViT) بشكل مشترك، وتنمذج العلاقات الدلالية-المكانية بين الرموز عبر Transformer. من خلال التدريب على مجموعات بيانات معنونة بالتخطيط، يمكن للنموذج تعلم التمييز بين أنواع متعددة من المناطق مثل "عنوان/فقرة/قائمة/جدول/وصف صورة/رأس/تذييل الصفحة"، وإعطاء تسميات ومستويات هرمية مقابلة في المخرجات. تعمل هذه النماذج عادة "كطبقة وسطى"، توفر هيكلًا عظميًا منظمًا للمستندات لأنظمة مراجعة العقود، وتحليل التقارير، ومنصات رقمنة الأرشيفات.

التعرف على بنية الجداول (Table Structure Recognition) هو فرع بالغ الأهمية ضمن تحليل التخطيط: فهو لا يقتصر على كشف منطقة الجدول فحسب، بل يتطلب أيضًا تحليل حدود الصفوف والأعمدة، وإحداثيات الخلايا، والخلايا المدمجة، وإعادة بناء جدول منطقي في النهاية (يمثل عادة بصيغة HTML، أو جدول Markdown، أو JSON مهيكل بالإحداثيات). تشمل طرق التنفيذ:

القائمة على القواعد/البصرية: استخدام كشف الخطوط، شبكات التجزئة، كشف الكائنات وغيرها من الوسائل لاستخراج خطوط الجدول ومناطق الخلايا، ثم إجراء بناء طوبولوجي للرسم البياني؛
القائمة على Transformer: ترميز كتل النص في منطقة الجدول مع المعلومات الهندسية في تسلسل، والتنبؤ مباشرة ببنية الخلايا وعلاقات الارتباط.

على مستوى المنتج، تدعم هذه القدرات سيناريوهات عالية القيمة مثل "تحويل PDF إلى Word/Excel"، و"الإدخال المهيكل للفواتير/الإيصالات"، و"تحليل التقارير واستخراج المؤشرات"، وهي مكونات رئيسية لأتمتة المكاتب الحكومية والمؤسسية.

2.8.3 الإجابة على أسئلة المستندات وDocVQA: من "قراءة المستند" إلى "سؤال المستند"

عندما تصبح قدرات OCR وتحليل التخطيط قوية بما يكفي، فإن الطلب الطبيعي التالي هو: لم يعد على الإنسان تصفح المستند بنفسه، بل "سؤال المستند" مباشرة. هذا هو الإجابة على أسئلة المستندات (DocVQA): يجيب النموذج على أسئلة حول مستندات معقدة مثل العقود والتقارير والفواتير والكتيبات الإرشادية، مثل "ما هو تاريخ سريان هذا العقد؟"، و"ما هو صافي الربح للربع الرابع من عام 2023 في صفحة التقرير هذه؟"، و"من هو اسم المشتري في الفاتورة؟".

تُبنى أنظمة DocVQA التقليدية عادة بطريقة "OCR + نموذج التخطيط + رأس QA":

استخدام OCR أولاً لاستخراج النص والإحداثيات؛
استخدام LayoutLM / DocFormer وغيرها لنمذجة العلاقة ثلاثية الوسائط بين النص والتخطيط والبصرية؛
وأخيرًا إضافة رأس مهمة (تصنيف / استخراج / توقع الامتداد) على هذا التمثيل، لتحديد الإجابة أو المقاطع ذات الصلة في المستند بناءً على السؤال.

مع تطور النماذج الكبيرة متعددة الوسائط، بدأت أنظمة متزايدة في استخدام "صورة المستند + السؤال" مباشرة كمدخل، مما يسمح لنموذج VLM أو LLM متعدد الوسائط بتوليد الإجابة مباشرة أو شرح مع استشهادات. في هذه البنية، تعمل قدرات OCR والتخطيط والفهم الدلالي والاستدلال بشكل تعاوني من طرف إلى طرف داخل النموذج: يستطيع النموذج رؤية التخطيط الأصلي والإشارات البصرية، والاستفادة في الوقت نفسه من المعرفة اللغوية العالمية وأنماط الاستدلال لإكمال الإجابة على الأسئلة المعقدة.

على مستوى شكل المنتج، يظهر DocVQA عادة في صورة "مساعد مراجعة العقود"، و"الإجابة على أسئلة الفواتير/التقارير"، و"الإجابة الذكية على أسئلة المستندات الطويلة"، مما يساعد المستخدمين على تحديد المعلومات الأساسية بسرعة من كميات كبيرة من المستندات، وتوليد الملخصات تلقائيًا، وإجراء مقارنات البنود، وغير ذلك، مما يخفف بشكل كبير من عبء المراجعة اليدوية واسترجاع المعلومات.

2.9 توليد الصور وتحريرها (Image Generation & Editing)

معظم قدرات الرؤية التي قدمناها سابقًا هي "تمييزية": إدخال صورة، وإخراج تسميات أو مربعات حدود أو أقنعة أو نصوص؛ أما المسار الآخر الذي تطور بسرعة في السنوات الأخيرة فهو الرؤية التوليدية: حيث لا يقتصر دور النموذج على فهم الصور فحسب، بل يمتد إلى إنشاء الصور أو تعديلها، بحيث ينتج محتوى مرئيًا عالي الجودة ومتعدد الأنماط بناءً على نصوص/صور مُعطاة. وتُعد توليد الصور وتحريرها القدرة الجوهرية لهذا الاتجاه، وهي تدعم عددًا كبيرًا من المنتجات بدءًا من منصات الرسم المعتمدة على AIGC وصولًا إلى أدوات تحرير الصور الذكية والمؤثرات الخاصة.

من منظور الأعمال، تحولت الرؤية التوليدية من "عروض تقنية" إلى أدوات إنتاجية قابلة للاستخدام الفعلي: يستخدمها المصممون لإنشاء رسومات تخطيطية ملهمة ومسودات تفصيلية؛ وتستخدمها فرق التسويق لإنتاج الملصقات والمواد الإعلانية بكميات كبيرة؛ ويستخدمها المستخدمون العاديون لصنع الصور الرمزية والرسوم التوضيحية والخلفيات؛ ويستخدمها صانعو الفيديو لإزالة الخلفيات واستبدالها وإضافة المؤثرات. وفيما يلي ننظم هذه الطبقة من ثلاث زوايا هي السيناريوهات والمبادئ والنماذج، ثم نتوسع في الأقسام الفرعية التالية في توليد الصور من النصوص، وقدرات التحويل من صورة إلى صورة والتحرير.

السيناريوهات
- توليد الصور من النصوص: يُدخل المستخدم وصفًا نصيًا ("مدينة ليلية بأسلوب السايبربانك")، ويقوم النظام تلقائيًا بإنشاء عدة صور تطابق الوصف، مع دعم اختيار الصورة والتعديل التكراري.
- نقل النمط والترجمة بين الصور: تحويل الصور الواقعية إلى أنماط الأنمي/الرسم التخطيطي/اللوحة الزيتية/الألوان المائية، أو التخطيط بين مجالات مختلفة (نهار ↔ ليل، صيف ↔ شتاء).
- إعادة التلوين المشروطة والتوسيع: إعادة تلوين أجزاء محددة من الصورة الأصلية (Inpainting)، أو التوسع خارج حدود الصورة (Outpainting)، لترميم العيوب أو إزالة/إضافة كائنات أو توسيع التكوين.
- التحرير الموجه بالنص: تعديل الصورة باستخدام تعليمات اللغة الطبيعية ("اجعل السماء غروبًا"، "اجعل هذه السيارة رياضية حمراء")، دون حاجة المستخدم لإتقان برامج تحرير الصور المعقدة.
المبادئ تحقق نماذج الرؤية التوليدية التوليد والتحرير بشكل أساسي من خلال تعلم "توزيع الصور" و"التحكم الشرطي":
- نمذجة التوزيع: تتعلم شبكات GAN ونماذج الانتشار (Diffusion) وتدفق المطابقة (Flow Matching) وغيرها التوزيع عالي الأبعاد من كميات كبيرة من الصور، مما يمكّن النموذج من "أخذ عينات" تدريجية من الضوضاء العشوائية لإنتاج صور واقعية.
- التوليد الشرطي: بالبناء على نمذجة توزيع الصور البحتة، يتم إدخال شروط مثل النصوص/الرسوم التخطيطية/خرائط التقسيم/النقاط الرئيسية/خرائط العمق، مما يجعل عملية التوليد مقيدة بإشارات خارجية (Text‑to‑Image، Image‑to‑Image، ControlNet وغيرها).
- التحرير القابل للتحكم: في الفضاء الكامن للصورة الموجودة، يتم توجيه وتعديل الخصائص المحلية من خلال النصوص أو الأقنعة المحلية، لتحقيق إعادة التلوين المحلي وتغيير النمط وتعديل التكوين وما إلى ذلك.
النماذج تعتمد نماذج توليد الصور وتحريرها السائدة حاليًا بشكل رئيسي على نماذج الانتشار + التحكم الشرطي:
- سلسلة GAN: تتميز StyleGAN وغيرها بأداء بارز في الوجوه عالية الدقة والتحكم في النمط؛ لكن تدريبها غير مستقر ويصعب تغطية التوزيعات المعقدة متعددة الوسائط.
- نماذج الانتشار: Stable Diffusion وImagen وسلسلة DALL·E وغيرها، تقوم بأخذ العينات من خلال عملية "إضافة ضوضاء أمامية + إزالة ضوضاء عكسية"، وتجمع بين الجودة والتنوع، وهي الاتجاه الرئيسي الحالي في Text‑to‑Image.
- التوليد والتحرير القابل للتحكم: ControlNet وT2I‑Adapter وغيرها، تضيف قنوات شرطية (حواف، وضعيات، تقسيم، إلخ) فوق نماذج الانتشار الأساسية، لتحقيق تحكم دقيق؛ وبدمج التوجيه النصي مع Inpainting/Outpainting لتحقيق التحرير المحلي وتوسيع الصورة.
- Flow Matching ونماذج التوليد من الجيل الجديد: تتعلم حقول تدفق مستمرة لتحويل توزيع الضوضاء إلى توزيع الصور، بحثًا عن توازن جديد بين الكفاءة وقابلية التحكم والاستقرار.

على مستوى المنتجات، تظهر هذه التقنيات للمستخدمين من خلال منصات مثل Jimeng ونموذج الصور Ali Qwen وFLUX وOpenAI أو Gemini nanobanana ومنظومة Stable Diffusion وPhotoshop Generative Fill وCanva AI وJianying/CapCut للإزالة الذكية للخلفيات والمؤثرات، وتتطور تدريجيًا من "ألعاب" إلى حلقات رسمية في سلسلة إنتاج المحتوى. وفيما يلي، نتوسع في ثلاثة اتجاهات: توليد الصور من النصوص، والترجمة من صورة إلى صورة، والتحرير الموجه بالنص.

2.9.1 توليد الصور من النصوص (Text‑to‑Image): من جملة إلى لوحة

المهمة الأساسية لـ توليد الصور من النصوص (Text‑to‑Image) هي: بالنظر إلى وصف باللغة الطبيعية، توليد صورة تطابق دلالاته وأسلوبه قدر الإمكان. تعتمد نماذج Text‑to‑Image الحديثة بشكل أساسي على بنية الانتشار:

أولاً، يتم استخدام مشفر نصوص (مثل CLIP Text Encoder أو T5/LLM) لترميز النص المدخل إلى متجه شرطي؛
ثم في فضاء الصور الكامن، بدءًا من حالة ضوضاء عالية، ومن خلال خطوات متعددة لأخذ عينات إزالة الضوضاء العكسية، يتم في كل خطوة استخدام الشرط النصي لتوجيه اتجاه التوليد؛
وفي النهاية يتم الحصول على صورة عالية الدقة تطابق الوصف، ويمكن تكبيرها أو معالجتها لاحقًا.

يتم تدريب طرق مثل Stable Diffusion وImagen وسلسلة DALL·E على أزواج ضخمة من الصور والنصوص، مما يمكّن النموذج من إتقان السلالة البصرية (الأشكال، القوام، التكوين، الإضاءة والظلال) وفي نفس الوقت اكتساب درجة معينة من قدرة المحاذاة بين اللغة والبصر (فهم الأوصاف المعقدة مثل "النمط" و"المادة" و"التكوين"). على مستوى المنتجات، تمنح هذه القدرة "من لا يجيد الرسم أن يرسم": يحتاج المستخدم فقط لوصف فكرته باللغة الطبيعية، ويقدم النظام عدة تجسيدات بصرية، مع دعم التجريب التكراري والتنقيح.

عادةً ما تدعم نماذج Text‑to‑Image في نفس الوقت مخرجات متعددة الأنماط ومتعددة الدقة: من خلال إضافة رموز نمطية (style tokens) وشروط الأبعاد أثناء التدريب أو الاستدلال، مما يسمح لنفس النموذج بالتبديل بين أنماط مختلفة مثل "نمط الصورة الواقعية، نمط الرسم التوضيحي المسطح، نمط التصيير ثلاثي الأبعاد". ومن التقنيات الهندسية الشائعة:

هندسة الموجهات النصية (Prompt Engineering)، لتنقيح وتثبيت نمط المخرجات؛
تقنيات الضبط الدقيق الخفيفة مثل LoRA / DreamBooth، للتكيف السريع مع شخصيات محددة أو ملكيات فكرية أو أنماط علامات تجارية على النماذج العامة.

2.9.2 التحويل من صورة إلى صورة (Image‑to‑Image): الترجمة ونقل النمط وإعادة التلوين المحلي

تقوم مهمة Image‑to‑Image، بالنظر إلى صورة مدخلة، بإنشاء نسخة صورة أخرى "مقيدة بها": تحافظ على البنية العامة أو المحتوى للصورة الأصلية، مع تحقيق نوع من التحويل أو التحسين. وتشمل الأشكال النموذجية:

ترجمة الصور / نقل النمط: التخطيط بين مجالات بصرية مختلفة، مثل "صورة فوتوغرافية ← أنمي"، "صيف ← شتاء"، "نهار ← ليل"، "رسم تخطيطي ← صورة ملونة". اعتمدت النماذج المبكرة في الغالب على GAN (CycleGAN، Pix2Pix وغيرها)، ويمكن الآن أيضًا استخدام نماذج الانتشار لإنجاز ذلك تحت تحكم شرطي.
التوليد الشرطي: باستخدام الرسوم التخطيطية وخرائط التقسيم وخرائط العمق وخرائط الحواف وغيرها كشروط، يتم توجيه عملية الانتشار من خلال وحدات مثل ControlNet وT2I‑Adapter، مما يجعل الصورة المولدة تلتزم بدقة بالشروط الهندسية/التخطيطية، مع الحرية في إظهار القوام والإضاءة والظلال والنمط.
Inpainting / Outpainting: تحديد منطقة معينة على الصورة الأصلية، وتعامل كجزء مراد إعادة تلوينه (inpainting)، أو توليد محتوى جديد خارج حدود الصورة (outpainting)، لتحقيق عمليات مثل "ملء الفراغات" و"توسيع الصورة".

المفتاح في هذا النوع من المهام هو إنشاء محتوى جديد مع الحفاظ على القيود. وتبرز نماذج الانتشار في هذا الجانب: في inpainting، يقوم النموذج بأخذ عينات فقط لمنطقة القناع، مع الحفاظ على الصورة الأصلية دون تغيير في المناطق غير المحجوبة، ومن خلال الفهم الدلالي والمعلومات السياقية، يجعل المحتوى الجديد يندمج بشكل طبيعي مع المناطق المحيطة من حيث النمط والإضاءة والظلال. بالنسبة لنقل النمط، يحتفظ النموذج بالبنية المدخلة وفي نفس الوقت يأخذ عينات من القوام والألوان من توزيع النمط المستهدف، محققًا "تغيير القشرة دون تغيير الجوهر".

في المنتجات، تدعم قدرة Image‑to‑Image عددًا كبيرًا من الأدوات الإبداعية: فلاتر الأنماط، التحويل إلى قصص مصورة، استبدال السماء بنقرة واحدة، التجميل التلقائي، ترميم الصور القديمة، التحرير المحلي للصور وغيرها، وعادةً ما تُقدم للمستخدمين بواجهات بصرية عالية.

2.9.3 التحرير الموجه بالنص: اللغة الطبيعية "كفرشاة رسم"

في برامج تحرير الصور التقليدية، يحتاج المستخدم لإتقان مجموعة كاملة من المفاهيم الاحترافية مثل الطبقات والأقنعة والتحديدات والفلاتر؛ بينما يحاول التحرير الموجه بالنص (Text‑guided Editing) استبدال معظم العمليات الاحترافية باللغة الطبيعية:

"اجعل الخلفية أفق مدينة ليلية"؛
"اجعل هذا الشخص يرتدي بدلة سوداء"؛
"حول هذه السيارة إلى سيارة رياضية زرقاء، وأضف تأثير ضبابية الحركة".

من الناحية التقنية، يُبنى التحرير الموجه بالنص عادةً فوق نماذج الانتشار Text‑to‑Image، ويتم تحقيقه بعدة طرق:

البحث أو أخذ العينات في الفضاء الكامن بالقرب من الصورة الأصلية، بحيث تحافظ الصورة المعدلة على تشابه عالٍ مع الصورة الأصلية، مع حدوث تغييرات فقط في الأجزاء المحلية المتأثرة بالنص؛
استخدام قناع صريح (منطقة يحددها المستخدم)، لحصر نطاق التحرير في منطقة محددة (وهذا هو "إدخال تعليمات نصية بعد تحديد المنطقة" الموجود في العديد من الأدوات)؛
إدخال وحدة "تحكم بالتعليمات" (مثل ControlNet، رموز تحكم قابلة للتعلم)، لتعزيز قابلية تحكم النموذج واستقراره تجاه طلبات التحرير.

تقدم منتجات مثل Jimeng وFLUX ونموذج الصور Ali Qwen ومنظومة Stable Diffusion وCanva AI وغيرها قدرات مشابهة: يمكن للمستخدم إنجاز تحريرات معقدة من خلال نصوص بسيطة وتفاعلات قليلة. بالنسبة للمستخدمين المحترفين، يصبح هذا "مساعدًا ذكيًا" يسرّع سير العمل الإبداعي؛ وبالنسبة للمستخدمين العاديين، فهو يخفض بشكل كبير من عتبة الدخول إلى تحرير الصور.

2.10 تقييم جودة الصورة (Image Quality Assessment, IQA)

في مهام تعزيز الرؤية منخفضة المستوى، والترميز بالضغط، وتوليد الصور وتحريرها، غالبًا ما نحتاج للإجابة عن سؤال يبدو ذاتيًا: "هل تبدو هذه الصورة جيدة؟" . من الواضح أن الفحص اليدوي لا يمكن توسيع نطاقه، بينما المؤشرات التقليدية مثل PSNR غالبًا لا تتوافق مع الإدراك البصري البشري. الهدف من تقييم جودة الصورة (Image Quality Assessment, IQA) هو بناء آلية آلية لتقييم أو ترتيب الجودة الذاتية/الموضوعية للصور، ليصبح حلقة الوصل الرئيسية بين "مخرجات الخوارزميات منخفضة المستوى" و"تجربة المستخدم الحقيقية".

من منظور النظام، يعمل IQA "كحارس بوابة" و"مرجع لضبط المعاملات" في العديد من خطوط المعالجة: تستخدمه منصات التجارة الإلكترونية/المحتوى لتصفية الصور المرفوعة المشوشة أو ذات الضوضاء العالية أو المضغوطة بشكل مفرط؛ وتستخدمه كاميرات الهواتف/الألبومات لاختيار "أفضل لقطة" من التصوير المتتابع؛ وتستخدمه خدمات التعزيز والضغط السحابية لإجراء تقييم مقارن قبل وبعد المعالجة لتوجيه تحسين النماذج. فيما يلي ننظم IQA من ثلاثة أبعاد: السيناريوهات والمبادئ والنماذج، وسنتوسع في الأقسام اللاحقة في أنواع التقييم والمؤشرات ونماذج التعلم.

السيناريوهات
- فحص الجودة والمراجعة عند الرفع: تقييم جودة الصور/الفيديوهات المرفوعة من قبل المستخدمين، وتصفية المحتوى الذي يعاني من ضبابية شديدة أو تعريض غير طبيعي أو ضوضاء واضحة أو تشوهات ضغط ملحوظة.
- الاختيار الذكي للصور وإزالة التكرار: في ألبومات الهواتف وتطبيقات الكاميرا، اختيار النسخة الأفضل من حيث الوضوح وتعابير الوجه والتكوين من بين عدة صور متشابهة، مع تحديد الصور منخفضة الجودة أو المتكررة لتنظيفها.
- تقييم خوارزميات التعزيز/الضغط: في اختبارات A/B لخوارزميات تعزيز الصور وإزالة الضوضاء والدقة الفائقة والتشفير وفك التشفير، استخدام مؤشرات IQA لقياس "أي استراتيجية أفضل" بشكل موضوعي، والمساعدة في البحث عن المعاملات واختيار النماذج.
- الاختيار التلقائي للملصقات/الصور المصغرة: اختيار الإطارات ذات الجودة البصرية والجاذبية الأعلى تلقائيًا من مجموعة فيديوهات أو صور كمرشحات للغلاف أو الملصق.
المبادئ يتمحور جوهر IQA حول وصف جودة الصورة من بعدين: درجة التشوه بالنسبة للصورة المرجعية ومدى جودتها من منظور الإدراك البصري البشري:
- IQA بالمرجع الكامل (FR‑IQA): بوجود صورة مرجعية عالية الجودة، يتم مقارنة الصورة المراد تقييمها مع الصورة المرجعية على مستوى البكسل أو الخصائص لقياس درجة التشوه، ويستخدم في تطوير الخوارزميات والتقييم التجريبي.
- IQA بدون مرجع (NR‑IQA / Blind IQA): أكثر شيوعًا في السيناريوهات الواقعية، حيث لا توجد صورة مرجعية، ولا يمكن استنتاج الجودة إلا من الخصائص الإحصائية أو العميقة للصورة الواحدة، مما يتطلب من النموذج أن يتعلم من عدد كبير من الصور والتقييمات الذاتية "ما نوع الصور التي يفضلها الإنسان".
- IQA بالمرجع الزائف / المرجع منخفض الدقة: في بعض السيناريوهات، يمكن استخدام نسخة تقريبية قابلة للحصول (مثل النسخة منخفضة الدقة قبل الضغط، أو "الصورة المثالية" التي تنبأ بها النموذج) كمرجع تقريبي، لتحقيق توازن بين قابلية التنفيذ ودقة التقييم.
النماذج تنقسم نماذج IQA بشكل عام إلى فئتين: المؤشرات التقليدية القائمة على الخصائص اليدوية والتنبؤ بالجودة القائم على التعلم العميق:
- المؤشرات التقليدية:
  - FR‑IQA: PSNR، SSIM، MS‑SSIM، FSIM وغيرها، تركز على البنية والتباين ومعلومات الطور، وهي حساسة للتدهور البسيط (مثل إضافة الضوضاء أو التمويه).
  - المؤشرات الإدراكية: LPIPS، DISTS وغيرها، تقيس الفروق الإدراكية بين الصور في فضاء الخصائص العميقة، ولديها ارتباط أعلى بالإدراك البصري البشري.
- IQA بدون مرجع / القائم على التعلم:
  - الطرق المبكرة: BRISQUE، NIQE، سلسلة BLIINDS وغيرها، تنطلق من إحصائيات المشاهد الطبيعية (NSS) والخصائص اليدوية، وتدرب نماذج ضحلة للتنبؤ بدرجة الجودة.
  - NR‑IQA العميق: RankIQA، DBCNN، HyperIQA، MUSIQ وغيرها، تستخدم CNN / ViT مباشرة لاستخراج الخصائص من الصور، وتتدرب بإشراف على بيانات MOS (Mean Opinion Score، متوسط درجات التقييم الذاتي)، لجعل درجة الجودة الناتجة تقارب التقييم البشري قدر الإمكان.
  - التمثيلات المدربة مسبقًا: استخدام خصائص نماذج كبيرة مثل CLIP وViT كمدخلات أو backbone لشبكة التنبؤ بالجودة، وضبطها الدقيق على بيانات MOS محدودة، لتحسين قدرة التعميم على أنواع التشوهات المعقدة.

بشكل عام، IQA ليس مؤشرًا واحدًا "كلما كان أعلى كان أفضل"، بل هو نظام تقييم مرتبط بأهداف عمل محددة: في بعض السيناريوهات (مثل تعزيز المراقبة)، يكون الحفاظ على التفاصيل وقابلية التعرف عليها أكثر أهمية من المظهر البصري الطبيعي؛ وفي منصات إنشاء المحتوى، يكون الإدراك البصري الذاتي والمعايير الجمالية هو المسيطر. لذلك، الممارسة الشائعة في الصناعة هي: بناءً على نموذج IQA عام، يتم الضبط الدقيق أو تعلم الأوزان من خلال كمية صغيرة من بيانات العمل، لبناء مقيّم جودة "مدرك للمهمة".

2.10.1 أنواع التقييم: بمرجع، بدون مرجع، وبمرجع زائف

بناءً على وجود صورة مرجعية عالية الجودة، يمكن تقسيم IQA إلى ثلاث فئات: بالمرجع الكامل (FR‑IQA) وبدون مرجع (NR‑IQA) وبالمرجع الزائف.

في IQA بالمرجع الكامل، نفترض وجود صورة مرجعية مثالية عالية الجودة، وتكون الصورة المراد تقييمها نسخة متدهورة بعد الضغط أو النقل أو المعالجة. يقوم النموذج بمقارنة الاثنتين على مستوى البكسل أو الخصائص لتحديد درجة التشوه. PSNR هو أبسط مقياس (يعتمد على متوسط مربع الخطأ)، بينما تأخذ SSIM/MS‑SSIM/FSIM وغيرها في الاعتبار أيضًا السطوع والتباين والبنية أو معلومات الطور، مما يجعلها أقرب إلى الإدراك البشري إلى حد ما. هذه المؤشرات مناسبة جدًا لتقييم طرق التشفير وفك التشفير والدقة الفائقة وإزالة الضوضاء خلال مرحلة تطوير الخوارزميات، لكنها غالبًا ما تفتقر إلى الصور المرجعية في الأعمال الحقيقية، مما يجعل سيناريوهات تطبيقها محدودة.

IQA بدون مرجع (Blind IQA) هو الإعداد الأكثر شيوعًا في الأنظمة الفعلية: لا توجد سوى الصورة المراد تقييمها نفسها، دون أي مرجع. اعتمدت الطرق المبكرة بدون مرجع (مثل BRISQUE وNIQE وBLIINDS وغيرها) بشكل أساسي على إحصائيات المشاهد الطبيعية: بافتراض أن الصور الطبيعية عالية الجودة لها أنماط مستقرة في توزيعات إحصائية معينة، وأن التشوه يسبب تغيرات في الخصائص الإحصائية، مما يسمح بتدريب نموذج للتنبؤ بدرجة الجودة بناءً على هذه الخصائص. في عصر التعلم العميق، تستخدم نماذج NR‑IQA عادةً CNN / ViT مباشرة لاستخراج الخصائص، وتقوم بالانحدار على درجة الجودة أو تعلم علاقات الترتيب على مجموعات بيانات تحمل تقييمات بشرية ذاتية (MOS)، مما يمكنها من تغطية أنواع متعددة من التشوهات مثل الضوضاء والتمويه وتشوهات الضغط وتعريض غير طبيعي.

يقع IQA بالمرجع الزائف / المرجع منخفض الدقة بين الاثنين: في حالة عدم وجود مرجع حقيقي عالي الجودة، يتم استخدام نسخة تقريبية قابلة للحصول (مثل الصورة منخفضة الدقة قبل الضغط، أو "الصورة النظيفة" التي تنبأ بها النموذج) كمرجع لتقدير درجة التدهور. هذا الأسلوب شائع في مهام مراقبة جودة الفيديو عبر الإنترنت وتحسين التشفير وفك التشفير، حيث يمكنه تحقيق توازن بين التكلفة والدقة.

2.10.2 المؤشرات ونماذج التعلم: من PSNR إلى التنبؤ بالجودة الإدراكية

على مستوى التنفيذ العملي، يستخدم IQA مؤشرات ونماذج تعلم متعددة للاقتراب من الإدراك البصري البشري.

من ناحية المؤشرات التقليدية:

يعتمد PSNR مباشرة على خطأ مستوى البكسل، وهو بسيط وفعال، لكنه يعطي عقوبة كبيرة للتغيرات غير الحساسة للعين البشرية (مثل الإزاحة الطفيفة، أو التصفية التي تحافظ على البنية)؛
تقوم SSIM وMS‑SSIM وFSIM وغيرها بنمذجة تشابه الصور من أبعاد متعددة مثل السطوع والتباين والبنية والطور، وهي أكثر حساسية للتشوهات البنيوية، وتعكس إلى حد ما تفضيل العين البشرية للمعلومات البنيوية.

من ناحية المؤشرات الإدراكية: تقوم LPIPS وDISTS وغيرها بحساب فروق المتجهات في طبقات الخصائص الداخلية لشبكات عميقة مدربة مسبقًا (VGG وAlexNet وViT وغيرها)، وترجيحها وفقًا لأهمية الطبقات المختلفة، للحصول على "مسافة في فضاء الخصائص"، والتي لديها ارتباط أعلى بالتشابه الإدراكي الذاتي. وهي مناسبة بشكل خاص كأهداف تدريب أو مؤشرات تقييم للمهام التوليدية (الدقة الفائقة، التوليد، التحرير)، لقياس "مدى التشابه في المظهر".

من ناحية التنبؤ بالجودة القائم على التعلم، تقوم نماذج NR‑IQA العميقة (مثل RankIQA وDBCNN وHyperIQA وMUSIQ وغيرها) بتقييم أو ترتيب الصور مباشرة:

في بيانات التدريب، تحمل كل صورة مجموعة من التقييمات الذاتية (MOS)، ويستخدم النموذج ذلك كإشراف لتدريب شبكة انحدار أو ترتيب للجودة؛
من ناحية هيكل النموذج، يتم استخدام CNN/ViT + تجميع عالمي + MLP لإخراج درجة الجودة، أو إخراج توزيع جودة ثم أخذ القيمة المتوقعة؛
تستخدم بعض الطرق أيضًا التعلم التقابلي أو تعلم الترتيب (pairwise ranking)، لجعل النموذج يركز أكثر على علاقة "الأفضل/الأسوأ نسبيًا" بدلاً من الدرجة المطلقة.

مع انتشار نماذج الرؤية كبيرة الحجم المدربة مسبقًا، تتبنى طرق IQA بشكل متزايد نموذج "Backbone مدرب مسبقًا + رأس خفيف": استخدام التمثيلات البصرية الغنية من CLIP وViT وغيرها، والضبط الدقيق على بيانات MOS أقل، مما يحافظ على تعميم جيد عبر أنواع التشوهات والسيناريوهات المختلفة.

في التطبيق الهندسي، يتم عادةً دمج المؤشرات المتعددة المذكورة أعلاه: على سبيل المثال، تستخدم مؤشرات FR‑IQA في مرحلة التجارب لتقييم تحسين الخوارزميات؛ وتستخدم نماذج NR‑IQA العميقة لفحص الجودة الفوري عبر الإنترنت؛ وتستخدم المؤشرات الإدراكية للتحسين الداخلي في المهام التوليدية. من خلال تجارب A/B، تتم مواءمة هذه المؤشرات الآلية مع بيانات المستخدم الحقيقية (نسبة النقر، معدل الإكمال، معدل الشكاوى، إلخ)، لبناء "نظام قياس الجودة الإدراكية" المرتبط ارتباطًا وثيقًا بأهداف العمل بشكل تدريجي.

3. النمط ثلاثي الأبعاد / المكاني (3D / Spatial / XR)

مع انتقال التطبيقات من "الصور/الفيديو ثنائي الأبعاد" إلى سيناريوهات مثل القيادة الذاتية، والروبوتات، والواقع المعزز/الافتراضي/المختلط (AR/VR/XR)، لم تعد الأنظمة تكتفي برؤية "البكسلات ثنائية الأبعاد" فحسب، بل أصبحت بحاجة إلى فهم البنية ثلاثية الأبعاد للعالم الحقيقي، وعلاقات المقياس والوضعية (pose). تُعرف هذه المهام مجتمعةً باسم النمط ثلاثي الأبعاد / المكاني: وتشمل النمذجة الدقيقة للهندسة والطوبولوجيا، بالإضافة إلى الفهم الدلالي، وتحديد المواقع والملاحة، وتوليد المحتوى في الفضاء ثلاثي الأبعاد. يرتبط هذا النمط من جهة بمجموعة متنوعة من المستشعرات مثل LiDAR وRGB‑D وIMU، ويرتبط من الجهة الأخرى بوحدات الإدراك في القيادة الذاتية، وأنظمة الملاحة الروبوتية، ونماذج البيئة في ARKit/ARCore، وتطبيقات المسح والنمذجة ثلاثية الأبعاد على الهواتف المحمولة، ومنصات التوائم الرقمية (Digital Twin).

3.1 الإدراك وإعادة البناء ثلاثي الأبعاد (3D Perception & Reconstruction)

في الرؤية ثنائية الأبعاد، لا نرى سوى "العالم بعد تصويره"؛ أما في سيناريوهات القيادة الذاتية والروبوتات والواقع المعزز/الافتراضي (AR/VR)، فإن الأهم هو: موقع وشكل وهيكل العالم الحقيقي في الفضاء ثلاثي الأبعاد. يهدف الإدراك وإعادة البناء ثلاثي الأبعاد إلى استعادة المعلومات الهندسية ثلاثية الأبعاد للبيئة انطلاقًا من مستشعرات متعددة (كاميرات، LiDAR، كاميرات العمق، إلخ)، والتعبير عنها بأشكال مثل السحب النقطية (Point Cloud)، والوحدات الحجمية (Voxel)، والشبكات (Mesh)، والحقول الضمنية (Implicit Field)، مما يوفر الأساس لتخطيط المسارات والمحاكاة الفيزيائية والتوأمة الرقمية وتوليد المحتوى ثلاثي الأبعاد.

في الممارسة الهندسية، تغطي هذه الطبقة اتجاهات تقنية متعددة بدءًا من معالجة السحب النقطية ومرورًا بـ إعادة البناء الهندسي متعدد المناظير ووصولًا إلى حقول الإشعاع العصبي / عرض الحقول العصبية، وهي تتوافق مع منتجات مثل وحدات الإدراك ثلاثي الأبعاد في القيادة الذاتية، ونمذجة البيئة في ARKit/ARCore، وتطبيقات المسح والنمذجة ثلاثية الأبعاد على الهواتف المحمولة، ومنصات نمذجة التوأمة الرقمية للمدن/المجمعات. فيما يلي عرض من ثلاثة زوايا: السيناريوهات والمبادئ والنماذج، مع تفصيل إضافي لعدة اتجاهات فرعية رئيسية.

السيناريوهات
- القيادة الذاتية والمساعدة: إدراك المركبات والمشاة وحواف الطرق ومسارات الطرق والمرافق المرورية وغيرها من الهياكل ثلاثية الأبعاد من سحب LiDAR النقطية وصور الكاميرات المتعددة على متن المركبة، لاستخدامها في تخطيط المسارات واتخاذ قرارات السلامة.
- المسح البيئي الداخلي/الخارجي: استخدام الهواتف/الأجهزة اللوحية (الضوء المهيكل / ToF / الرؤية المجسمة) أو الماسحات المحمولة لجمع بيانات متعددة المناظير، وبناء نماذج ثلاثية الأبعاد للغرف والمباني والأحياء في الوقت الفعلي، لاستخدامها في نمذجة الواقع المعزز وتصميم الديكور الداخلي والتوأمة الرقمية.
- التوأمة الرقمية ونمذجة معلومات البناء (BIM): إعادة بناء المصانع والمجمعات والمدن الفعلية إلى نماذج ثلاثية الأبعاد عالية الدقة من خلال الصور متعددة المناظير والسحب النقطية، لاستخدامها في إدارة العمليات والصيانة والمحاكاة والتصور.
- المسح ثلاثي الأبعاد الاستهلاكي: تطبيقات المسح ثلاثي الأبعاد على الهواتف وأدوات "التقط صورة واحصل على نموذج ثلاثي الأبعاد" بنقرة واحدة، لتوفير الهندسة الأولية للطباعة ثلاثية الأبعاد والتجربة الافتراضية وإنتاج أصول الألعاب/الأفلام.
المبادئ
- معالجة السحب النقطية: اعتبار مجموعات النقاط المتفرقة/الكثيفة الناتجة عن LiDAR أو إعادة البناء متعدد المناظير كمجموعة نقاط عيّنات ثلاثية الأبعاد، وإجراء التصفية والتسجيل والاختزال وتعلم الميزات عليها، ثم التصنيف والتجزئة الدلالية/التجزيئية أو اكتشاف الأهداف ثلاثية الأبعاد.
- الهندسة متعددة المناظير وإعادة البناء ثلاثي الأبعاد: تقدير وضعيات الكاميرا وسحابة النقاط ثلاثية الأبعاد المتفرقة بين صور متعددة عبر SfM (Structure‑from‑Motion)، ثم توليد سحابة نقطية كثيفة عبر MVS (Multi‑View Stereo)، يلي ذلك إعادة بناء الشبكة وتطبيق النسيج.
- حقول الإشعاع العصبي / الحقول الضمنية العصبية: استخدام طرق مثل NeRF وInstant‑NGP وGaussian Splatting لتمثيل المشهد ثلاثي الأبعاد كحقل كثافة/لون حجمي مستمر أو مجموعة جسيمات غاوسية، وتوليد الصور عبر العرض الحجمي أو التنقيط، والتعلم من الإشراف متعدد المناظير؛ وبعد التدريب يمكن إجراء عرض من زوايا جديدة واستخراج الهندسة.
النماذج
- شبكات السحب النقطية: PointNet / PointNet++ وPointCNN وDGCNN وMinkowskiNet وغيرها التي تتعلم الميزات مباشرة على النقاط أو الوحدات الحجمية المتفرقة، لاستخدامها في تصنيف السحب النقطية وتجزئتها واكتشاف الأهداف ثلاثية الأبعاد. في القيادة الذاتية، تُستخدم أطر اكتشاف ثلاثية الأبعاد مثل VoxelNet وSECOND وCenterPoint، التي تحوّل السحب النقطية إلى وحدات حجمية أو ميزات BEV (منظور علوي) ثم تجري الكشف.
- سلسلة أدوات إعادة البناء الهندسي: أنظمة SfM/MVS التقليدية مثل COLMAP وOpenMVG / OpenMVS، التي يمكنها استعادة وضعيات الكاميرا والسحب النقطية الكثيفة من الصور متعددة المناظير، وبناء شبكات عالية الجودة.
- إعادة البناء والعرض بالحقول العصبية: NeRF / Instant‑NGP وGaussian Splatting ونماذج محسّنة عديدة، ترمّز المشهد في شبكة عصبية أو سحابة غاوسية، لتحقيق تركيب عالي الدقة لمناظير جديدة وإعادة بناء مشاهد ثلاثية الأبعاد، وتتطور تدريجيًا إلى منتجات هندسية. ظهرت في الصناعة أيضًا خدمات ذكاء اصطناعي ثلاثية الأبعاد موجهة للمطورين ومنتجي المحتوى مثل "Hunyuan3D" و"Tripo"، التي تغلّف تقنيات NeRF/Gaussian وغيرها في واجهات API سحابية أو أدوات تفاعلية.

بدءًا من هذه الطبقة، تتشابك الهندسة التقليدية مع التعلم العميق، والتمثيل الضمني مع الشبكات الصريحة، حيث يجب حل مشكلة "كيفية استعادة العالم الحقيقي بدقة" مع مراعاة الوقت الفعلي وقابلية الاستخدام، لخدمة الطبقات الأعلى من فهم المشاهد ثلاثية الأبعاد وتوليدها وتحريرها.

3.1.1 معالجة السحب النقطية واكتشاف الأهداف ثلاثية الأبعاد

بالنسبة للقيادة الذاتية والروبوتات والمسح عالي الدقة، تُعد سحابة LiDAR النقطية من أهم معلومات الاستشعار ثلاثية الأبعاد. السحابة النقطية هي مجموعة متفرقة من النقاط مكوّنة من إحداثيات ثلاثية الأبعاد (مرفقة أحيانًا بشدة الانعكاس والطابع الزمني وما إلى ذلك)، وتفتقر إلى البنية الشبكية المنتظمة، مما يشكل تحديًا للالتفاف التقليدي. الهدف من معالجة السحب النقطية هو استخراج معلومات هندسية ودلالية مفيدة من هذه النقاط غير المهيكلة، مثل "هذه سيارة" و"هذا حافة طريق/أرض" و"هذا مبنى".

في مهام تصنيف وتجزئة السحب النقطية، غالبًا ما نهتم بـ: إلى أي فئة تنتمي نقطة معينة (أو مجموعة نقاط)، مثل سيارة، أو مشاة، أو أرض، أو حافة طريق، أو مبنى، أو نباتات، إلخ، أو إجراء تجزئة دلالية/تجزيئية للمشهد. من حيث أساليب النمذجة، يمكن تقسيمها تقريبًا إلى ثلاث فئات:

شبكات السحب النقطية المباشرة: PointNet / PointNet++ وPointCNN وDGCNN وغيرها التي تعرّف عمليات "غير حساسة لترتيب مجموعة النقاط" مباشرة على مجموعة النقاط، وتبني ميزات هرمية عبر تجميع الجوار المحلي، وهي مناسبة لتصنيف وتجزئة السحب النقطية متوسطة وصغيرة الحجم.
الوحدات الحجمية والالتفاف المتفرق: تحويل السحابة النقطية إلى وحدات حجمية ثلاثية الأبعاد، ثم استخدام CNN ثلاثي الأبعاد المتفرق (مثل VoxelNet وMinkowskiNet) للالتفاف، مما يجمع بين انتظام البنية وتباعد الفراغ، ويُستخدم على نطاق واسع في اكتشاف الأهداف ثلاثية الأبعاد في القيادة الذاتية.
الإسقاط ومتعدد المناظير: إسقاط السحابة النقطية إلى BEV (منظور علوي) أو خريطة عمق أمامية أو مناظير متعددة، ثم استخراج الميزات باستخدام CNN ثنائي الأبعاد، وهو أسهل نسبيًا في الدمج مع شبكات الكشف ثنائية الأبعاد الناضجة.

في اكتشاف الأهداف ثلاثية الأبعاد، لم يعد الهدف مجرد تسمية النقاط، بل التنبؤ بصناديق الحدود ثلاثية الأبعاد (الموقع، والحجم، والاتجاه) وفئتها، وهذا هو جوهر إدراك البيئة في القيادة الذاتية. تشمل الطرق النموذجية VoxelNet وSECOND وPointPillars وCenterPoint، التي تحوّل عادةً السحابة النقطية إلى تمثيل وحدات حجمية أو عمودية، وتجري انحدار الكشف على BEV أو الفضاء ثلاثي الأبعاد. تحقق طرق مثل CenterPoint الكشف من خلال نموذج "اكتشاف النقاط المركزية"، حيث تكتشف مباشرة مركز الهدف وأبعاده/اتجاهه على BEV، بجمع بين الدقة والسرعة. مع تطور التعلم العميق وأجهزة الاستشعار، أصبح الكشف ثلاثي الأبعاد قادرًا على الاستدلال في الوقت الفعلي على شرائح بمواصفات السيارات، ليكون إحدى الوحدات الأساسية في حزمة إدراك القيادة الذاتية.

3.1.2 الهندسة متعددة المناظير وإعادة البناء ثلاثي الأبعاد: من الصور إلى الشبكة

هل يمكن "فهم" ثلاثي الأبعاد بدون LiDAR؟ الجواب نعم — تعتمد الهندسة متعددة المناظير وإعادة البناء ثلاثي الأبعاد على "صور متعددة + حركة الكاميرا". من خلال التصوير من زوايا مختلفة لنفس المشهد، يمكننا استخدام القيود الهندسية لاستعادة وضعيات الكاميرا والهيكل المكاني، وهذا هو خط الأنابيب الكلاسيكي SfM/MVS.

يحل SfM (Structure‑from‑Motion) مشكلتين رئيسيتين:

تقدير المعاملات الخارجية للكاميرا (الموقع والاتجاه) لكل صورة من مجموعة صور متعددة الأزواج أو متعددة المناظير؛
استعادة مجموعة من نقاط الميزات ثلاثية الأبعاد المتفرقة في نظام إحداثيات موحد.

الأدوات النموذجية مثل COLMAP وOpenMVG، من خلال استخراج الميزات ومطابقتها (SIFT/ORB إلخ) وBA التزايدي أو الشامل (Bundle Adjustment)، يمكنها استعادة السحب النقطية المتفرقة ووضعيات الكاميرا تلقائيًا من مجموعة صور غير معايرة. بناءً على ذلك، يستخدم MVS (Multi‑View Stereo) الاتساق الضوئي متعدد المناظير لتوليد سحابة نقطية كثيفة: تقدير العمق لكل بكسل/خط نظر، وملء التفاصيل الهندسية للمشهد تدريجيًا.

بعد الحصول على السحابة النقطية الكثيفة، الخطوة التالية هي إعادة بناء الشبكة (Mesh Reconstruction) :

من خلال Poisson Surface Reconstruction أو Marching Cubes أو طرق قائمة على التعلم، يتم "تغليف" النقاط المبعثرة إلى سطح مستمر، لتشكيل شبكة ذات بنية طوبولوجية.
يتبع ذلك عادةً ملء الثقوب والتنعيم وتحسين الحدود، ثم تطبيق النسيج (Texture Mapping)، للحصول على نموذج ثلاثي الأبعاد يمكن استخدامه مباشرة في العرض والتحرير.

على مستوى المنتجات، تم ترسيخ خط الأنابيب الكامل هذا من خلال البرامج المكتبية والخدمات السحابية وحزم SDK. على سبيل المثال: تطبيقات المسح ثلاثي الأبعاد على الهواتف تستدعي في الخلفية عمليات مشابهة لـ SfM/MVS، وتتيح للمستخدم "التجول بالتصوير" أو "مسح فيديو دائري" ثم تُخرج تلقائيًا نموذج شبكي يمكن استيراده إلى محرك ألعاب؛ بينما تقوم منصات التوأمة الرقمية بإعادة بناء واسعة النطاق على مستوى المدن/المجمعات باستخدام صور التصوير الجوي + بيانات التجوّل الافتراضي، لإنتاج مشاهد ثلاثية الأبعاد تفاعلية.

3.1.3 حقول الإشعاع العصبي والعرض الحجمي: NeRF وGaussian والجيل الجديد من إعادة البناء ثلاثي الأبعاد

يمكن لخطوط SfM/MVS/إعادة بناء الشبكة التقليدية الحصول على هندسة صريحة جيدة البنية، لكنها لا تزال محدودة في جودة العرض واستمرارية المنظور وتفاصيل التفاصيل؛ بينما تعيد حقول الإشعاع العصبي (NeRF) والأعمال اللاحقة تعريف إعادة البناء ثلاثي الأبعاد وتركيب المناظير الجديدة بأسلوب الحقول الضمنية + العرض الحجمي.

في NeRF، يُنمذج المشهد ثلاثي الأبعاد بالكامل كدالة مستمرة:

$F_\theta(\mathbf{x}, \mathbf{d}) = (\sigma, \mathbf{c})$

حيث $\mathbf{x}$ يمثل موقع النقطة في الفضاء ثلاثي الأبعاد، و $\mathbf{d}$ يمثل اتجاه المشاهدة، و $\sigma$ يمثل الكثافة الحجمية، و $\mathbf{c}$ يمثل اللون، و $\theta$ هي معاملات الشبكة.

بإعطاء موقع نقطة x واتجاه مشاهدة d في الفضاء ثلاثي الأبعاد، تُخرج الشبكة الكثافة الحجمية σ واللون c المقابلين لتلك النقطة. بإجراء تكامل عرض حجمي على طول اتجاه نظر الكاميرا لهذه الدالة، نحصل على لون البكسل عند وضعية الكاميرا تلك؛ وبالعكس، بمجرد توفر مجموعة من صور متعددة المناظير ومعاملات كاميراتها، يمكننا حل معاملات النموذج θ عن طريق تقليل الخطأ بين نتائج العرض والصور الحقيقية. بعد اكتمال تدريب النموذج، يكفي تغيير وضعية الكاميرا لتركيب صور من زوايا جديدة لم يسبق تصويرها حقيقيًا (Novel View Synthesis).

كانت سرعة تدريب وعرض NeRF التقليدي بطيئة نسبيًا، ثم جاءت أعمال لاحقة مثل Instant‑NGP التي سرّعت بشكل كبير التقارب والاستدلال من خلال ترميز شبكي تجزئي متعدد الدقة؛ أما Gaussian Splatting فاستبدلت تمثيل المشهد بجسيمات غاوسية ثلاثية الأبعاد، وحققت عرضًا عالي الجودة وفي الوقت الفعلي من زوايا جديدة عبر استراتيجية تنقيط فعالة. في الوقت نفسه، وسّعت أعمال كثيرة نطاق NeRF/Gaussian بإضافات مثل القابلية للتحرير وتعدد الوسائط والقابلية للتركيب، مما دفعها تدريجيًا من النماذج البحثية إلى المنظومات الهندسية.

على مستوى التحويل إلى منتجات، تم دمج تقنيات NeRF/Gaussian في منتجات ذكاء اصطناعي ثلاثية الأبعاد متنوعة:

أدوات "فيديو متعدد المناظير → مشهد ثلاثي الأبعاد" على الهواتف/الحواسيب، تعتمد في طبقتها السفلية غالبًا على الحقول العصبية أو الجسيمات الغاوسية لإنجاز إعادة البناء والعرض؛
في خطوط أنابيب أصول الألعاب/الأفلام، تُستخدم الحقول العصبية لالتقاط المشاهد بسرعة واستعادة الإضاءة، ثم التصدير إلى شبكة + نسيج لاستخدامها في أدوات DCC التقليدية؛
خدمات الذكاء الاصطناعي ثلاثية الأبعاد التي تطلقها شركات السحابة ومنصات المحتوى الكبرى، مثل "Hunyuan3D" من Tencent وTripo وغيرها، التي تدعم عادةً "صور متعددة المناظير/فيديو قصير → نموذج/مشهد ثلاثي الأبعاد قابل للتحرير"، وتوظف داخليًا حقول الإشعاع العصبي وتمثيل SDF/Gaussian وإعادة البناء الصريح اللاحق، لتغليف النتائج ثلاثية الأبعاد عالية الجودة في واجهات API أو منتجات تفاعلية صديقة للمطورين.

3.2 فهم المشهد ثلاثي الأبعاد والتحديد المكاني (3D Scene Understanding & SLAM)

إذا كان إدراك وإعادة بناء المشهد ثلاثي الأبعاد يجيبان على سؤال "كيف يبدو هذا العالم؟"، فإن فهم المشهد ثلاثي الأبعاد والتحديد المكاني يجيبان بشكل أعمق على: "أين أنا في هذا العالم؟ ما هي المناطق التي يمكنني السير فيها في هذا العالم، وما هي العوائق؟" بالنسبة لمكانس الروبوت، وروبوتات AGV، والطائرات بدون طيار (الدرونز)، والملاحة عبر الواقع المعزز (AR)، وأنظمة التحديد الداخلي، فإن القدرة على التحديد الذاتي، وبناء الخرائط الذاتية، وتخطيط المسار الذاتي في البيئة ثلاثية الأبعاد تُعد شرطًا أساسيًا للبقاء.

يدور هذا الجزء من العمل بشكل رئيسي حول الفهم الدلالي ثلاثي الأبعاد و SLAM (Simultaneous Localization and Mapping): حيث يقوم الأول بإجراء التقسيم الدلالي والتعرف على المناطق القابلة للمرور داخل المشهد ثلاثي الأبعاد المُعاد بناؤه، بينما يقوم الثاني بتقدير وضعية الكاميرا/الروبوت وبناء الخرائط باستخدام مستشعرات مثل الكاميرا/IMU/LiDAR. من الناحية الهندسية، عادةً ما يتم تضمين هذه الطبقة في صورة SDK أو وحدات خوارزمية داخل هيكل قاعدة الروبوت، أو وحدة تحكم طيران الدرونز، أو محرك الواقع المعزز على الأجهزة المحمولة.

السيناريوهات
- الروبوتات المنزلية والخدمية: بناء الخرائط والتعرف على أنواع الغرف والعوائق في البيئات الداخلية بواسطة مكانس الروبوت وروبوتات توصيل الطعام/التفتيش، لتحقيق التخطيط التلقائي لمسارات التنظيف أو الدوريات.
- المستودعات والخدمات اللوجستية: التنقل الذاتي لروبوتات AGV/AMR داخل المستودعات، والتعرف على الأرفف والممرات والمناطق المحظورة، لإنجاز مهام النقل والجرد.
- الطائرات بدون طيار والروبوتات الخارجية: بناء خرائط ثلاثية الأبعاد في البيئات الخارجية، وتجنب العوائق مثل المباني والأشجار والأسلاك الكهربائية، لتنفيذ مهام التفتيش والمسح والأمن.
- الملاحة بالواقع المعزز والتحديد الداخلي: حصول الهواتف/نظارات الواقع المعزز على وضعية الكاميرا عبر SLAM، وعرض أسهم الملاحة ومعلومات الغرف ونقاط الاهتمام (POI) على الخريطة الدلالية، لتحقيق جولات وملاحة غامرة.
المبادئ
- التقسيم الدلالي ثلاثي الأبعاد وفهم المشهد: إجراء التقسيم الدلالي على تمثيلات السحابة النقطية أو الفوكسل، وتمييز الهياكل مثل الجدران والأرضيات والطاولات والكراسي والأرفف والأبواب والنوافذ، إلى جانب التعرف على المناطق القابلة للمرور والعوائق، لتوفير معلومات دلالية لاتخاذ قرارات الملاحة والسلوك.
- تقدير الوضعية و SLAM: من خلال Visual SLAM (أحادي/ثنائي العدسة/RGB‑D) أو LiDAR‑SLAM، يتم تقدير الوضعية السداسية الأبعاد (6D) للكاميرا/الروبوت من بيانات الاستشعار المتتالية، ومعالجة اكتشاف الحلقات المغلقة وتحسين الخرائط، ودمج معلومات متعددة المصادر مثل IMU وسرعة العجلات وGNSS عند الضرورة لتعزيز المتانة.
- بناء الخرائط والملاحة: تراكب المعلومات الهندسية والدلالية على الخرائط المحلية/العالمية لتشكيل خرائط ثنائية/ثلاثية الأبعاد/طوبولوجية/دلالية، ومن ثم إجراء تخطيط المسار وتجنب العوائق وتوزيع المهام بناءً عليها.
النماذج
- أنظمة SLAM: سلسلة ORB‑SLAM الكلاسيكية القائمة على النقاط المميزة، وطريقة DSO المباشرة، بالإضافة إلى VINS‑Mono / VINS‑Fusion التي تدمج الملاحة بالقصور الذاتي، والتي تحقق تقديرًا دقيقًا للوضعية وخرائط كثيفة/شبه كثيفة من خلال تتبع الميزات الأمامي + التحسين الخلفي. وفي دمج LiDAR/البصري مع LiDAR، تنتشر أطر مثل LIO‑SAM.
- شبكات التقسيم الدلالي ثلاثي الأبعاد: شبكات CNN ثلاثية الأبعاد مثل 3D U‑Net و MinkowskiNet، وسلسلة PointNet++ / KPConv / SparseConv القائمة على السحابة النقطية، والمستخدمة في التقسيم الدلالي والتقسيم التميزي للسحب النقطية/الفوكسل.
- التحديد المكاني بدمج متعدد المستشعرات: طرق قائمة على تحسين الرسم البياني أو التصفية (EKF/UKF)، تدمج المعلومات متعددة المصادر (بصرية، IMU، LiDAR، عداد المسافات) في فضاء حالة موحد، مما يعزز استقرار التحديد في ظروف الإضاءة السيئة أو نقص النسيج أو البيئات الديناميكية.

بشكل عام، يشكل فهم المشهد ثلاثي الأبعاد والتحديد المكاني الأساس الذي يمكّن الروبوتات من "التحرك": أي بناء إطار موثوق للتحديد الذاتي في العالم ثلاثي الأبعاد المعقد، وجعل الخرائط "ذات معنى"، مما يدعم تخطيط المهام عالية المستوى والتفاعل بين الإنسان والآلة.

3.2.1 التقسيم الدلالي ثلاثي الأبعاد وفهم المناطق القابلة للمرور

في الخرائط الهندسية البحتة، تكون جميع الهياكل مجرد نقاط/فوكسلات غير متمايزة؛ أما في التطبيقات الواقعية، فما يهمنا هو: أين الأرض، وأين الجدران، وأين توجد الطاولات أو الأرفف، وأين يمكن المرور. التقسيم الدلالي ثلاثي الأبعاد يهدف إلى إسناد تسمية دلالية لكل نقطة أو فوكسل، محولًا "الهندسة البحتة" إلى "هندسة + دلالات".

في السيناريوهات الداخلية/الخارجية، تشمل الأهداف النموذجية:

الهياكل الثابتة: الجدران، الأرضيات، الأسقف، السلالم، الأعمدة، الطرق، حواف الأرصفة وغيرها؛
الأثاث والتجهيزات: الطاولات والكراسي، الخزائن، الأرفف، الأبواب والنوافذ، الدرابزين وغيرها؛
المناطق القابلة/غير القابلة للمرور: المناطق التي يمكن للروبوت السير فيها، والعوائق التي يجب الالتفاف حولها، والمناطق المحظورة وغيرها.

من ناحية النمذجة، غالبًا ما يعتمد التقسيم الدلالي ثلاثي الأبعاد على:

نهج الفوكسل/الالتفاف المتناثر: بعد تحويل السحابة النقطية إلى فوكسلات، تُستخدم شبكات CNN متناثرة مثل 3D U‑Net و MinkowskiNet لتعلم ميزات على مستوى الفوكسل، مع مراعاة كل من التفاصيل المحلية والهيكل العالمي.
نهج السحابة النقطية المباشر: شبكات السحابة النقطية مثل PointNet++ و KPConv، التي تقوم بتجميع الميزات في الأحياء المحلية لتحقيق تنبؤ دلالي على مستوى النقاط.

في تطبيقات مثل مكانس الروبوت وروبوتات AGV، يتم تجريد نتائج التقسيم الدلالي بشكل أكبر إلى خرائط دلالية: على سبيل المثال، تقسيم الغرف إلى غرفة نوم/غرفة معيشة/مطبخ، أو تقسيم مساحة المستودع إلى مناطق أرفف/ممرات/مناطق محظورة. ولا يقتصر الأمر على معرفة الروبوت "أين يمكنه السير"، بل يمكنه أيضًا تخصيص استراتيجيات مختلفة بناءً على نوع الغرفة (مثل تجنب مناطق السجاد في غرفة النوم، أو تغطية مناطق أرفف معينة في المستودع أولاً).

3.2.2 تقدير الوضعية و SLAM والتحديد المكاني بدمج متعدد المستشعرات

يهدف SLAM (Simultaneous Localization and Mapping) إلى: تقدير مسار الذات وبناء خريطة للبيئة أثناء التحرك في بيئة غير معروفة. بالنسبة للبيئات الداخلية التي تفتقر إلى دعم تحديد خارجي عالي الدقة (مثل RTK‑GNSS)، يُعد SLAM الخيار المُفضل للغالبية العظمى من الروبوتات ومحركات الواقع المعزز.

في Visual SLAM، تنقسم الطرق الممثلة بـ ORB‑SLAM و DSO و VINS‑Mono/VINS‑Fusion عادةً إلى عدة وحدات رئيسية:

الواجهة الأمامية: استخراج وتتبع النقاط/الكتل الرئيسية من الصور المتتالية، وتقدير الوضعية النسبية بين الإطارات المتجاورة.
الواجهة الخلفية: إجراء BA أو تحسين الرسم البياني في نافذة منزلقة أو رسم بياني عالمي، ومعالجة الانجراف واكتشاف الحلقات المغلقة وإعادة التحديد.
الخريطة: بناء خرائط كثيفة أو شبه كثيفة بناءً على الوضعية ومعلومات العمق، مما يوفر الأساس للملاحة أو العرض اللاحق.

نظرًا لأن الرؤية البحتة قد تفشل عند نقص النسيج أو التغيرات الحادة في الإضاءة، يُعتمد عمليًا بشكل عام على التحديد المكاني بدمج متعدد المستشعرات:

بصري + IMU: أطر مثل VINS‑Mono/VINS‑Fusion تجمع بين الدقة قصيرة المدى عالية التردد لـ IMU والقيود الهندسية والمقياسية للرؤية، مما يحسن بشكل كبير من الاستقرار في السيناريوهات قصيرة المدى وعند المنعطفات الحادة.
LiDAR + IMU + بصري: أطر عداد المسافات مثل LIO‑SAM تدمج الملاحة بالقصور الذاتي مع معلومات بصرية اختيارية في LiDAR‑SLAM، مستفيدة من تكاملية الثلاثة لتحقيق تحديد مكاني متين، وتُستخدم على نطاق واسع في القيادة الذاتية والمسح عالي الدقة.

على مستوى المنتج، عادةً ما يتم تغليف هذه الطرق كجزء من وحدة تحكم هيكل قاعدة الروبوت، أو وحدة تحكم طيران الدرونز، أو محرك الواقع المعزز (مثل Visual‑Inertial SLAM في ARKit/ARCore)، أو SDK التحديد الداخلي، مما يحجب عن التطبيقات العليا تعقيدات تقدير الحالة وتحسين الرسم البياني، ليتسنى للمطورين الحصول مباشرة على "الوضعية الفورية + الخريطة".

3.2.3 الخرائط الدلالية والملاحة وتجنب العوائق

بعد الحصول على تقدير وضعية مستقر وخرائط هندسية/دلالية، تأتي الخطوة التالية وهي جعل الروبوت "يتحرك بذكاء". يتضمن هذا الجزء بشكل رئيسي بناء الخرائط الدلالية وتخطيط المسار وتجنب العوائق.

بناء الخرائط الدلالية: تراكب المعلومات الدلالية (نوع الغرفة، نقاط الاهتمام POI، تسميات المناطق) على الخريطة الهندسية، لتشكيل تمثيل خريطة مناسب لاتخاذ القرارات عالية المستوى. على سبيل المثال:
- في السيناريو المنزلي، تقسيم الخريطة إلى مناطق مثل غرفة النوم وغرفة المعيشة والمطبخ والحمام؛
- في سيناريو المستودعات، وضع تسميات لمواقع الأرفف ومناطق التحميل والمناطق الخطرة وغيرها؛
- في المراكز التجارية/المعارض الكبيرة، وضع تسميات لنقاط الاهتمام مثل المتاجر ومكاتب الخدمة والحمامات، لاستخدامها في الملاحة والجولات عبر الواقع المعزز.
تخطيط المسار وتجنب العوائق: بناء خريطة شبكية أو طوبولوجية على الخريطة، واستخدام خوارزميات تخطيط مثل A* و D* Lite و RRT لإيجاد مسار ممكن للروبوت من نقطة البداية إلى نقطة الهدف؛ مع إعادة التخطيط المحلي وتجنب العوائق بالاعتماد على الإدراك الفوري (العوائق الأمامية، المشاة/المركبات الديناميكية)، لضمان سلامة وكفاءة التشغيل.
سلوك الملاحة وجدولة المهام: في روبوتات AGV والطائرات بدون طيار، يتم تركيب وحدات جدولة المهام والتنسيق متعدد الروبوتات فوق الملاحة: توزيع المهام، وتجنب الازدحام، وتحسين المسارات الإجمالية واستهلاك الطاقة.

تعتمد أنظمة الملاحة بالواقع المعزز والتحديد الداخلي أيضًا بشكل أساسي على خرائط دلالية وتخطيط مسار مماثل، باستثناء أن "المنفذ" يتحول من الروبوت إلى الإنسان: يحصل النظام على وضعية جهاز المستخدم عبر SLAM، ويخطط مسار السير على الخريطة الدلالية، ثم يعرض المسار بصريًا على هيئة واقع معزز متراكب على مشهد العالم الحقيقي.

3.3 التوليد والتحرير ثلاثي الأبعاد (3D Generation & Editing)

إذا كان الإدراك ثلاثي الأبعاد و SLAM يمثلان "جمع وفهم" الهندسة من العالم الحقيقي، فإن التوليد والتحرير ثلاثي الأبعاد يقفان من منظور إنتاج المحتوى: كيفية استخدام الذكاء الاصطناعي لإنتاج وتعديل الأصول ثلاثية الأبعاد تلقائيًا. وهذا يلبي بشكل مباشر احتياجات المحتوى الضخمة في مجالات الألعاب، والأفلام، والشخصيات الرقمية، والمساحات الافتراضية، والعرض التجاري الإلكتروني، والطباعة ثلاثية الأبعاد وغيرها.

في العامين أو الثلاثة أعوام الماضية، ومع الاختراقات في تقنيات مثل NeRF/Gaussian وتمثيل SDF ونماذج الانتشار متعددة الوسائط، دخل التوليد ثلاثي الأبعاد مرحلة تطور سريع: أصبح توليد نماذج أو مشاهد ثلاثية الأبعاد بنقرة واحدة من النص أو الصورة أو الفيديو حقيقة واقعة، وأطلقت كبرى شركات الحوسبة السحابية والشركات الناشئة أدوات عبر الإنترنت تعتمد على سلاسل أساليب مثل "Hunyuan 3D" و Tripo و DreamFusion / Magic3D، مما يجعل الإنتاج ثلاثي الأبعاد يتطور تدريجيًا نحو "متناول الجميع". يمكن تقسيم التوليد والتحرير ثلاثي الأبعاد تقريبًا إلى أربع فئات من القدرات: النص إلى ثلاثي الأبعاد، والصورة/الفيديو إلى ثلاثي الأبعاد، وتحسين النماذج وتحريرها، بالإضافة إلى الربط والتحريك.

السيناريوهات
- إنتاج أصول الألعاب/الأفلام: توليد نماذج ثلاثية الأبعاد قابلة للاستخدام بسرعة للشخصيات والدعائم والمباني والمشاهد، مما يقلل بشكل كبير من عبء العمل الفني.
- التجارة الإلكترونية وعرض المنتجات: توليد نماذج عرض ثلاثية الأبعاد تلقائيًا من نصوص المنتجات أو الصور، لاستخدامها في المعاينة ثلاثية الأبعاد، والتجربة عبر الواقع المعزز، والإعلانات التفاعلية.
- الشخصيات الرقمية والمحتوى الافتراضي: توليد أصول ثلاثية الأبعاد بسرعة مثل الشخصيات الافتراضية، وعارضات التجربة الافتراضية، ومشاهد المذيعين الافتراضيين، لدعم البث المباشر والفيديوهات القصيرة والتطبيقات التفاعلية.
- الطباعة ثلاثية الأبعاد والنمذجة الشخصية: توليد نماذج قابلة للطباعة من الرسومات/الصور/النصوص، لتحقيق الهدايا الشخصية وتصميم النماذج الأولية والتطبيقات التعليمية.
المبادئ
- النص إلى ثلاثي الأبعاد (Text‑to‑3D): ترميز وصف النص إلى متجه دلالي، ثم من خلال تحسين متعدد المراحل أو عملية انتشار لتوليد تمثيل ثلاثي الأبعاد (NeRF/SDF/Gaussian/Mesh)، وعادةً ما يتم الاستعانة بنماذج قوية لتحويل النص إلى صورة ثنائية الأبعاد "كمقيّم" أو كمعرفة مسبقة.
- الصورة/الفيديو إلى ثلاثي الأبعاد: استخدام صورة واحدة أو عدة صور، أو فيديو متعدد الزوايا كإشراف، مع دمج NeRF أو SDF أو التمثيلات الهجينة الضمنية/الصريحة، لإعادة بناء نموذج ثلاثي الأبعاد بهندسة وأنسجة.
- تحسين النماذج ثلاثية الأبعاد وتحريرها: إعادة الهيكلة، والتبسيط، وتعزيز التفاصيل، وتوليد LOD، وفرد UV وتوليد الخرائط، بالإضافة إلى التشوه والتنسيق بناءً على اللغة/الصورة للنماذج الموجودة.
- الربط والتحريك: استنتاج بنية الهيكل العظمي تلقائيًا للشخصيات ثلاثية الأبعاد وإكمال Rigging، ودعم الرسوم المتحركة الهيكلية والمحاكاة الفيزيائية (الأقمشة، الأجسام اللينة، الأجسام الصلبة)، لتكوين أصول ديناميكية قابلة للتحريك.
النماذج
- التمثيلات الأساسية للتوليد ثلاثي الأبعاد: NeRF / Instant‑NGP و SDF (الأسطح الضمنية) و Gaussian Splatting وشبكات التوليد القائمة على Mesh، التي تشكل فضاء التعبير عن البيانات ثلاثية الأبعاد.
- طرق Text‑to‑3D: DreamFusion و Magic3D و Fantasia3D وغيرها من المسارات النموذجية، التي تكمل التوليد من النص إلى ثلاثي الأبعاد من طرف إلى طرف من خلال "نموذج النص إلى صورة ثنائية الأبعاد + تحسين ثلاثي الأبعاد" أو "نماذج الانتشار ثلاثية الأبعاد"، مما وضع الأساس التقني لمنتجات لاحقة مثل Hunyuan 3D و Tripo.
- نماذج الصورة/الفيديو إلى ثلاثي الأبعاد: أطر إعادة البناء والتحسين القائمة على NeRF/SDF/Gaussian، لاستعادة هندسة وأنسجة ثلاثية الأبعاد مستقرة من تناسق متعدد الزوايا والمعرفة المسبقة للزاوية الواحدة.
- خوارزميات الربط والتحريك: استخراج الهيكل العظمي تلقائيًا، والتنبؤ بأوزان الهيكل العظمي، وإعادة الاستهداف وتوليد الحركة القائمين على التعلم العميق، مما يوفر أدوات بنقرة واحدة لتحريك الشخصيات الافتراضية/الشخصيات.

على هذا المستوى، تندمج أدوات DCC ثلاثية الأبعاد التقليدية (Maya/Blender/3ds Max وغيرها) تدريجيًا مع سلسلة أدوات الذكاء الاصطناعي: حيث يتم تضمين العديد من خدمات الذكاء الاصطناعي ثلاثية الأبعاد في عمليات الإنتاج الحالية على شكل إضافات أو واجهات سحابية، مما يسمح للمصممين والفنانين بتكرار الأصول بسرعة في إطار تعاون الإنسان والآلة.

3.3.1 النص إلى ثلاثي الأبعاد ونماذج المشاهد الأولية

هدف النص إلى ثلاثي الأبعاد (Text‑to‑3D) هو: إعطاء وصف بلغة طبيعية، مثل "لعبة بطة صفراء صغيرة بأسلوب كرتوني، مع وشاح أزرق، مناسبة لعرض ألعاب الأطفال"، ويقوم النظام تلقائيًا بتوليد نموذج ثلاثي الأبعاد قابل للتحرير (Mesh/NeRF/SDF/Gaussian وغيرها). هذا تطبيق نموذجي لدمج نماذج اللغة الكبيرة/نماذج متعددة الوسائط مع التمثيل ثلاثي الأبعاد.

تشمل المسارات التقنية النموذجية:

التحسين القائم على نماذج النص إلى صورة ثنائية الأبعاد (مثل DreamFusion و Magic3D):
استخدام نماذج Text‑to‑Image قوية (مثل نماذج الانتشار) "كمقيّم"، لتقييم الصورة المعروضة من التمثيل ثلاثي الأبعاد من زاوية معينة، ومدى مطابقتها للوصف النصي.
من خلال تحسين التدرج أو عملية الانتشار، تعديل التمثيل ثلاثي الأبعاد (NeRF/SDF/Mesh) بشكل متكرر، بحيث تتوافق الصور المعروضة من زوايا متعددة مع الدلالات النصية.
نماذج الانتشار ثلاثية الأبعاد / التوليد المباشر:
استخدام البيانات ثلاثية الأبعاد (السحب النقطية، الفوكسلات، معاملات الحقول الضمنية، جسيمات Gaussian إلخ) كهدف لتوليد نماذج الانتشار، مع التدريب المسبق على مجموعات بيانات ثلاثية الأبعاد واسعة النطاق؛
من خلال التحكم بالشروط النصية، تحقيق أخذ عينات Text‑to‑3D من طرف إلى طرف.

على مستوى المشهد، تتيح قدرة نماذج المشاهد الأولية للمستخدمين وصف التخطيط المكاني باستخدام اللغة الطبيعية أو الرسومات التقريبية، مثل "غرفة معيشة بنافذة ممتدة من الأرض إلى السقف، على اليسار أريكة على شكل L، وفي المنتصف طاولة قهوة، وعلى اليمين رف كتب وخزانة تلفزيون"، ويقوم النظام تلقائيًا ببناء مخطط ثلاثي الأبعاد بهندسة ودلالات معقولة. يمكن لاحقًا تنقيح النماذج والمواد في أدوات DCC، أو إنتاج نماذج أولية قابلة للاستخدام للمشهد مباشرة من خلال قدرات "توليد المشاهد" في أدوات مثل Hunyuan 3D و Tripo.

حاليًا، أطلقت العديد من المنصات منتجات Text‑to‑3D موجهة للمصممين والمطورين:

"Hunyuan 3D" وغيرها تدمج قدرات النص إلى ثلاثي الأبعاد والتوليد متعدد الزوايا وإعادة البناء في واجهة موحدة، تدعم التوليد السريع للشخصيات والدعائم والمشاهد من النص ثم التصدير إلى محركات الألعاب؛
منتجات مثل Tripo تؤكد على "الإدخال متعدد الوسائط + الإخراج ثلاثي الأبعاد بنقرة واحدة"، وتدعم مزج النصوص البسيطة مع الصور المرجعية، لتوجيه توليد أصول ثلاثية الأبعاد تلبي متطلبات الأسلوب والبنية.

3.3.2 الصورة/الفيديو إلى ثلاثي الأبعاد وتحسين النماذج وتحريرها

مقارنة بالنص الخالص، فإن توليد النماذج ثلاثية الأبعاد من الصور أو الفيديو يوفر قيودًا هندسية أقوى واتساقًا بصريًا أفضل. لذلك، تدعم العديد من منتجات الذكاء الاصطناعي ثلاثية الأبعاد الصورة إلى ثلاثي الأبعاد / الفيديو إلى ثلاثي الأبعاد:

صورة واحدة → نموذج ثلاثي الأبعاد أولي: استخدام المعرفة المسبقة للزاوية الواحدة (مثل المعرفة المسبقة لأشكال الوجوه والأجسام البشرية وفئات الأشياء الشائعة)، لاستنتاج الهندسة ثلاثية الأبعاد التقريبية، وتوليد نموذج ثلاثي الأبعاد يمكن استخدامه للمعاينة أو التفاعل البسيط.
صور متعددة / فيديو قصير → نموذج ثلاثي الأبعاد عالي الجودة: استخدام إعادة البناء عبر NeRF/SDF/Gaussian والهندسة متعددة الزوايا والمعالجة اللاحقة بشكل شامل، لتحويل عشرات الصور أو بضع ثوانٍ من الفيديو إلى نموذج ثلاثي الأبعاد عالي الدقة، مناسب لأصول الألعاب/الأفلام أو العروض التجارية الإلكترونية عالية الجودة.

توليد الهندسة ثلاثية الأبعاد هو الخطوة الأولى فقط، ويليه الكثير من أعمال تحسين النماذج وتحريرها:

إعادة الهيكلة والتبسيط: تحويل الحقول الضمنية أو Mesh عالية التعدد إلى هيكل منتظم بعدد وجوه متحكم فيه، لتسهيل الربط والتحريك والعرض الفوري.
توليد LOD: توليد نماذج متعددة المستويات من التفاصيل (Level of Detail) تلقائيًا، باستخدام نماذج منخفضة التفاصيل عن بعد ونماذج عالية التفاصيل عن قرب، لتحقيق التوازن بين جودة الصورة والأداء.
فرد UV وتوليد الخرائط: فرد UV تلقائيًا للنموذج، وتوليد أو تحسين خرائط النورمال وخرائط الإزاحة وخرائط الخشونة/المعدنية وغيرها من مواد PBR؛ وبعض النماذج تدعم أيضًا توليد أنسجة منمقة تلقائيًا من النص أو الصور المرجعية.
تحرير الهندسة والأسلوب: إجراء تعديلات محلية بناءً على اللغة أو الصور المرجعية، مثل "اجعل أرجل هذا الكرسي أقصر قليلاً" أو "حول هذا المبنى إلى أسلوب سايبربانك"، ويتم ذلك عادةً من خلال عمليات في الفضاء الكامن للأشكال أو تحرير الحقول العصبية.

غالبًا ما تدمج منتجات مثل Hunyuan 3D و Tripo العمليات المذكورة أعلاه: حيث يبدأ المستخدم من الصور/الفيديو أو النصوص البسيطة، ويكمل النظام داخليًا إعادة البناء وإعادة الهيكلة ورسم الخرائط والتصدير، مما يسمح حتى للمستخدمين غير المحترفين بالحصول على نماذج ثلاثية الأبعاد "جاهزة للاستخدام الفوري" في غضون دقائق، مما يقلص بشكل كبير الوقت من المفهوم إلى الأصل.

3.3.3 الربط والتحريك والأصول ثلاثية الأبعاد الديناميكية

النماذج الثابتة ليست سوى نصف المحتوى، أما الأصول ثلاثية الأبعاد "القابلة للتحريك" فهي أكثر أهمية في الألعاب والأفلام والشخصيات الافتراضية والتطبيقات التفاعلية. وهذا يشمل ربط الهيكل العظمي (Rigging)، ورسم الأوزان، والتحريك والمحاكاة الفيزيائية وغيرها من العمليات التي كانت تقليديًا أعمالًا احترافية عالية العتبة، وأصبحت الآن مدعومة بأدوات الذكاء الاصطناعي بشكل مساعد أو حتى شبه تلقائي.

الـ Rigging التلقائي: عند إعطاء Mesh لشخصية، يستنتج النظام تلقائيًا بنية الهيكل العظمي الهرمية (العمود الفقري، الأطراف، الأصابع إلخ) ومواضع العظام في النموذج، ويتنبأ بأوزان كل رأس بالنسبة لكل عظمة. يمكن لطرق التعلم العميق في السنوات الأخيرة تعلم هذا التعيين على مجموعات بيانات شخصيات واسعة النطاق مع تسميات هيكلية، لتحقيق ربط هيكلي بنقرة واحدة.
التحريك وتوليد الحركة: تراكب بيانات الحركة (Mocap أو المولدة بالذكاء الاصطناعي) على الهيكل العظمي الموجود، لإكمال رسوم المشي والجري وتعابير الوجه والإيماءات وغيرها؛ ويمكن لتوليد الحركة وإعادة الاستهداف القائمين على التعلم العميق نقل حركات الجسم البشري من الفيديو أو حركات الشخصيات الأخرى إلى الشخصية الجديدة.
المحاكاة الفيزيائية: إجراء محاكاة فيزيائية للأقمشة والأجسام اللينة والأجسام الصلبة وغيرها، لجعل حركة الشعر والملابس والأعلام والأشياء المرنة أكثر طبيعية. تستخدم بعض الأنظمة الشبكات العصبية لتسريع أو تقريب الفيزياء، مما يجعل التأثيرات الفيزيائية في المحركات الفورية أكثر واقعية.

من حيث المنتجات والنظام البيئي، غالبًا ما تكون هذه القدرات مضمنة في:

سلسلة أدوات أصول الألعاب/الأفلام: توفير Rigging بنقرة واحدة وتوزيع أوزان تلقائي ومكتبة حركات أساسية للمصممين، مما يقلل بشكل كبير من العمل المتكرر؛
منصات إنتاج الشخصيات الافتراضية/الأصول الرقمية: بدءًا من صور الأشخاص أو المسح الضوئي، مرورًا بإعادة البناء ثلاثي الأبعاد + الـ Rigging التلقائي + تحريك الحركة، وإخراج شخصيات افتراضية قابلة للتحريك في البث المباشر والفيديوهات القصيرة والتطبيقات التفاعلية؛
منصات الذكاء الاصطناعي ثلاثية الأبعاد (مثل Hunyuan 3D و Tripo والمنتجات المماثلة): بعد التوليد ثلاثي الأبعاد، إضافة قدرات الربط والتحريك البسيط، بحيث "يمكن للشخصية المولدة أن تتحرك فورًا"، دون الحاجة إلى عمليات معقدة في أدوات DCC.

مع نضوج تقنيات التوليد والتحرير ثلاثية الأبعاد، تتطور عملية إنتاج المحتوى ثلاثي الأبعاد بأكملها من "التمركز حول أدوات DCC الاحترافية" إلى "التعاون بين الإنسان والآلة المدفوع بالذكاء الاصطناعي": حيث يتولى الذكاء الاصطناعي التوليد والكثير من الأعمال الأساسية، بينما يتخذ البشر القرارات بشكل أكبر في تعريف الأسلوب ومراقبة الجودة ونقاط التصميم الرئيسية. وتعد منتجات الجيل الجديد من الذكاء الاصطناعي ثلاثي الأبعاد مثل Hunyuan 3D و Tripo تجسيدًا مركّزًا لهذا التوجه، حيث توفر بنية تحتية ثلاثية الأبعاد أسرع وأسهل في الاستخدام لتطبيقات الألعاب والأفلام والواقع المعزز/الافتراضي والتوأمة الرقمية والشخصيات الافتراضية في المستوى الأعلى.

4. الصوت (Audio / Speech)

في المجموعة التقنية الشاملة، يشير "الصوت" إلى إدراك الإشارات الصوتية وتوليدها: ويشمل ذلك معالجة الأشكال الموجية الخام والأطياف، بالإضافة إلى تحويل الكلام إلى نصوص، وفهم "من يتحدث" و"ماذا يقول"، وكذلك تأليف وتوليف الأصوات والموسيقى. على غرار الرؤية، يمكن تقسيم الصوت إلى عدة طبقات: الطبقة السفلية معالجة الأشكال الموجية والأطياف مسؤولة عن "السمع بوضوح"؛ الطبقة الوسطى التعرف على الكلام وتقنيات المتحدث مسؤولة عن "فهم من يقول ماذا"؛ وفوق ذلك، تأتي الطبقات الأكثر تجريدًا فهم الصوت/الموسيقى وتوليد الكلام والموسيقى. تدعم هذه المجموعة المتكاملة من القدرات منتجات مثل الترجمة الفورية للاجتماعات، والمساعدين الصوتيين، وتحرير الصوت في مرحلة ما بعد الإنتاج للبودكاست، ومكبرات الصوت الذكية، والمراقبة الأمنية الصوتية، والتوصية بالموسيقى وتوليدها.

4.1 معالجة الصوت على مستوى الموجة: البدء من "السمع بوضوح"

في أدنى طبقة من تقنية الصوت، لا نهتم أولاً بـ "ماذا قيل" أو "من المتحدث" أو "ما هو نمط الموسيقى"، بل نهتم بـ ما إذا كان الصوت نفسه نظيفًا ومسموعًا بوضوح. تعمل هذه الطبقة بشكل أساسي على مستوى الشكل الموجي والطيف، من خلال عمليات مثل إعادة العينات والتحسين وإزالة الضوضاء والفصل، لتحويل الأصوات الأصلية المشوشة والمشوهة والمختلطة إلى "إشارات نظيفة" أكثر ملاءمة للتعرف والتحليل والتوليد اللاحق. يمكن تشبيهها بـ "تحسين الصورة + إزالة الضوضاء + فصل المقدمة عن الخلفية" في المجال البصري، حيث تركز أكثر على التنظيف على المستوى الصوتي دون معالجة الدلالات مباشرة.

من منظور المنتج، تكاد هذه الطبقة تكون "غير مرئية" خلف جميع منتجات الصوت: إزالة الضوضاء في الوقت الفعلي في برامج الاجتماعات، وتحرير الصوت في مرحلة ما بعد الإنتاج للبودكاست والفيديوهات القصيرة، و"وضع تحسين الصوت" في مسجلات الصوت والهواتف المحمولة، و"مفتاح تحسين الصوت" في منصات البث المباشر، بالإضافة إلى المعالجة الأمامية لنماذج ASR/البصمة الصوتية، كلها تجسيد مباشر لمعالجة الصوت على مستوى الموجة. فيما يلي نواصل التنظيم من ثلاثة زوايا: السيناريوهات والمبادئ والنماذج، ونتوسع في الأقسام الفرعية التالية في ثلاثة اتجاهات رئيسية: المعالجة المسبقة واستخراج الميزات، والتحسين وإزالة الضوضاء، وفصل مصادر الصوت.

السيناريوهات
- التواصل والاجتماعات عبر الإنترنت: Zoom وTencent Meeting وغيرها في المكاتب الصاخبة ومساحات العمل المفتوحة والمنازل، تقوم في الوقت الفعلي بكبت أصوات لوحة المفاتيح والطرق وضوضاء الشارع والصدى، مما يجعل الصوت أكثر وضوحًا.
- إنشاء المحتوى وتحرير الصوت في مرحلة ما بعد الإنتاج: في مرحلة ما بعد إنتاج البودكاست والفيديوهات القصيرة والبث المباشر، إزالة الضوضاء الخلفية وطنين الكهرباء وصدى الغرفة تلقائيًا، وإصلاح فرقعة التسجيل ونقص النطاقات الترددية، وتحسين جودة الاستماع العامة.
- التسجيل والمعالجة الأمامية للنسخ: مسجلات الصوت والترجمة الذكية وخدمات نسخ الاجتماعات، قبل الدخول إلى ASR، تقوم بمعالجة VAD وإزالة الضوضاء وتطبيع مستوى الصوت لتحسين متانة التعرف الخلفي.
- الأجهزة الطرفية وإنترنت الأشياء: "التقاط الصوت عن بُعد" و"وضع إزالة الضوضاء" على أجهزة مثل السماعات الذكية وأنظمة السيارات والكاميرات، لمحاولة التقاط المتحدث الرئيسي أو مصدر الصوت الرئيسي في المجالات الصوتية المعقدة.
المبادئ لا تفهم المعالجة على مستوى الموجة الدلالات بشكل مباشر عادةً، بل تقوم بتحسين الإشارة حول البنية الطيفية والخصائص الإحصائية:
- التحويل ذهابًا وإيابًا بين المجال الزمني ومجال التردد (مثل STFT → الطيف/طيف ميل → iSTFT)، لكبت أو نمذجة نطاقات الضوضاء وخصائص الصدى أو أصوات الخلفية.
- من خلال VAD وخصائص الطاقة/الطيف، التمييز بين "المقاطع التي تحتوي على كلام" و"مقاطع الصمت/الضوضاء"، لتقليل تأثير المقاطع غير المفيدة على المعالجة الخلفية.
- استخدام التعلم العميق أو طرق التصفية الكلاسيكية لتقدير أقنعة أو دوال الكسب لـ "طيف الكلام النظيف" و"طيف الضوضاء"، وترجيح الطيف لتحقيق التحسين وإزالة الضوضاء.
- في سيناريوهات اختلاط مصادر صوتية متعددة، من خلال شبكات الفصل الشاملة أو التمثيل المتناثر، فصل المتحدثين المختلفين أو الصوت البشري عن المصاحبة الموسيقية أو المقدمة عن أصوات الخلفية البيئية إلى مسارات مستقلة.
النماذج يمكن تقسيم النماذج على مستوى الموجة/الطيف تقريبًا إلى فئتين: نماذج المجال الطيفي ونماذج المجال الزمني الشاملة:
- سلسلة U‑Net على الطيف/طيف ميل: Spectrogram‑based U‑Net وDCCRN وغيرها، تقوم بالالتفاف والترميز–فك الترميز على مستوى "الصورة" على المستوى الزمني–الترددي، وهي حلول شائعة لمهام مثل تحسين الكلام وفصل الغناء.
- نماذج الموجة الشاملة: Wave‑U‑Net وConv‑TasNet وDemucs وغيرها، تقوم بالنمذجة مباشرة على الشكل الموجي في المجال الزمني، وتتجنب STFT/iSTFT الصريحين، وغالبًا ما تكون أفضل من حيث جودة الاستماع الذاتية ودقة المجال الزمني.
- طرق معالجة الإشارة الكلاسيكية: الطرح الطيفي وتصفية Wiener وغيرها من الطرق الترددية التقليدية، لا تزال موجودة على نطاق واسع في الأجهزة خفيفة الوزن أو السيناريوهات الحساسة جدًا للتأخير، وغالبًا ما تُدمج مع شبكات التحسين العميق لتشكيل "حلول هجينة".

4.1.1 المعالجة المسبقة واستخراج الميزات: "تمهيد المسرح" للمعالجة الخلفية

تحتاج أي نماذج لاحقة مثل ASR والتعرف على البصمة الصوتية واكتشاف الأحداث وTTS إلى إدخال صوتي موحد ونظيف ومنظم قدر الإمكان، وهذه هي مسؤولية طبقة المعالجة المسبقة واستخراج الميزات. إنها مسؤولة عن القيام بـ "التنظيف" و"توحيد التنسيق" الأساسي والحاسم للغاية، لتمهيد المسرح لنماذج الصوت العليا.

في مرحلة المعالجة المسبقة، يتم أولاً إجراء تحويل معدل العينات وتحويل القنوات على الصوت المجمع: مثل تحويل صوت ستيريو 48kHz إلى صوت أحادي 16kHz، لتلبية مواصفات إدخال النماذج اللاحقة وتقليل تكلفة الحساب. بعد ذلك، يتم تطبيع مستوى الصوت وإزالة مركبة التيار المستمر والتصفية البسيطة وغيرها، لجعل الصوت المسجل من أجهزة وسيناريوهات مختلفة أكثر اتساقًا من حيث مقياس الطاقة.

أما اكتشاف نقاط نهاية الكلام (VAD) فهو حلقة رئيسية أخرى في المعالجة المسبقة. يحاول تلقائيًا تقسيم تدفق الصوت إلى "مقاطع تحتوي على كلام" و"مقاطع صمت/ضوضاء نقية"، غالبًا بناءً على طاقة الإطار والإنتروبيا الطيفية ومعدل عبور الصفر أو تمييز شبكة عصبية صغيرة. فائدة VAD هي: يمكنه تقليل البيانات غير المفيدة المرسلة إلى نماذج ASR/البصمة الصوتية بشكل كبير، وتقليل الحمل الحسابي، مع تجنب تداخل مقاطع الصمت مع التعرف (مثل التعرف عليها خطأً كسلاسل طويلة من المسافات أو أحرف غريبة). في الاتصالات في الوقت الفعلي، يمكن لـ VAD أيضًا تشغيل "مؤشر نشاط الكلام" ومنطق الكتم التلقائي.

على مستوى استخراج الميزات، الأكثر شيوعًا هو تحويل الشكل الموجي في المجال الزمني إلى طيف أو طيف ميل. من خلال تحويل فورييه قصير الأمد (STFT)، يُحلل الصوت إلى توزيع ترددي متغير مع الزمن؛ ثم من خلال مجموعة مرشحات ميل، يمكن الحصول على طيف ميل أو ميزات ميل الرأسية (مثل log Mel‑spectrogram وMFCC) الأكثر توافقًا مع إدراك الأذن البشرية. توفر هذه الميزات الزمنية–الترددية "تمثيلاً ثنائي الأبعاد" للتعرف والفصل والتوليد اللاحق، يشبه الصورة الرمادية أو خريطة الميزات متعددة القنوات في المجال البصري، مما يسهل معالجتها بواسطة هياكل مثل الالتفاف والانتباه. مع تطور النمذجة الشاملة، هناك المزيد والمزيد من النماذج التي تتعلم الميزات مباشرة على الشكل الموجي (مثل Wav2Vec 2.0)، ولكن في الممارسة الهندسية، لا تزال تركيبة STFT + ميزات ميل هي الواجهة الأمامية الأكثر شيوعًا والأكثر أمانًا.

4.1.2 التحسين وإزالة الضوضاء: إصلاح "الصوت المشوش" إلى "صوت جاف"

في البيئات الحقيقية، ينتشر الصوت دائمًا تقريبًا في وسط من الضوضاء والصدى: صوت التكييف وطرق لوحة المفاتيح وضوضاء الطريق وضجيج الحشود وصدى الغرفة، كلها تقلل بدرجات متفاوتة من وضوح الكلام والموسيقى وجودتها الذاتية. الهدف من تحسين الكلام وإزالة الضوضاء هو كبت هذه التداخلات الخلفية قدر الإمكان مع الحفاظ على طبيعية الكلام واكتماله، وإصلاح الصوت "المشوش" إلى صوت "نظيف" قدر الإمكان.

في الطرق التقليدية، تتحقق هذه المهمة بشكل أساسي من خلال تقنيات المجال الترددي مثل الطرح الطيفي وتصفية Wiener: أولاً تقدير طيف الضوضاء، ثم على الطيف "طرح" الضوضاء وفق قواعد معينة أو إجراء تعديل كسب النطاق الترددي. وعلى الرغم من بساطة التنفيذ وأداء الوقت الفعلي الجيد، إلا أنها عرضة لإنتاج "ضوضاء موسيقية" وتشوهات ملحوظة في سيناريوهات الضوضاء القوية والضوضاء غير المستقرة والصدى المعقد.

أما طرق التعلم العميق فتقوم بتعلم تحويل (mapping) على الطيف أو الشكل الموجي: بالنظر إلى كلام مشوش، تتنبأ بقناع زمني–ترددي أو تتنبأ مباشرة بشكل موجي نظيف. تشمل الحلول الشائعة استخدام هياكل ترميز–فك ترميز مثل Spectrogram‑based U‑Net وDCCRN على طيف ميل/الطيف الخطي، لإصلاح دقيق لطيف كل إطار؛ وهناك أيضًا نماذج مثل Conv‑TasNet وDemucs وWave‑U‑Net للتحسين الشامل للموجة مباشرة على الشكل الموجي في المجال الزمني. يمكن لهذه الطرق تحسين وضوح الكلام وجودة الاستماع الذاتية بشكل كبير في سيناريوهات مثل المكالمات الصوتية والاجتماعات عبر الإنترنت وإصلاح التسجيلات.

في إنشاء المحتوى ومرحلة ما بعد الإنتاج، غالبًا ما يتضمن "إصلاح التسجيل" أيضًا عمليات أكثر "بطابع مهندس الصوت" مثل تقليل فرقعة الصوت (plosives) وتقليل الصفير (sibilance) وتعويض نقص النطاقات الترددية بالإضافة إلى المعادلة (EQ) والمعالجة الديناميكية (ضاغط/مُحدِّد). تدمج المزيد والمزيد من الأدوات هذه المعالجات التقليدية مع النماذج العميقة، لتوفير قدرات "إصلاح الصوت" و"تجميل الصوت" بنقرة واحدة، لخدمة منشئي البودكاست والفيديو ومنصات البث المباشر.

4.1.3 فصل مصادر الصوت: تفكيك "المزيج الصوتي"

إذا كان التحسين وإزالة الضوضاء هما "جعل الصوت الرئيسي أكثر بروزًا والخلفية أكثر هدوءًا"، فإن فصل مصادر الصوت يحاول بشكل أكبر تفكيك مصادر الصوت المتعددة المختلطة معًا إلى مسارات مستقلة تمامًا. على سبيل المثال: تحدث عدة متحدثين في نفس الوقت في تسجيلات الاجتماعات؛ اختلاط الصوت البشري بالمصاحبة الموسيقية في الموسيقى؛ الأحداث الرئيسية (مثل الإنذارات والصراخ) مدفونة في ضوضاء الخلفية في التسجيلات البيئية. الهدف من فصل مصادر الصوت هو استعادة الشكل الموجي أو الطيف لكل مصدر صوتي مستقل من إشارة مختلطة واحدة أو عدة إشارات.

في مجال الكلام، يُعد فصل المتحدثين المتعددين تطبيقًا أساسيًا: يحتاج النموذج إلى فصل عدة كلامات متداخلة إلى قنوات مختلفة بناءً على البصمة الصوتية والبنية الزمنية–الترددية وخصائص المتحدث، دون وجود مسارات ميكروفون منفصلة. هذه القدرة لا تحسن فقط أداء ASR للمتحدثين المتعددين، بل يمكنها أيضًا توفير إدخال أنظف لفصل المتحدثين والتعليق عليهم (Diarization). في مجال الموسيقى، يمكن لـ فصل الصوت البشري/المصاحبة الموسيقية (فصل الغناء) فصل مسار صوتي بشري واضح ومسار مصاحبة موسيقية نقية من أغنية مخلوطة، لاستخدامها في إعادة الغناء والريمكس والكاريوكي وتحليل الموسيقى وغيرها. وبالمثل، يمكن استخدام فصل الصوت البيئي/صوت المقدمة في سيناريوهات الأمن وإنترنت الأشياء، لاستخراج أصوات الأحداث الرئيسية (مثل كسر الزجاج وأصوات الشجار) من الخلفيات المعقدة.

على مستوى النماذج، يستخدم فصل مصادر الصوت عادةً قدرات نمذجة أقوى وهياكل أكثر تعقيدًا من التحسين العادي. يمكن لشبكات شاملة مثل Conv‑TasNet وDemucs وWave‑U‑Net إجراء تفكيك متعدد المصادر مباشرة في المجال الزمني؛ وفي المجال الطيفي، تشيع هياكل مثل U‑Net متعدد الفروع والانتباه وتقدير الأقنعة، للتنبؤ بأقنعة أو أطياف مخصصة لمصادر صوتية مختلفة. مع نمو بيانات التدريب والموارد الحسابية، أصبحت نماذج فصل مصادر الصوت الحديثة قادرة على إخراج مسارات منفصلة عالية الجودة يمكن استخدامها في الإبداع والتحليل الفعلي في ظل ظروف صدى وضوضاء معقدة للغاية، مما يوفر أساسًا متينًا لتحسين الصوت في البث المباشر واجتماعات المتحدثين المتعددين وإنتاج الموسيقى واسترجاع الصوت.

4.2 التعرف على الكلام وتقنيات المتحدث (ASR & Speaker)

بعد إتمام المعالجة المسبقة والتحسين والفصل على مستوى شكل الموجة، يمكننا أخيرًا البدء في طرح أسئلة ذات مستوى أعلى: "ماذا قيل في الصوت؟" "من المتحدث؟" "متى تحدث كل شخص؟" تركز هذه الطبقة على مهام "الفهم والتصنيف" المتنوعة المتعلقة بالكلام نفسه: التعرف التلقائي على الكلام (ASR)، والتعرف على المتحدث والتحقق منه، وفصل المتحدثين وتصنيفهم (Diarization)، بالإضافة إلى الكشف عن الكلمات التنبيهية والكلمات المفتاحية (KWS) الموجهة للتفاعل.

من منظور المنتج، تعد هذه الطبقة جوهر معظم "منتجات الكلام": الإدخال الصوتي بلوحة المفاتيح، ونسخ الاجتماعات، وتحليل تسجيلات خدمة العملاء، وفحص جودة خدمة العملاء الذكية، والتفاعل الصوتي مع السماعات الذكية وأنظمة السيارات، وروبوتات المكالمات الهاتفية، والتحقق الصوتي في السيناريوهات المالية، وغيرها — حيث تعتمد جميعها تقريبًا بشكل مباشر على هذه التقنيات. فهي تحول "الصوت النظيف" من الطبقة السابقة إلى تسلسلات نصية أو تصنيفات للمتحدثين أو أحداث كلمات مفتاحية، مما يجعلها أحد أهم الجسور بين العالم الصوتي والعالم الدلالي.

السيناريوهات
- التعرف التلقائي على الكلام (ASR): الترجمات الفورية، والإدخال الصوتي بلوحة المفاتيح، وتسجيل الاجتماعات والمحاضرات، ونسخ مكالمات خدمة العملاء، مما يوفر للمستخدمين قناة فورية من "السمع إلى النص".
- التعرف على المتحدث والتحقق منه: "فتح القفل بالبصمة الصوتية" و"التحقق الصوتي" في الهواتف المحمولة/البنوك/مراكز الاتصال، بالإضافة إلى البحث عن متحدث معين في كميات كبيرة من التسجيلات.
- فصل المتحدثين وتصنيفهم (Diarization): في الاجتماعات والمقابلات والمناقشات الجماعية، الإجابة تلقائيًا على "من تحدث ومتى"، لتحقيق "نسخ نصي مفصول حسب المتحدث".
- الكشف عن الكلمات التنبيهية والكلمات المفتاحية (KWS): الكشف عن كلمات التنبيه في السماعات الذكية/أنظمة السيارات ("Hey Siri" و"OK Google")، بالإضافة إلى التقاط العبارات المفتاحية في تسجيلات خدمة العملاء وفحص الجودة (مثل "شكوى" و"استرداد" و"ترقية" وغيرها).
المبادئ يمكن النظر إلى معظم مهام هذه الطبقة بشكل موحد على أنها محاذاة زمنية وتصنيف تسلسلي للمقاطع الصوتية:
- ASR: عند إعطاء مقطع كلامي، يتعلم النظام التعيين من السمات الصوتية إلى التسلسل النصي، وغالبًا ما يستخدم CTC أو RNN‑Transducer (RNN‑T) أو هياكل شاملة تعتمد على الانتباه؛ وتعتمد النماذج الحديثة في الغالب على التدريب المسبق واسع النطاق (مثل Wav2Vec 2.0 وWhisper وغيرها) ثم الضبط الدقيق.
- التعرف على المتحدث: استخراج تضمين متحدث (speaker embedding) ذي بعد ثابت من المقطع الصوتي (مثل x‑vector وECAPA‑TDNN)، حيث تقترب أصوات الشخص نفسه من بعضها في فضاء التضمين هذا، وتبتعد أصوات الأشخاص المختلفين عن بعضها، ثم يتم الجمع بين القياس أو نموذج التصنيف لإتمام التعرف والتحقق.
- فصل المتحدثين وتصنيفهم (Diarization): الاستفادة الشاملة من تضمينات البصمة الصوتية وVAD والتجميع المقطعي أو الشبكات الشاملة (EEND)، لتعيين تصنيف متحدث لكل شريحة زمنية، وبالتالي تجميع "خط زمني متعدد المتحدثين على المحور الزمني".
- KWS: إجراء كشف بنماذج صغيرة ذات زمن انتقال منخفض على تدفق صوتي مستمر، وإجراء مطابقة أنماط محلية وتقييم درجة الثقة لكلمات التنبيه أو الكلمات المفتاحية المحددة مسبقًا، مع مراعاة انخفاض القدرة الحاسوبية وارتفاع معدل الاستدعاء في آنٍ واحد.
النماذج تشمل سلسلة نماذج ASR وتقنيات المتحدث كلاً من الهياكل الشاملة والنماذج المتخصصة للتضمين وطرق التجميع:
- ASR: Wav2Vec 2.0 وConformer وWhisper وRNN‑T وCitrinet وغيرها، وتعتمد في الغالب على هياكل تجمع بين الالتفاف والانتباه الذاتي أو الانتباه الذاتي الخالص، وتدعم تعدد اللغات وقواميس كبيرة وسياقات طويلة.
- تضمين المتحدث: ECAPA‑TDNN وx‑vector وi‑vector وغيرها، ويتم الحصول على فضاء سمات متحدث قوي من خلال التدريب التصنيفي أو التعلم القياسي على كميات كبيرة من بيانات المتحدثين.
- Diarization: من السيرورة التقليدية VAD + التجزئة + التجميع، إلى طرق Diarization الشاملة (EEND) التي تخرج مباشرة مصفوفة "لحظة × متحدث".
- الكشف عن الكلمات التنبيهية/المفتاحية: واجهات CNN/RNN/Transformer خفيفة الوزن مدمجة مع CTC أو آليات بوابة، مضمنة محليًا في الجهاز، لتحقيق استماع دائم التشغيل بقدرة حاسوبية فائقة الانخفاض وزمن انتقال منخفض.

4.2.1 التعرف التلقائي على الكلام (ASR): تحويل "الصوت" إلى "نص"

التعرف التلقائي على الكلام (ASR) هو المسار الرئيسي لتحويل "الصوت → النص": سواء كان ذلك في الإدخال الصوتي بلوحة المفاتيح، أو نسخ الاجتماعات، أو الترجمات الذكية، أو تحليل تسجيلات خدمة العملاء، فإن الخطوة الأولى دائمًا هي تحويل كلام المستخدم بدقة إلى نص. تعتمد أنظمة ASR الحديثة في الغالب على هياكل شاملة: بدءًا من السمات الصوتية (مثل طيف ميل أو شكل الموجة المباشر)، مرورًا بسلسلة من الشبكات العميقة (مثل Conformer وCitrinet وEncoder القائم على Transformer)، وصولاً إلى إخراج تسلسل نصي أو تسلسل الرموز (tokens) المقابل مباشرة.

من حيث النمذجة، تشمل صعوبات ASR بشكل رئيسي الاعتماد طويل المدى، وتعدد اللغات واللهجات، وتباين اللهجات، وتداخل الكلام، والضوضاء الخلفية، والمصطلحات المتخصصة في المجال. ولهذا، يتمثل الاتجاه السائد الحالي في استخدام كميات كبيرة من الصوت غير المصنف للتدريب المسبق ذاتي الإشراف (مثل Wav2Vec 2.0 وHuBERT)، أو إجراء تدريب إشرافي واسع النطاق على بيانات متعددة اللغات والمهام (مثل Whisper)، ثم الضبط الدقيق بكميات صغيرة نسبيًا من بيانات المجال، وبالتالي تحقيق متانة جيدة عبر اللغات واللهجات والسيناريوهات المختلفة.

على مستوى المنتج، عادةً ما يتم تغليف ASR كمخرجات قدرات مثل "SDK للإدخال الصوتي بلوحة المفاتيح" و"API للتعرف على الكلام السحابي" و"خدمة نسخ الاجتماعات": يمكن أن تكون الواجهة الأمامية تعرفًا متدفقًا في الوقت الفعلي (RNN‑T وTransformer المتدفق وغيرها)، ويمكن للواجهة الخلفية تعزيز التعرف على أسماء أشخاص وأماكن وعلامات تجارية ومصطلحات أعمال محددة من خلال حقن الكلمات التنبيهية وقواميس مخصصة وقيود سياقية. وغالبًا ما تكون نتائج التعرف هذه أساسًا لمهام NLP وأنظمة الحوار وتحليل البيانات اللاحقة.

4.2.2 التعرف على المتحدث وفصله وتصنيفه: الإجابة على "من المتحدث" و"متى يتحدث"

مقارنةً بـ "ماذا قيل"، فإن "من المتحدث" لا يقل أهمية في العديد من التطبيقات: حيث تتطلب سيناريوهات المال والحكومة وخدمة العملاء والأمن وغيرها التحقق من الهوية أو فحص المخاطر من خلال التعرف على البصمة الصوتية؛ بينما تتطلب سيناريوهات الاجتماعات والمقابلات معرفة "من قال كل جملة"، لدعم النسخ النصي المفصول حسب المتحدث وإحصائيات المشاركة وتحليل السلوك.

في مهمة التعرف على المتحدث/التحقق منه (Speaker Recognition)، يتمثل هدف النظام في: عند إعطاء مقطع كلامي، تحديد هوية المتحدث، أو تحديد ما إذا كان ينتمي إلى نفس شخص متحدث مسجل معين. عادةً ما تستخرج الأنظمة الحديثة، من خلال نماذج مثل ECAPA‑TDNN وx‑vector، متجه تضمين متحدث ذا بعد ثابت من المقطع الكلامي. في مرحلة التدريب، يضمن الجمع بين تصنيف المتحدث والتعلم القياسي تقارب تضمينات الشخص نفسه بشكل أكبر وزيادة المسافة بين تضمينات الأشخاص المختلفين؛ وفي مرحلة الاستدلال، يتم استخدام أقرب جار أو مميز خلفي (مثل PLDA وCosine scoring with margin) للتحقق والتعرف. وبهذه الطريقة، يمكن للنظام الإجابة "ما إذا كان الشخص نفسه" بدرجة معينة من الثقة في بيئات الهاتف والميكروفون والضوضاء.

أما فصل المتحدثين وتصنيفهم (Diarization) فيجيب بشكل أكبر على "من تحدث ومتى". تشمل السيرورة التقليدية عادةً ثلاث خطوات: أولاً استخدام VAD لإيجاد المقاطع التي تحتوي على كلام، ثم تقطيع الصوت الطويل إلى مقاطع قصيرة (segments)، واستخراج تضمين متحدث لكل مقطع، وأخيرًا إجراء تجميع في فضاء التضمين وربط زمني، للحصول على خط زمني متعدد المتحدثين. أما الطرق الأكثر تقدمًا من فئة Diarization الشاملة (EEND) فتحاول الخروج مباشرة من سمات الصوت إلى مصفوفة بوليانية "زمن × متحدث"، وتعلم أنماط معقدة مثل تداخل الكلام وتبديل المتحدثين بشكل شامل. ويتمتع Diarization بقيمة كبيرة في سيناريوهات الاجتماعات والبرامج الحوارية وسجلات المحاكم ومكالمات خدمة العملاء الهاتفية، وغالبًا ما يتم دمجه مع ASR لتشكيل "سجل نصي مع تصنيفات المتحدثين".

4.2.3 الكشف عن الكلمات التنبيهية والكلمات المفتاحية: "الأذن" الموجهة للتفاعل والمراقبة

في التدفق الصوتي المستمر، لا تستحق كل ثانية التعرف الكامل والتخزين. يتمثل دور الكشف عن الكلمات التنبيهية والكلمات المفتاحية (KWS) في كونه "حارس بوابة" دائم التشغيل:

في السماعات الذكية وأنظمة السيارات ومساعدي الهواتف المحمولة، يكون مكون KWS مسؤولاً عن الكشف عن كلمات التنبيه (مثل "Hey Siri" و"OK Google" و"小爱同学")، وبمجرد الكشف عن كلمة التنبيه، يتم تسليم التدفق الصوتي إلى أنظمة ASR والحوار الأكثر تكلفة للمعالجة.
في سيناريوهات خدمة العملاء الذكية وفحص الجودة والامتثال، يقوم KWS بتمييز العبارات المفتاحية التي تظهر في التسجيلات أو المكالمات المباشرة (مثل "شكوى" و"استرداد" و"حقوق المستهلك" و"احتيال") وإصدار تنبيهات، مما يوفر نقاط تشغيل لاستراتيجيات التحليل الخلفي وفحص الجودة.

من حيث التنفيذ التقني، يحتاج KWS عادةً إلى العمل تحت قيود قدرة حاسوبية فائقة الانخفاض وزمن انتقال منخفض، خاصةً في الكشف عن كلمات التنبيه على الأجهزة المحلية: يكون النموذج عادةً واجهة CNN/RNN/Transformer صغيرة الحجم، متصلة برأس تمييز CTC أو بوابة، للكشف عن الأنماط الصوتية لكلمات محددة، مع استخدام النوافذ المنزلقة وتنعيم درجة الثقة لتجنب التنبيه الخاطئ. أما بالنسبة لسيناريوهات فحص الجودة بالكلمات المفتاحية، فيمكن استخدام ASR أقوى + مطابقة الكلمات المفتاحية/التعبيرات النمطية + التحليل الإحصائي، أو تدريب نموذج تصنيف كلمات مفتاحية شامل مباشرة. وبغض النظر عن الشكل، فإن KWS يضيف في جوهره طبقة تصفية دلالية على "مستوى الحدث" فوق تدفق الكلام، وهو واجهة مهمة تربط العالم الصوتي بمنطق التفاعل.

4.3 فهم الصوت والموسيقى (Audio Event & Music Understanding)

لا تتمحور جميع أنواع الصوت حول "الكلام". فهناك العديد من السيناريوهات الواقعية المتعلقة بأصوات البيئة والأحداث والموسيقى، والتي تركز بشكل أكبر على: "ما الحدث الصوتي الذي وقع؟" "ما هو المشهد الصوتي الحالي؟" "ما نمط هذه الأغنية، وما الآلات الموسيقية المستخدمة، وما الإيقاع والمقام؟" تُعرف هذه المجموعة من القدرات مجتمعة بفهم الصوت والموسيقى، وتدور بشكل رئيسي حول اكتشاف الأحداث الصوتية، وتصنيف البيئة/المشهد، وفهم خصائص الموسيقى.

من منظور المنتج، تدعم تقنيات فهم الصوت مجموعة واسعة من التطبيقات مثل المراقبة الأمنية الصوتية، ومستشعرات إنترنت الأشياء الصوتية، والتكيف البيئي للأجهزة الذكية، وتوصيات الموسيقى وتصنيفها، والتعرف على حقوق الملكية الموسيقية، واسترجاع الموسيقى، ومساعدي الإبداع الموسيقي. وعلى غرار "تصنيف الصور + التصنيف الدقيق" في مجال الصور، تقوم هذه الطبقة بهيكلة الفضاء الصوتي المستمر والمعقد إلى تسميات أحداث متقطعة، ومتجهات خصائص متعددة الأبعاد، وأوصاف للأنماط.

السيناريوهات
- اكتشاف الأحداث الصوتية: اكتشاف أصوات الإنذار، وكسر الزجاج، وبكاء الأطفال، والاصطدامات وغيرها، المستخدمة في المراقبة الأمنية، والمباني الذكية، وأنظمة سلامة المركبات، والإنذارات الصناعية.
- تصنيف البيئة/المشهد: التعرف على المشاهد الصوتية مثل "داخلي/خارجي" و"مكتب/داخل سيارة/شارع/مترو"، مما يوفر أساسًا لاستراتيجيات تقليل الضوضاء، والكسب التكيفي، وتبديل الأوضاع في الأجهزة الذكية.
- فهم الموسيقى واسترجاع المعلومات الموسيقية (MIR): تصنيف الأنماط الموسيقية، والتعرف على الآلات، وتحليل الإيقاع والمقام، لدعم توصيات الموسيقى، وإنشاء قوائم التشغيل، واسترجاع الموسيقى، والتعرف على حقوق الملكية، ومساعدي الإبداع.
المبادئ يعتمد فهم الصوت والموسيقى في الغالب على الخصائص الزمنية-الترددية + الشبكات العصبية العميقة للتصنيف أو التوسيم متعدد التسميات:
- استخدام خصائص مثل log Mel‑spectrogram لتحويل الصوت إلى "صورة صوتية"، ثم استخدام هياكل مثل CNN أو CRNN أو Transformer للتعرف على الأنماط الزمنية-الترددية.
- بالنسبة لاكتشاف الأحداث الصوتية، غالبًا ما يُستخدم الإخراج متعدد التسميات ومتعدد التسلسل الزمني، للتنبؤ بوجود كل حدث على المحور الزمني، مع دمج التسميات ضعيفة الإشراف والتعلم متعدد الأمثلة في بعض الأحيان.
- بالنسبة لتصنيف البيئة/المشهد، يكون التركيز أكبر على الخصائص الإحصائية طويلة المدى والأنماط الخلفية، مما يتطلب غالبًا النمذجة على نوافذ زمنية أطول.
- تجمع مهام فهم الموسيقى بين المعرفة بنظرية الموسيقى لنمذجة الإيقاع (BPM)، ومواقع النقرات، والمقام، والكوردات، والبنية. تُدرَّب بعض المهام مسبقًا على تضمينات موسيقية عبر التعلم الذاتي الإشراف أو التعلم التقابلي، ثم تُضبَط دقيقًا للمهام النهائية.
النماذج غالبًا ما تُدرَّب نماذج فهم الصوت الشائعة مسبقًا على مجموعات بيانات عامة (مثل AudioSet)، ثم تُنقَل إلى مهام محددة:
- نماذج CNN/CRNN مثل VGGish وYAMNet وPANNs، التي بعد التدريب المسبق على بيانات صوتية واسعة النطاق، يمكن استخدامها في مهام متعددة للأحداث الصوتية والمشاهد الصوتية.
- نماذج قائمة على Transformer مثل AST (Audio Spectrogram Transformer)، التي تستخدم الانتباه الذاتي مباشرة على المخطط الطيفي، مما يوفر قدرة أقوى على النمذجة الزمنية-الترددية الشاملة.
- نماذج MusicTagging / MIR المتخصصة بالموسيقى، التي تُدرَّب مسبقًا على ملايين الأغاني لنماذج التوسيم أو التضمين، وتُستخدم لتوسيمات الأنماط/العواطف/الآلات، واسترجاع الموسيقى والتوصيات.

4.3.1 الأحداث الصوتية والمشاهد الصوتية البيئية: جعل الأجهزة "تفهم البيئة"

في مجالات الأمن وإنترنت الأشياء والمدن الذكية والأنظمة داخل المركبات، لا تكفي الكاميرات وحدها لفهم حالة البيئة بشكل كامل. الهدف من اكتشاف الأحداث الصوتية هو جعل النظام "يفهم" الأحداث الحرجة: عند حدوث كسر زجاج، أو انطلاق إنذار، أو بكاء طفل، أو اصطدام، أو صراخ، أو شجار، أو أعمال تخريبية، يتمكن النظام من التعرف عليها في الإشارة الصوتية وإصدار إنذار. وعلى عكس التعرف على الكلام، غالبًا ما تكون هذه الأحداث قصيرة وغير لغوية، وتختلف في نطاق ترددها وشكل طاقتها، وقد تتداخل بشكل كبير مع الضوضاء الخلفية.

أما تصنيف البيئة/المشهد فيركز بشكل أكبر على المشاهد الصوتية (acoustic scene) المستمرة: هل هو مكتب هادئ، أم شارع مزدحم، أم داخل سيارة، أم محطة قطار فائق السرعة، أم مقهى؟ يمكن للنظام ضبط شدة تقليل الضوضاء، ومعلمات إلغاء الصدى، واتجاه حزمة مصفوفة الميكروفونات تلقائيًا بناءً على المشهد الصوتي، بل وحتى تغيير استراتيجية التفاعل (مثل تقديم تفاعلات بتغذية راجعة أقصر داخل السيارة، وزيادة مستوى الصوت في الشوارع المزدحمة). في سيناريوهات إنترنت الأشياء، يمكن استخدام "شبكة صوتية" مكونة من مستشعرات صوتية متعددة للمراقبة طويلة المدى والتحليل الإحصائي لحالة البيئة.

من الناحية التقنية، تستخدم هاتان الفئتان من المهام في الغالب نهج التصنيف متعدد التسميات + النمذجة التسلسلية الزمنية: تحويل الصوت إلى مخطط ميل الطيفي (Mel spectrogram)، واستخدام نماذج مثل VGGish أو PANNs أو AST أو ما شابهها لاستخراج الخصائص، ثم استخدام التجميع التسلسلي الزمني أو النماذج التسلسلية لإخراج حالة تنشيط كل تسمية على المحور الزمني. ونظرًا لأن العديد من مجموعات البيانات توفر فقط "تسميات على مستوى المقاطع" (weak labels)، غالبًا ما تحتاج النماذج إلى تعلم الموضع الزمني للأحداث تحت إشراف ضعيف عبر التعلم متعدد الأمثلة، والتجميع بالانتباه الذاتي وغيرها من الطرق.

4.3.2 فهم الموسيقى والتوسيم: من "تسميات قوائم التشغيل" إلى "تحليل البنية"

في مجال الموسيقى، لا يقتصر هدف فهم الصوت على "ما هذه الأغنية"، بل يمتد للإجابة عن: "ما نمط هذه الأغنية؟ ما الآلات الموسيقية المستخدمة فيها؟ ما سرعة إيقاعها؟ ما مقامها وبنيتها التوافقية العامة؟" تدعم هذه المعلومات من ناحية توصيات الموسيقى وتنظيم قوائم التشغيل، ومن ناحية أخرى توفر "بيانات وصفية موسيقية" منظمة للمبدعين ونماذج التوليد.

تصنف مهمة تصنيف الأنماط الموسيقية الأغاني إلى أنماط مختلفة مثل البوب، والروك، والكلاسيكية، والهيب هوب، والإلكترونية، وLo‑Fi وغيرها بناءً على خصائصها الصوتية وبنيتها العامة؛ أما التعرف على الآلات فيميز البصمات الصوتية للآلات المختلفة مثل الطبول، والغيتار البيس، والغيتار، والبيانو، والآلات الوترية في الخصائص الزمنية-الترددية، ويمكن استخدامه في إحصائيات الآلات، واسترجاع الموسيقى، وتحليل المزج الصوتي. أما تحليل الإيقاع/المقام فيقدر BPM، ومواقع النقرات، والتوقيع الإيقاعي، والمقام الرئيسي (Key) وغيرها، مما يوفر أساسًا لمهام مثل مطابقة الإيقاع، والتآلف التلقائي، ومزج DJ، ومزامنة المسارات الصوتية في الألعاب.

من حيث النماذج، يعتمد فهم الموسيقى في الغالب على نماذج الصوت العامة (مثل PANNs وAST)، ولكن هناك أيضًا عدد كبير من النماذج والتضمينات المدربة مسبقًا والمتخصصة في استرجاع المعلومات الموسيقية (MIR). يتمثل النهج النموذجي في إجراء تعلم توسيم موسيقي متعدد التسميات (النمط، والمزاج، والآلة، والعصر إلخ) على مجموعات بيانات موسيقية واسعة النطاق، للحصول على فضاء تضمين موسيقي، ثم الضبط الدقيق أو الاستدلال بدون أمثلة (zero-shot) على المهام المحددة المذكورة أعلاه. بدمج هذه النماذج، يمكن لمنصات الموسيقى إتمام تصنيف الموسيقى وتوصياتها بذكاء أكبر، ويمكن لمنصات حقوق الملكية تعزيز البصمات الموسيقية واسترجاع التشابه، بينما يمكن لأدوات الإبداع الاستفادة من قدرات الفهم هذه لتوصية المستخدمين بمرافقات موسيقية مناسبة، أو توسيع أنماط مشابهة، أو توليد هياكل موسيقية تلقائيًا.

4.4 توليد الصوت والكلام (TTS / VC / توليد الموسيقى)

بعد الانتهاء من "تنظيف" و"تعريف" و"فهم" الصوت، السؤال الطبيعي التالي هو: "هل يمكننا جعل الآلة 'تتكلم' أو 'تغني' أو حتى 'تؤلف' مباشرة؟" هذا هو عالم توليد الصوت والكلام: من النص إلى الكلام (TTS)، ومن صوت إلى آخر (VC / استنساخ الصوت)، إلى نطاق أوسع من توليد الموسيقى والمؤثرات الصوتية، وصولاً إلى تركيب الغناء الذي يمكنه أداء كلمات وألحان. على غرار توليد الصور، لم تعد هذه الطبقة تقتصر على وضع العلامات أو استخراج البنى من البيانات الموجودة، بل أصبحت "تخلق" محتوى صوتياً جديداً بشكل نشط.

على مستوى المنتجات، تغلغلت قدرات هذه الطبقة في تطبيقات متنوعة: خطوط منتجات الصوت مثل OpenAI TTS وElevenLabs وVolcengine وMinimax توفر كلاماً مركباً عالي الجودة للتطبيقات؛ منصات توليد الموسيقى مثل Suno وUdio توفر للمبدعين وحتى المستخدمين العاديين القدرة على إنتاج موسيقى كاملة انطلاقاً من النصوص؛ الألعاب والفيديوهات والفتيوبرز الافتراضيون والشخصيات الرقمية تعتمد على هذه النماذج للدبلجة والغناء، مما يخفض بشكل كبير من عتبة إنتاج المحتوى.

السيناريوهات
- تحويل النص إلى كلام (TTS): نشرات الأخبار، البث الملاحي، الردود الصوتية لخدمة العملاء الذكية، قراءة المحتوى في تطبيقات التعلم، قارئات الشاشة للمعاقين، وغيرها، حيث يلزم تحويل أي نص إلى كلام طبيعي وواضح وقابل للتحكم.
- تحويل الصوت / استنساخ الصوت (VC / Voice Cloning): تغيير جرس المتحدث مع الحفاظ على المعنى والنبرة، لتحقيق "تغيير الصوت أثناء الكلام" أو "استنساخ البصمة الصوتية بعدد قليل من العينات" (ضمن شروط امتثال صارمة).
- توليد الموسيقى والمؤثرات الصوتية: إنتاج موسيقى خلفية ومؤثرات صوتية مناسبة (أصوات بيئية، مؤثرات واجهة المستخدم، أصوات انتقالية) للفيديوهات القصيرة والألعاب والإعلانات والبودكاست.
- تركيب الغناء وإعادة الأداء (Cover): إعطاء لحن وكلمات لمغني افتراضي ليؤديها، أو إنتاج نسخة أداء بنمط/جرس معين ضمن شروط الامتثال.
المبادئ يعتمد توليد الصوت والكلام عادةً على نهج النمذجة الطبقية "التمثيل عالي المستوى → الشكل الموجي منخفض المستوى":
- في TTS، يتم أولاً تحويل النص إلى تسلسل من الفونيمات/المقاطع/الحروف، ثم عبر نماذج تحويل التسلسل إلى سمات صوتية (مثل مخطط ميل الطيفي) مثل Tacotron وFastSpeech وVITS وغيرها، وأخيراً باستخدام مشفر صوتي عصبي (Neural Vocoder) مثل WaveNet وWaveRNN وHiFi‑GAN وغيرها لتوليد شكل موجي عالي الدقة من السمات.
- في تحويل الصوت (VC)، عبر فصل "ماذا يقال (المحتوى)" عن "من يقوله (الجرس)"، يتم استخراج تمثيل المحتوى من الصوت المصدر، ثم دمجه مع تضمين المتحدث المستهدف أو شرط المشفر الصوتي لتوليد شكل موجي صوتي جديد.
- يمكن أن يعتمد توليد الموسيقى والمؤثرات الصوتية على تمثيلات مرمزة (مثل النوتات الموسيقية، MIDI، الطيف المشفر / رموز الترميز codec tokens)، باستخدام نماذج توليد ذاتية الانحدار (Autoregressive) أو الانتشارية (Diffusion) أو نماذج الترميز العصبي، لأخذ عينات من صوت جديد انطلاقاً من النصوص أو الصوت المرجعي أو المعاملات البنيوية.
- يضيف تركيب الغناء على أساس TTS نمذجة أدق للنبرة ومسار طبقة الصوت والتحكم في الأداء الغنائي، وعادةً ما يتضمن نمذجة صريحة أو ضمنية لطبقة الصوت والمدة الزمنية والوصل والترددات الصوتية (vibrato) وغيرها.
النماذج تشمل التوجهات التقنية السائدة حالياً في توليد الصوت والكلام:
- TTS: Tacotron / Tacotron2 وسلسلة FastSpeech (TTS غير ذاتي الانحدار) وVITS وغيرها مسؤولة عن تحويل النص إلى مخطط ميل الطيفي أو رموز الترميز (codec tokens)؛ بينما تعمل WaveNet وWaveRNN وHiFi‑GAN وWaveGlow وغيرها كمشفر صوتي (vocoder) أو مفكك ترميز مسؤول عن تحويل السمات إلى أشكال موجية. مؤخراً، حسنت نماذج TTS القائمة على الانتشار (Diffusion-based TTS) ونماذج الترميز العصبي (Neural Codec) من الطبيعية والتنوع بشكل أكبر.
- تحويل الصوت / استنساخ الصوت (VC / Cloning): أطر VC القائمة على تضمين المتحدث (speaker embedding) + مشفر المحتوى (content encoder)، بالإضافة إلى نماذج تحويل الصوت باستخدام الترميز العصبي، التي تدعم استنساخ الجرس بعدد قليل من العينات ونقل المتحدث عبر اللغات. هذه التقنيات أصبحت حالياً قيد التشغيل التجاري على منصات متعددة، وتوفر خدمات استنساخ صوتي مريحة؛ من المنصات المحلية الشائعة Volcengine وMinimax ومنصة iFlytek المفتوحة ومنصة Baidu AI Cloud Qianfan ومنصة Alibaba Cloud للتفاعل الصوتي الذكي وغيرها؛ أما خارجياً فهناك ElevenLabs وResemble.ai وPlay.ht وغيرها من المنصات الرائدة. من بينها، تدعم قدرة استنساخ الصوت في Volcengine التدريب السريع بعدد قليل من العينات الصوتية، بما يتلاءم مع المكالمات التجارية في سيناريوهات متعددة مثل خدمة العملاء الذكية والكتب الصوتية؛ أما Minimax فتعتمد على ميزتها التقنية في النماذج الكبيرة لتحقيق تكيف طبيعي بين الجرس المستنسخ والمحتوى النصي، مع دعم نقل جرس المتحدث عبر اللغات في آن واحد؛ وتتميز منصة iFlytek المفتوحة في استنساخ الصوت بوضوح النطق الصيني وقوة التعبير العاطفي، وتخدم مجالات التعليم والإذاعة والتلفزيون وغيرها على نطاق واسع.
- توليد الموسيقى والمؤثرات الصوتية: نماذج مثل MusicLM وMusicGen ونماذج فئة Suno / Udio، تعتمد عادةً على شروط نصية و/أو صوت مرجعي، وتستخدم بنى ذاتية الانحدار أو انتشارية على رموز ترميز متقطعة (discrete codec tokens) لتوليد صوت طويل المدة.

4.4.1 تحويل النص إلى كلام (TTS): جعل الآلة "تتكلم بشكل طبيعي"

تحويل النص إلى كلام (TTS) هو أكثر مهام توليد الكلام بديهية: إدخال نص، وإخراج كلام طبيعي سلس، بحيث يصعب تمييزه تقريباً عن الصوت البشري في الحالة المثالية. تنقسم أنظمة TTS الحديثة عادةً إلى مرحلتين رئيسيتين: من النص إلى السمات الصوتية (مثل مخطط ميل الطيفي)، ومن السمات الصوتية إلى الشكل الموجي.

في المرحلة الأولى، يحتاج النموذج إلى معالجة مسائل مثل تجزئة الكلمات، التحويل إلى فونيمات، فك التباس الكلمات متعددة النطق، علامات الترقيم والتوقف، والتنبؤ بالنبرة. تشمل النماذج النموذجية سلسلة Tacotron القائمة على الانتباه وسلسلة FastSpeech القائمة على التنبؤ بالطول، حيث تعمل الأخيرة عبر بنية غير ذاتية الانحدار على تسريع التركيب بشكل كبير وتحسين الاستقرار. في السنوات الأخيرة، دمجت نماذج شاملة مثل VITS النمذجة الصوتية والمشفر الصوتي في إطار موحد، مما بسط النظام أكثر.

في المرحلة الثانية، يتولى المشفر الصوتي العصبي (Neural Vocoder) مثل WaveNet وWaveRNN وHiFi‑GAN وWaveGlow وغيرها مسؤولية تحويل مخطط ميل الطيفي أو التمثيلات الوسيطة الأخرى إلى شكل موجي عالي الدقة. يمكن للمشفر الصوتي المدرب جيداً ليس فقط توليد كلام طبيعي وواضح، بل أيضاً إعادة إنتاج أجراس وانفعالات وأنماط مختلفة بشكل جيد. تدعم أنظمة TTS الحديثة أيضاً نمذجة متعدد المتحدثين (عبر تضمين المتحدث speaker embedding)، والتحكم في الجرس/سرعة الكلام/الانفعال (مثل "متحمس" و"هادئ" و"نمط المذيع")، بالإضافة إلى TTS عبر اللغات، مما يوفر قدرات صوتية قابلة للتخصيص بدرجة عالية لمختلف التطبيقات.

4.4.2 تحويل الصوت واستنساخ البصمة الصوتية: تغيير "من يتكلم"

في كثير من سيناريوهات الإبداع والمساعدة، نرغب في تغيير جرس المتحدث أو نمطه دون تغيير المحتوى والنبرة، وهذه هي مهمة تحويل الصوت (VC) واستنساخ الصوت (Voice Cloning). الأولى تحل بشكل أساسي مشكلة "تحويل كلام A إلى صوت B"؛ أما الثانية فتركز أكثر على "تعلم جرس جديد من بضع جمل أو حتى بضع ثوانٍ من الصوت".

تقنياً، يعتمد VC عادةً على فكرة "فصل المحتوى عن الجرس": عبر مشفر محتوى يستخرج معلومات محتوى الكلام والنبرة (يمكن أن تكون وحدات متقطعة مبنية على ASR، أو تمثيلات مستمرة ذاتية الإشراف)، ثم عبر مولد شرطي يدمج تضمين المتحدث المستهدف أو شرط الترميز (codec)، لإنتاج كلام جديد يحتفظ بج رس المتحدث المستهدف مع ثبات المعنى والإيقاع تقريباً. وعند إدخال الترميز العصبي (neural codec)، يمكن تحرير الكلام مباشرة في فضاء الترميز-فك الترميز لتحقيق تحويل عالي الدقة.

يؤكد استنساخ الصوت على قدرة التعلم من عدد قليل من العينات والتعميم: يحتاج النموذج إلى استخراج تمثيل مستقر للمتحدث من بضع عينات أو حتى بضع ثوانٍ من الصوت، وتوليد كلام مركب متسق في النمط وقريب في الجرس بناءً على ذلك. هذه القدرة مفيدة جداً في الشخصيات الافتراضية والمساعدين الشخصيين وتخصيص شخصيات الألعاب وتسريع الدبلجة وغيرها، لكنها تحتاج أيضاً إلى الالتزام الصارم بالضوابط القانونية والأخلاقية، لضمان عدم استخدامها إلا في ظل ترخيص合规 وإبلاغ كامل وضوابط أمنية كافية، وتجنب مخاطر إساءة الاستخدام أو انتحال الهوية.

4.4.3 توليد الموسيقى والمؤثرات الصوتية: من التعليمات إلى مشهد صوتي كامل

مقارنة بتوليد الكلام، فإن توليد الموسيقى والمؤثرات الصوتية أكثر تعقيداً من حيث البنية والمقياس الزمني: الموسيقى غالباً ما تستمر لفترة أطول، وبنيتها الداخلية (مقاطع، لحن، تناغم، إيقاع) أكثر ثراءً؛ أما المؤثرات الصوتية فمتنوعة الأنواع، من البيئة الطبيعية (صوت المطر، الرياح، الأمواج) إلى الأصوات الاصطناعية (نقرات واجهة المستخدم، نغمات التنبيه، مؤثرات مهارات الألعاب) ولكل منها أنماطها الخاصة. في السنوات الأخيرة، جعلت النماذج القائمة على الترميز العصبي (neural codec) والنمذجة التسلسلية والانتشار (diffusion) "توليد موسيقى/مؤثرات صوتية كاملة من النص" واقعاً.

في توليد الموسيقى، تقوم نماذج مثل MusicLM وMusicGen وSuno وUdio عادةً بترميز الصوت إلى تسلسلات من رموز الترميز المتقطعة (codec tokens)، ثم تدريب نماذج توليدية مشروطة بالنص أو متعددة الوسائط على هذا الفضاء المتقطع. يحتاج المستخدم فقط إلى تقديم وصف نصي (مثل "موسيقى خلفية Lo‑Fi بإيقاع معتدل ودافئة ومريحة، مناسبة للدراسة والتركيز"، "موسيقى أوركسترالية إلكترونية مشوقة، مناسبة لإعلان خيال علمي تشويقي")، أو رفع مقطع موسيقي مرجعي، ليتمكن النموذج من توليد موسيقى عالية الجودة تصل مدتها إلى عشرات الثواني بل وحتى عدة دقائق. بالنسبة للمبدعين، هذا يمثل مصدر إلهام وأداة قوية للنماذج الأولية السريعة وإنتاج الموسيقى الخلفية.

في توليد المؤثرات الصوتية، يمكن لتقنيات مماثلة توليد مؤثرات واجهة المستخدم ونغمات الإشعارات وأصوات بيئة الألعاب وغيرها بناءً على التعليمات النصية، مما يساعد فرق المنتجات والألعاب على تكرار تصميم الصوت بسرعة. وبالدمج مع قدرات فهم الصوت من الطبقة السابقة، يمكن أيضاً تحقيق محاذاة النمط والتكيف مع المشهد، مثل مطابقة نمط المؤثرات الصوتية تلقائياً حسب الشاشة أو مستوى اللعبة.

سواء كان الأمر يتعلق بالكلام أو توليد الموسيقى والمؤثرات الصوتية، فإن قدرات هذه الطبقة تتطور بسرعة: من الصوت الآلي ذي الطابع المركب الواضح في البداية، إلى المحتوى عالي الدقة الذي يصعب تمييزه حالياً عن الصوت البشري والموسيقى الاحترافية. في الوقت نفسه، تزداد أهمية القضايا المتعلقة بحقوق النشر والامتثال وإمكانية التتبع والتحكم — وكيفية حماية الحقوق المشروعة للمبدعين والمستخدمين مع توفير أدوات إبداعية قوية، ستظل هذه هي القضية المحورية التي تحتاج تقنيات هذه الطبقة إلى مواجهتها باستمرار.

5. الفيديو (Video)

في نظام الذكاء الاصطناعي متعدد الوسائط، تكون وسيلة الفيديو مسؤولة عن فهم وتوليد "الإشارات البصرية المتغيرة عبر الزمن". بالمقارنة مع الصور الثابتة، لا يقتصر الفيديو على احتواء معلومات الأبعاد المكانية كالقوام والأشكال والتخطيط فحسب، بل يحمل أيضًا إشارات غنية على البُعد الزمني: بداية الحركات ونهايتها، ومسارات الأجسام المتحركة، وإيقاع انتقالات المشاهد، وغير ذلك. سواء تعلق الأمر بالتعرف على السلوك في المراقبة الأمنية، أو تحليل الحركة في التدريب الرياضي، أو التحرير بنقرة واحدة في منصات الفيديو القصير، أو التحليل الذكي للفيديوهات الطويلة، فإنها جميعًا تعتمد في جوهرها على مجموعة متكاملة من قدرات الفهم والتوليد المتمحورة حول "تسلسل الإطارات".

من منظور هندسي، يمكن تقسيم قدرات الفيديو إلى عدة طبقات: تحسين الفيديو واستعادته في الطبقة الأساسية مسؤول عن ضمان "وضوح الرؤية"؛ وفهم الفيديو وتحليل بنيته مسؤول عن الإجابة عن سؤال "ماذا يحدث"؛ وبناءً على ذلك، تقوم المهام متعددة الوسائط للفيديو واللغة بتحويل محتوى الفيديو إلى أوصاف منظمة وواجهات استرجاع قابلة للاستخدام النصي؛ وفي خطوة متقدمة، يقوم توليد الفيديو وتحريره بدوره بتوليد محتوى الفيديو أو إعادة تركيبه بطريقة قابلة للتحكم انطلاقًا من النص أو فيديو نموذجي؛ أما التطبيقات التي تمثلها الشخصيات الرقمية / الافتراضية، فتجمع بين الصوت واللغة والحركة وعرض الفيديو معًا لتشكل نمطًا جديدًا موجهًا نحو التفاعل وإنتاج المحتوى.

فيما يلي، سنستعرض أيضًا القدرات المتعلقة بالفيديو انطلاقًا من القدرات الطبقية.

5.1 معالجة الفيديو التقليدية: من "قابل للتشغيل" إلى "جذاب وسهل الاستخدام"

في المستوى الأساسي لتقنية الفيديو، لا نهتم أولاً بـ "من يظهر في المشهد" أو "ما الحدث الذي وقع"، بل بمدى استقرار الفيديو نفسه ووضوحه وراحة مشاهدته: هل الصورة مهتزة؟ هل هي ضبابية؟ هل الضوضاء كثيرة؟ هل نسبة العرض إلى الارتفاع مناسبة لجهاز التشغيل المستهدف؟ تعمل طبقة معالجة الفيديو التقليدية هذه بشكل أساسي على مستوى تسلسل الإطارات والبكسلات المكانية-الزمانية، من خلال عمليات التحسين والإصلاح ورفع الدقة (Super Resolution) وإدراج الإطارات (Frame Interpolation) وإعادة تأطير الإطارات (Reframing)، لتحويل الفيديو الخام المشوش أو المهتز أو منخفض الدقة أو غير المناسب في نسبه، إلى "إشارة زمنية عالية الجودة" أكثر ملاءمة للمشاهدة والتحليل اللاحق. يمكن تشبيهها بـ "استعادة الصورة وتحسينها + التصحيح الهندسي" في مجال الصور، مع فارق إضافة بُعد زمني للسلاسة والاتساق.

من منظور المنتج، تكاد هذه القدرات تكون "غير مرئية" خلف جميع منتجات الفيديو: تحسين الجودة بنقرة واحدة في برامج المونتاج، ترقية الجودة التلقائية في منصات الفيديو القصير، الرفع الذكي للدقة وإدراج الإطارات في أجهزة التلفزيون والمشغلات، خدمات ترميم الأفلام القديمة، بالإضافة إلى المعالجة المسبقة متعددة الإطارات لنماذج الكشف والتعرف في المراحل اللاحقة - كلها انعكاسات مباشرة لمعالجة الفيديو التقليدية. فيما يلي، نستعرضها من زوايا السيناريوهات والمبادئ والنماذج، ثم نفصل في الأقسام اللاحقة الاتجاهات الرئيسية: تحسين الفيديو وإصلاحه، ورفع الدقة وإدراج الإطارات.

السيناريوهات في منصات الفيديو عبر الإنترنت، وأدوات المونتاج، وأنظمة المراقبة، والأجهزة الطرفية، تظهر معالجة الفيديو التقليدية بشكل رئيسي في السيناريوهات النموذجية التالية:
- منصات المحتوى وأدوات المونتاج: عند رفع أو تحرير الفيديوهات القصيرة والطويلة، يتم تحسين الجودة وتثبيت الصورة ومنع الاهتزاز وتقليل الضوضاء بنقرة واحدة، ليتمكن المستخدم من "التصوير بهاتفه والاستخدام فوراً"؛ وعند استيراد مواد الفيديو القديمة إلى مشاريع المونتاج، يتم إصلاحها وإدراج الإطارات لجعلها أكثر اتساقاً بصرياً مع المواد الجديدة.
- الأفلام وترميم الأفلام القديمة: الترميم الرقمي للأفلام التاريخية والبرامج التلفزيونية المبكرة والمواد ذات الدقة القياسية، بإزالة الخدوش والضوضاء والاهتزاز، واستعادة الألوان والتفاصيل، لتوفير نسخ عالية الجودة لإعادة العرض وإعادة الإصدار والحفظ في الأرشيف الرقمي.
- المراقبة بالفيديو وكاميرات القيادة: تقليل الضوضاء وإزالة الضباب وتعزيز التباين وتثبيت الصورة في لقطات المراقبة ذات الإضاءة الضعيفة أو المطر والضباب أو المضغوطة بشدة، لتحسين متانة وحدات الكشف والتعرف اللاحقة، وتسهيل الاستدلال والتتبع.
- تشغيل الأجهزة الطرفية والتحسين من جانب الجهاز: دمج وظائف رفع الدقة وإدراج الإطارات محلياً في أجهزة التلفزيون وأجهزة الاستقبال ومشغلات الهواتف، لترقية المحتوى المخزن بدقة 720p/1080p ومعدل 24/30fps إلى تأثير بصري يقارب دقة 4K ومعدل 60/120fps عند التشغيل.
- التكيف مع الأجهزة المتعددة والتوزيع: لتغطية شاشات الهواتف العمودية والأجهزة اللوحية الأفقية وشاشات التلفزيون الكبيرة في آن واحد، يتم تكييف نفس الفيديو بين الوضعين الأفقي والعمودي، والقص الذكي، وإعادة التأطير بنسب متعددة، مما يقلل من تكاليف المونتاج اليدوي وصيانة النسخ المتعددة.
المبادئ لا تفهم معالجة الفيديو التقليدية عادةً الفئات الدلالية بشكل مباشر، بل تقوم بالنمذجة والتحسين على مستوى الإشارات المكانية-الزمانية حول الجودة والاستقرار والاتساق الزمني:
- النمذجة المكانية-الزمانية المشتركة: بالبناء على تحسين الإطار الواحد، يتم إدخال معلومات البُعد الزمني، من خلال تقدير التدفق البصري (Optical Flow) أو نمذجة حركة الكاميرا أو الالتفاف المكاني-الزماني، باعتبار الإطارات السابقة واللاحقة "ملاحظات" إضافية، لإجراء دمج متعدد الإطارات وكبت الضوضاء على المحور الزمني.
- تثبيت الصورة ومنع الاهتزاز: نمذجة اهتزاز الكاميرا كسلسلة من التحويلات الهندسية عبر الزمن (إزاحة، دوران، تكبير/تصغير، إلخ)، من خلال تقدير مسار الحركة الكلي أو المحلي، ثم تنعيمه وإعادة إسقاطه على فيديو الإخراج، لتحقيق تأثير إزالة الاهتزاز والاستقرار.
- رفع دقة الفيديو وإدراج الإطارات: يعمل رفع دقة الفيديو من خلال محاذاة متعددة الإطارات وإعادة بناء التفاصيل، لرفع الدقة المكانية مع الحفاظ على الاتساق الزمني؛ أما إدراج الإطارات فيقوم من خلال تقدير التدفق البصري أو شبكات التوليد المكانية-الزمانية بتوليف إطار وسيط بين إطارين، لعرض الحركة بمعدل إطارات أعلى وتحسين السلاسة.
- إعادة التأطير والتكوين التلقائي: من خلال اكتشاف وتتبع العناصر الرئيسية في الفيديو (الأشخاص، الأشياء)، يتم تقدير مسار العنصر على المحور الزمني، ثم اختيار نافذة القص المناسبة لكل إطار بناءً على نسبة العرض إلى الارتفاع المستهدفة، مع تنعيم حركة نافذة القص زمنياً لضمان مظهر طبيعي.
- المفاضلة بين الجودة والكفاءة: يمكن للمعالجة غير المتصلة على السحابة السعي لتحقيق أفضل جودة صورة باستخدام نماذج معقدة، بينما تتطلب الأجهزة المحمولة والمشغلات والمشاهد في الوقت الفعلي التحكم في حجم معاملات النموذج والتعقيد الحسابي وزمن الانتظار، مع إجراء مفاضلات دقيقة في هيكل الخوارزمية وإطار الاستدلال.
النماذج في التطبيق العملي، تستخدم معالجة الفيديو التقليدية مزيجاً من طرق معالجة إشارات الفيديو الكلاسيكية ونماذج التعلم العميق، لإيجاد توازن بين الفعالية والكفاءة وهيئة النشر:
- طرق معالجة الفيديو الكلاسيكية: تثبيت الصورة وإدراج الإطارات المعتمدان على التدفق البصري، والتصفية الزمنية والدمج متعدد الإطارات، وتقليل الضوضاء وإزالة تشوهات الضغط المعتمدة على مطابقة الكتل، لا تزال مستخدمة على نطاق واسع في السيناريوهات محدودة القدرة الحاسوبية أو التي تتطلب قابلية للتفسير.
- نماذج استعادة الفيديو وتحسينه العميقة: شبكات رفع الدقة والتحسين متعددة الإطارات مثل EDVR وBasicVSR / BasicVSR++ ونسخة الفيديو من Real-ESRGAN، التي تتفوق بشكل ملحوظ على الطرق التقليدية في تقليل الضوضاء وإزالة الضبابية واستعادة التفاصيل وإزالة تشوهات الضغط، من خلال محاذاة وتجميع السمات المكانية-الزمانية.
- نماذج إدراج الإطارات العميقة: شبكات إدراج الإطارات مثل DAIN وRIFE وFILM، التي تولد إطارات وسيطة من خلال تقدير التدفق البصري الصريح أو الضمني ودمج السمات الوسيطة، وتكون أكثر استقراراً من طرق التدفق البصري + إعادة العينات التقليدية في مشاهد الحركة المعقدة والانسداد.
- استعادة الفيديو المعتمدة على Transformer: استخدام الانتباه المكاني-الزماني لمعالجة النسيج المكاني والاعتماد الزمني بشكل موحد، مما يوفر قدرة نمذجة أقوى في مشاهد حركة الكاميرا المعقدة ومشاهد الأجسام المتعددة، مع التحكم في كمية الحساب أثناء الاستدلال من خلال آليات مثل الانتباه المتناثر والنوافذ المنزلقة.
- المنتجات والأنظمة الفعلية: التحسين الذكي في CapCut/剪映، وبرامج التحسين التجارية مثل Topaz Video Enhance، وخطوط أنابيب تحسين الجودة في Bilibili ومنصات الفيديو القصير المختلفة، وخدمات ترميم الأفلام القديمة بنموذج SaaS، وغيرها، وعادةً ما تجمع نماذج واستراتيجيات متعددة بشكل متسلسل، وتختار مسار المعالجة الأمثل ديناميكياً بناءً على نوع المادة وظروف الجهاز الطرفي.

بشكل عام، تعمل هذه الطبقة بشكل أكبر على بناء الأساس الفيزيائي والإدراكي للفيديو "قبل المعالجة الدلالية": فهي تساعد المستخدم في الحصول على تجربة مشاهدة أكثر راحة، كما توفر مدخلات أنظف وأكثر استقراراً لنماذج الكشف والتعرف والتوليد في المراحل اللاحقة. فيما يلي، نتوسع في الاتجاهات الفرعية: تحسين الفيديو وإصلاحه، ورفع الدقة وإدراج الإطارات وغيرها.

5.1.1 تحسين الفيديو وإصلاحه: من "قابل للمشاهدة" إلى "جذاب"

في ظروف التصوير الواقعية، نادراً ما يكون الفيديو "نظيفاً": الاهتزاز الشديد الناتج عن الأجهزة المحمولة، والضوضاء العالية والمظهر الملطخ في الإضاءة الضعيفة، وتشوهات الكتل (Block Artifacts) والتدرجات اللونية الناتجة عن ضغط الشبكة، وبهتان الألوان والخدوش في الأجهزة القديمة - كلها تجعل جودة الفيديو أقل بكثير من الحالة المثالية. هدف تحسين الفيديو وإصلاحه هو استعادة أقصى قدر من الاستقرار والوضوح والمظهر الطبيعي إلى أقصى حد ممكن دون تغيير المحتوى الدلالي للفيديو، وتحويل المواد "التي بالكاد تُشاهد" إلى مستوى "تبدو مريحة بل وجذابة".

على المستوى الزمني، يجب أن يعالج التحسين والإصلاح أولاً مشكلة الاستقرار. من خلال مطابقة السمات أو تقدير التدفق البصري بين الإطارات المتتالية، يمكن فصل حركة الكاميرا الكلية عن حركة الأجسام المحلية، ثم استخدام مسار الكاميرا المنعم لإعادة عرض إطارات الإخراج، مما يكبح الاهتزاز السريع والتذبذب الدقيق، ويمنع شعور المشاهد بالدوار أثناء المشاهدة. بناءً على ذلك، يركز تقليل الضوضاء وإزالة الضبابية وإزالة التشوهات على مستوى الصورة بشكل أكبر على النمذجة المكانية-الزمانية المشتركة: يستفيد تقليل الضوضاء متعدد الإطارات من المعلومات الزائدة في الإطارات السابقة واللاحقة، لإجراء معالجة مشابهة لـ "دمج التعريض المتعدد" في الاتجاه الزمني، مما يكبح بفعالية ضوضاء ISO العالية وضوضاء الضغط مع الحفاظ على النسيج التفصيلي؛ أما بالنسبة لضبابية الحركة الطفيفة، فيتم تقدير نواة الضبابية أو استخدام شبكات عميقة شاملة لإجراء معالجة توضيح من نوع Deconvolution على تسلسل الإطارات، مما يجعل الخلفية الثابتة والعناصر المتحركة أكثر حدة.

بالنسبة للأفلام القديمة والمواد منخفضة الجودة، يشمل الإصلاح أيضاً "إعادة بناء" على مستوى الألوان والبنية. يؤدي تقادم الفيلم إلى اصفرار الصورة وانخفاض التباين وظهور خدوش وبقع محلية واضحة، بينما تشيع في الفيديو الرقمي المبكر مشاكل انخفاض الدقة والضغط الشديد وتعرج الحواف. غالباً ما تتبنى خطوط أنابيب الإصلاح الحديثة تعاوناً متعدد الخطوات: أولاً، استخدام نماذج الكشف والتقسيم لتحديد مناطق التلف المحلية كالخدوش والبقع، ثم استخدام شبكات الإكمال المكانية-الزمانية لـ "استعارة المواد لملء الفراغات" من الإطارات المجاورة والبكسلات المكانية المجاورة؛ بالتزامن مع استعادة الألوان وإعادة تشكيل التباين، لجعل الدرجة اللونية الكلية قريبة من التصوير الأصلي أو النمط المرجعي المحدد. بالنسبة للفيديو المضغوط بشدة، يتم أيضاً إدخال شبكات إزالة تشوهات مخصصة لمعالجة تأثير الكتل (Block Effect) وتشوهات الرنين (Ringing Artifacts)، لتحسين الحواف والتفاصيل دون تنعيم مفرط.

تتجلى قدرات التحسين والإصلاح هذه في المنتجات غالباً بشكل "نقرة واحدة": يحتاج المستخدم فقط إلى تحديد "تثبيت الصورة" أو "تحسين الجودة" أو "ترميم الفيديو القديم"، ليقوم النظام تلقائياً في الخلفية باختيار النموذج المناسب وتوليفة المعاملات، وإجراء معالجة متعددة المراحل على تسلسل إطارات الفيديو. من منظور الأعمال، تحدد هذه الطبقة بشكل مباشر تقييم المشاهد الذاتي لجودة الصورة، كما تؤثر بشكل غير مباشر على أداء نماذج التحليل في المراحل اللاحقة: فمدخلات الفيديو الأنظف والأكثر استقراراً تعني غالباً تعرفاً أكثر موثوقية على الوجوه/لوحات السيارات، وكشفاً أكثر دقة للسلوك، وإنذارات كاذبة أقل.

5.1.2 رفع الدقة وإدراج الإطارات: من "قابل للتمييز" إلى "أكثر سلاسة"

في ظل الترقية المستمرة لأجهزة العرض وارتفاع متطلبات المستخدمين للتفاصيل والسلاسة، تبدو كمية كبيرة من محتوى الفيديو المخزن "قاصرة ذاتياً" من حيث الدقة ومعدل الإطارات: دقة 1080p تبدو غير حادة بما يكفي على شاشات 4K، ومعدل 24/30fps غالباً ما يظهر تشوهات (Ghosting) أو تقطع في الشاشات الكبيرة ومشاهد الحركة السريعة. تهدف تقنيتا رفع الدقة وإدراج الإطارات تحديداً إلى حل هاتين المشكلتين: الأولى "تكمل التفاصيل" في البُعد المكاني، والثانية "تكمل العملية" في البُعد الزمني، لترقية الفيديو الذي "بالكاد يمكن تمييزه" إلى تجربة مشاهدة "غنية بالتفاصيل وسلسة التشغيل".

يضيف رفع دقة الفيديو بُعداً رئيسياً مقارنة برفع دقة الصورة الواحدة: الزمن. يؤدي التكبير البسيط إطاراً بإطار بسهولة إلى عدم اتساق التفاصيل بين الإطارات المتجاورة، مما يسبب وميضاً واهتزازاً في النسيج. لذلك، تستفيد الطرق السائدة من معلومات الإطارات المتعددة السابقة واللاحقة، من خلال تقدير التدفق البصري أو محاذاة على مستوى السمات، لمحاذاة التفاصيل من الإطارات المجاورة إلى الإطار المستهدف، ثم إعادة بناء التفاصيل بعد المحاذاة. نماذج مثل EDVR وBasicVSR / BasicVSR++ ونسخة الفيديو من Real-ESRGAN، تقوم أولاً بمحاذاة وتجميع الإطارات المتعددة في فضاء السمات، ثم تستخدم شبكات عميقة لاستنتاج تفاصيل عالية الدقة، متجنبة "الضبابية" و"المظهر البلاستيكي" الناتجين عن الاستيفاء البسيط. في هذه العملية، تشكل الموازنة بين "المعقولية الفيزيائية" و"الجاذبية الحسية" جوهر تصميم دوال الخسارة واستراتيجيات التدريب: يجب رفع المؤشرات الموضوعية (مثل PSNR وSSIM) مع ضمان مظهر طبيعي ذاتي، دون حدة مفرطة أو تفاصيل زائفة.

يركز إدراج الإطارات على "إكمال الإطارات" على المحور الزمني. تعتمد الطرق التقليدية على تقدير التدفق البصري، حيث تتنبأ أولاً بحركة كل بكسل بين إطارين متجاورين، ثم تولد إطاراً جديداً في الموضع الأوسط وفقاً لقواعد معينة. لكن في مناطق الحركة السريعة أو انسداد الأجسام المتعددة أو النسيج المعقد، غالباً ما يكون التدفق البصري غير دقيق بما يكفي، مما يسبب تشوهات أو ظلالاً أو تشوهاً موضعياً. نماذج إدراج الإطارات العميقة مثل DAIN وRIFE وFILM، تتعلم في آن واحد استراتيجيات دمج التدفق البصري والعمق أو السمات الوسيطة من خلال شبكات شاملة، وتُخرج إطار الاستيفاء مباشرة، مما يحسن بشكل ملحوظ الاستقرار والجودة البصرية في المشاهد المعقدة. بالنسبة للأحداث الرياضية وتسجيلات شاشة ألعاب الحركة وإبداع الحركة البطيئة، يمكن لإدراج الإطارات رفع الفيديو الأصلي بمعدل 24/30fps بسلاسة إلى 60/120fps، محافظاً على تفاصيل الحركة مع تقليل التقطع والظلال المتبقية.

في الممارسة الهندسية، غالباً ما تُستخدم تقنيتا رفع الدقة وإدراج الإطارات معاً: بالنسبة للمحتوى المخزن منخفض الدقة ومنخفض معدل الإطارات، يتم أولاً إدراج الإطارات زمنياً، ثم رفع الدقة مكانياً، أو يتم تحقيقهما بشكل متكامل في شبكة مكانية-زمانية موحدة. من حيث هيئة النشر، تناسب المعالجة غير المتصلة على السحابة ترميم الأفلام وخدمات "ترقية الجودة" على مستوى المنصة التي تتطلب جودة صورة عالية جداً، بينما يظهر الاستدلال الفوري على الجهاز الطرفي بشكل أكبر في أجهزة التلفزيون وتطبيقات المشغلات وكاميرات الألعاب/الحركة، مما يتطلب ضمان زمن انتقال منخفض من خلال ضغط النموذج والتسريع العتادي. بغض النظر عن الهيئة التي تظهر بها، أصبح رفع الدقة وإدراج الإطارات بنية تحتية أساسية لـ "تجربة الدقة العالية/الفائقة"، مما يمنح المحتوى القديم "حياة ثانية" على الأجهزة الجديدة.

5.2 فهم الفيديو وتحليل البنية (Video Understanding)

إذا كانت معالجة الفيديو التقليدية تتركز غالبًا على مستوى "جودة الصورة واستقرارها"، فإن فهم الفيديو وتحليل بنيته يبدأ في الإجابة عن أسئلة دلالية مثل "ما الذي يحدث في الفيديو": من يفعل ماذا، وأين، وكم المدة، وهل هناك سلوك غير طبيعي. الهدف هنا هو تفكيك الفيديو هيكليًا على المحور الزمني: التعرف على الحركات والسلوكيات، وكشف الأهداف وتتبعها، وتجزئة المقدمة عن الخلفية، وتقسيم المشاهد واللقطات، واستخلاص إشارات دلالية عالية المستوى تُستخدم في اتخاذ القرارات اللاحقة والبحث والإنذار.

من منظور المنتج، تغلغلت هذه القدرات بعمق في منصات المراقبة الأمنية الذكية، وأنظمة تحليل التدريب الرياضي، ومسجلات القيادة الذكية، وأنظمة تحليل الفيديو لفحص الجودة الصناعي: التعرف على الشجار والسقوط والتسكع وغيرها من الحالات الشاذة في المراقبة؛ وتحليل معيارية الحركة وتفاصيلها التقنية في السيناريوهات الرياضية واللياقة البدنية؛ وتتبع مسارات المركبات والأفراد ومراقبة سير العمليات الإنتاجية في البيئات المرورية والصناعية. فيما يلي نستعرض هذه القدرات من زوايا السيناريوهات والمبادئ والنماذج، ثم نُفصّل في الأقسام التالية عدة اتجاهات تمثيلية.

السيناريوهات
- الأمن والسلامة العامة: في المراقبة الحضرية والمجمعات والمباني، التعرف على سلوكيات مثل الشجار والسقوط والتجمع والركض وتسلق الأسوار، والإنذار المبكر لأنماط غير طبيعية مثل التسكع والبقاء في وقت متأخر من الليل.
- المرور والتنقل: كشف وتتبع مسارات المشاة والمركبات والدراجات عند التقاطعات والأنفاق والطرق السريعة، وتحليل سلوكيات مثل تجاوز الإشارة الحمراء والسير بعكس الاتجاه واحتلال المسار والسرعة الزائدة، مما يوفر أساسًا لإدارة المرور وتتبع أسباب الحوادث.
- الرياضة والتدريب الرياضي: تحليل المراحل الرئيسية وجودة الوضعيات في حركات مثل تسديد كرة السلة وإرسال التنس ووضعيات اليوغا، وتقديم تحليلات تقنية واقتراحات تصحيحية للرياضيين والمستخدمين العاديين.
- الإنتاج الصناعي وفحص الجودة: مراقبة مدى معيارية خطوات العمل على خط الإنتاج، وكشف حالات التركيب الناقص أو الخاطئ أو الحركات غير الطبيعية أثناء التجميع، مما يوفر بيانات أساسية لسلامة الإنتاج وتحسين نسبة الجودة.
- هيكلة المحتوى والبحث: تقسيم الفيديوهات الطويلة إلى لقطات، وتصنيف المشاهد، ووضع علامات على المقاطع المهمة، مما يوفر فهرسًا هيكليًا للبحث اللاحق والتوصية والمونتاج.
المبادئ يكمن جوهر فهم الفيديو وتحليل بنيته في النمذجة المشتركة للأهداف المكانية والدلالات على البُعد الزمني:
- التعرف على الحركة وتحليل السلوك: باستخدام الالتفاف ثنائي/ثلاثي الأبعاد، أو التجميع الزمني، أو Transformer، يتم ترميز مقطع فيديو قصير ككل والتعرف على فئة الحركة التي تحدث فيه؛ وتجمع الطرق المتقدمة بين تسلسلات النقاط الرئيسية للجسم وطوبولوجيا الهيكل العظمي لتحليل جودة الحركة ونمطها بدقة أعلى.
- كشف الأهداف وتتبعها: أثناء الكشف في كل إطار، تُدخَل آليات ربط بين الإطارات (السمات الظاهرية، مسارات الحركة، إلخ) لربط صناديق الكشف لنفس الهدف في لحظات زمنية مختلفة في مسار متصل، مما يعطي نتائج تتبع متعدد الأهداف.
- التجزئة الدلالية للفيديو وتحليل المشهد: إجراء تجزئة دلالية أو تجزئة بالنسخ على مستوى البكسل لكل إطار في الفيديو، مع الاستفادة من الاستمرارية الزمنية لتنعيم التنبؤات؛ بالإضافة إلى كشف انتقالات اللقطات وحدود المشاهد لتحقيق التفكيك الهيكلي للفيديوهات الطويلة.
- الأحداث عالية المستوى وكشف الشذوذ: بالاعتماد على خصائص الحركة والمسار الأساسية، تُستخدم طرق النمذجة الزمنية والتعرف على الأنماط لكشف الأحداث النادرة والأنماط الشاذة، وغالبًا ما يُدمج التعلم غير الموجه أو شبه الموجه للتخفيف من مشكلة ندرة البيانات الموسومة.
النماذج من حيث اختيار النماذج، يعتمد فهم الفيديو وتحليل بنيته عادةً على بنية مركبة من "الخصائص المكانية + النمذجة الزمنية":
- نماذج كلاسيكية مبنية على الالتفاف ثلاثي الأبعاد وTwo‑Stream، مثل I3D وغيرها، تقوم بالتعرف على الحركة من طرف إلى طرف لمقاطع الفيديو القصيرة من خلال الالتفاف المتزامن على البُعدين المكاني والزمني.
- سلسلة نماذج SlowFast متعددة المسارات والمقاييس الزمنية، حيث يلتقط المسار البطيء الدلالات ويلتقط المسار السريع تفاصيل الحركة، محققة توازنًا أفضل بين التكلفة الحسابية والدقة.
- نماذج فيديو مبنية على Transformer، مثل TimeSformer وVideo Swin Transformer وغيرها، تستخدم آليات الانتباه المكاني-الزمني لنمذجة الفيديو على مدى زمني طويل، وهي مناسبة بشكل أفضل لالتقاط الأحداث المعقدة والتفاعلات متعددة الفاعلين.
- كواشف قائمة على الأنابيب (Tube‑based) ونماذج الالتفاف/Transformer المكانية-الزمانية، حيث تُوسَّع صناديق الكشف زمنيًا إلى "أنابيب"، ويُجرى كشف السلوك والتجزئة المكانية-الزمانية على الخصائص المكانية-الزمانية الموحدة.
- طرق تتبع متعدد الأهداف (MOT)، مثل DeepSORT وغيرها، التي تدمج نتائج الكشف على مستوى الإطار مع التضمين الظاهري والتنبؤ بالحركة لربط هويات الأهداف بشكل مستقر عبر الفيديو.

بشكل عام، ترتقي هذه الطبقة من القدرات بالفيديو من "تيار بكسل عالي الجودة" إلى "تيار من السلوكيات والأحداث"، مما يضع أساسًا هيكليًا لفهم متعدد الوسائط والبحث واتخاذ القرار في الطبقات الأعلى. فيما يلي، نُفصّل في ثلاثة اتجاهات: التعرف على الحركة وتحليل السلوك، وكشف الأهداف وتتبعها، وكشف الأحداث والشذوذ.

5.2.1 التعرف على الحركة وتحليل السلوك: من تسلسل الإطارات إلى "من يفعل ماذا"

يركز التعرف على الحركة وتحليل السلوك على "ما يفعله الفاعل خلال نافذة زمنية معينة". في سيناريوهات الأمن، يعني هذا التعرف على سلوكيات مثل "المشي، الركض، السقوط، الشجار" من الفيديو؛ وفي الرياضة واللياقة البدنية، يتوافق مع حركات أكثر تفصيلاً مثل "هل تسديد كرة السلة معياري؟"، "هل إرسال التنس صحيح؟"، "هل القرفصاء عميق بما يكفي؟"، "هل وضعية اليوغا مضبوطة؟". تقنيًا، اعتمدت الطرق المبكرة بشكل رئيسي على الالتفاف ثنائي الأبعاد + التدفق البصري أو الخصائص اليدوية، حيث تُكدَّس عدة إطارات ثم تُصنَّف ككل؛ بينما تعتمد الطرق الحديثة أكثر على الالتفاف ثلاثي الأبعاد (I3D، وسلسلة من متغيرات 3D ResNet)، وهياكل متعددة المقاييس الزمنية مثل SlowFast، أو نماذج قائمة على الانتباه المكاني-الزماني مثل TimeSformer وVideo Swin Transformer، لإجراء نمذجة مشتركة للنسيج المكاني والتغير الزمني.

في العديد من السيناريوهات التي تتطلب تحليلاً عالي الدقة للوضعيات، لا يكفي تصنيف مقاطع RGB مباشرة، بل يُدمج أيضًا تقدير وضعية الجسم ونمذجة تسلسلات الهيكل العظمي: أولاً تُستخرج النقاط الرئيسية ثنائية/ثلاثية الأبعاد من كل إطار، ثم تُدخَل تسلسلات النقاط الرئيسية إلى شبكات RNN أو الالتفاف الزمني أو GCN/Transformer لتحليل البنية الزمنية والتناسق المكاني للحركة. هذه الطريقة القائمة على "أولوية الوضعية + النمذجة الزمنية" أكثر متانة تجاه تغيرات الخلفية والإضاءة والملابس، وهي مناسبة لتطبيقات مثل اليوغا واللياقة البدنية وتقييم معيارية العمليات الصناعية التي تتطلب دقة عالية في تفاصيل الحركة.

5.2.2 كشف الأهداف وتتبعها: من "أين هو في هذا الإطار" إلى "المسار الكامل"

يمكن لكشف الأهداف في إطار واحد أن يخبرنا "ما الأهداف الموجودة في هذا الإطار وأين توجد"، لكن العديد من المهام الواقعية تحتاج إلى معرفة "من أين أتت هذه المركبة/هذا الشخص، وإلى أين ذهب، وماذا فعل في المنتصف". وُجدت وحدة كشف الأهداف وتتبعها تحديدًا لربط الكشوف على مستوى الإطار في مسارات زمنية متصلة: من جهة، يُشغَّل كاشف على كل إطار لإعطاء صناديق مرشحة للأهداف؛ ومن جهة أخرى، تُطابق وتُربط الصناديق بين الإطارات المتجاورة بناءً على إشارات مثل السمات الظاهرية (تضمين ReID)، والتنبؤ بالحركة (مرشح كالمان)، والتداخل المكاني، للحصول على نتائج تتبع متعدد الأهداف (MOT).

في الممارسة الهندسية، يكون خط الأنابيب النموذجي هو: "كشف قوي للمشاة/المركبات + خوارزمية ربط من نوع DeepSORT"، يُنشر على أنظمة المراقبة أو مسجلات القيادة، ويُخرج مسار حركة كل معرّف في الوقت الفعلي. في الأنظمة الأكثر تعقيدًا، تُدمج هذه المسارات مع دلالات المناطق (المسارات، تقسيم المناطق) وقواعد منطق الأعمال لاستنتاج أنماط سلوكية عالية المستوى مثل السير بعكس الاتجاه، والبقاء لفترات طويلة، والدخول والخروج المتكرر، مما يوفر إشارات زمنية متصلة لأنظمة الأمن وتحليل تدفق المرور ومراقبة العمليات الصناعية في الطبقات الأعلى.

5.2.3 كشف الأحداث والشذوذ: إيجاد "ما هو غير طبيعي" من بين "الأنماط الاعتيادية"

في معظم سيناريوهات الأعمال، ما يحتاج حقًا إلى تركيز كبير هو غالبًا "الأقلية الشاذة" و"الأحداث الحرجة": مثل الشجار والسقوط والتجمع في الأمن، والتوقف غير الطبيعي أو العمليات المخالفة في الإنتاج الصناعي، وسلوكيات القيادة الخطرة في المرور. هذه الفئة من الأحداث نادرة نسبيًا، وتكلفة وضع العلامات عليها مرتفعة، والعينات غير متوازنة بشدة، مما يفرض تحديات إضافية على بناء النماذج.

يتمثل النهج الشائع في بناء وحدة لكشف الشذوذ الزمني فوق وحدات التعرف على الحركة وتتبع الأهداف وتجزئة المشهد الأساسية: إما عن طريق التعلم المباشر من عدد قليل من العينات الشاذة الموسومة باستخدام التعلم الموجه؛ أو باستخدام طرق غير موجهة/شبه موجهة لنمذجة توزيع الحركة والسلوك "للنمط الطبيعي"، وعندما ينحرف أي رصد جديد بشكل واضح عن التوزيع التاريخي، يُصدر إنذار. على مستوى النماذج، تُدمج المشفرات التلقائية الزمنية، والتعلم التبايني، والشبكات العصبية البيانية، أو Transformer الزمني لترميز العلاقات المكانية والاعتماديات الزمنية بشكل موحد، مما يسمح بالتقاط أنماط سلوكية جماعية أكثر تعقيدًا واعتماديات طويلة المدى.

5.3 المهام متعددة الوسائط للفيديو + اللغة (Video‑Language)

إذا كان فهم الفيديو يحل مشكلة "فهم الفيديو نفسه بوضوح"، فإن المهام متعددة الوسائط للفيديو + اللغة تركز على "كيفية استخدام اللغة الطبيعية لوصف محتوى الفيديو والإجابة عن الأسئلة والبحث فيه"، وكذلك "كيفية تحديد المعلومات الأساسية بسرعة على المخطط الزمني للفيديو الطويل بناءً على احتياجات النص". تتطلب هذه الفئة من المهام معالجة الإشارات البصرية والصوتية والنصية في آنٍ واحد: من جهة، استخراج خصائص الصورة والصوت من الفيديو، ومن جهة أخرى، الربط مع قدرات الاستدلال والتوليد لدى نماذج اللغة، لضغط المحتوى الزمني-المكاني إلى ملخصات نصية ونتائج أسئلة وأجوبة وفهارس دلالية مناسبة للاستهلاك البشري والاستدعاء الآلي.

من منظور المنتج، تغلغلت هذه القدرة بالفعل في سيناريوهات مثل التوليد التلقائي للترجمات والمخططات الزمنية للفيديوهات الطويلة، و"التمييز الذكي / استخراج المقاطع الرئيسية" في منصات تحرير الفيديو القصير، ومساعدي الأسئلة والأجوبة لفيديوهات التدريب المؤسسي والاجتماعات: لم يعد المستخدم مضطرًا "للمشاهدة من البداية إلى النهاية"، بل يمكنه البحث في محتوى الفيديو وطرح الأسئلة وإعادة تنظيمه مباشرةً عبر اللغة الطبيعية. فيما يلي نتوسع من ثلاثة زوايا: السيناريوهات والمبادئ والنماذج.

السيناريوهات
- الترجمة وتوليد الملخصات: توليد ترجمات متعددة اللغات تلقائيًا للدروس والمحاضرات والاجتماعات ومحتوى الفيديو الطويل، والبناء على ذلك لتوليد ملخصات على مستوى الفصول وقوائم النقاط البارزة والمخططات الزمنية.
- الأسئلة والأجوبة والوصول إلى المعرفة في الفيديو: بناء "مساعد أسئلة وأجوبة للفيديو" لمقاطع الفيديو التعليمية والعروض التوضيحية ومحتوى التدريب المؤسسي، ودعم المستخدمين في طرح الأسئلة باللغة الطبيعية، مثل "كيف تتم هذه الخطوة" أو "أين وضع هذا الشخص الهاتف في النهاية".
- البحث في محتوى الفيديو وتحديد المقاطع: دعم البحث الدقيق "من النص → إلى مقطع الفيديو" في مكتبات الفيديو واسعة النطاق، مثل "أوجد الجزء الذي يذكر السعر" أو "أوجد المقطع الذي يشرح معادلة معينة"؛ وداخل الفيديو الطويل الواحد، التمييز التلقائي ووضع العلامات على المقاطع المثيرة والمعلومات الأساسية.
- إنتاج المحتوى والمساعدة في التحرير: الدمج بين فهم محتوى الفيديو وقدرات توليد اللغة، لتوليد العناوين والنصوص الإعلانية وسيناريوهات اللقطات تلقائيًا، ومساعدة المبدعين في قص المواد وإعادة تجميعها بسرعة.
المبادئ يكمن جوهر أنظمة الفيديو-اللغة متعددة الوسائط في محاذاة الخصائص البصرية الزمنية مع التمثيلات النصية داخل فضاء تضمين موحد، والبناء على ذلك لإجراء البحث والتوليد والاستدلال:
- استخراج الخصائص متعددة الوسائط ومحاذاتها: استخراج الخصائص الزمنية-المكانية من إطارات/مقاطع الفيديو (CNN/ViT/Video Transformer)، واستخراج التضمينات اللغوية من النص (LLM مُدرَّب مسبقًا أو مُشفِّر نصوص)، ومحاذاة الوسيطين من خلال التعلّم التقابلي أو التدريب المسبق متعدد الوسائط.
- خط أنابيب الصوت والنص: بالنسبة للمحتوى الذي يحتوي على صوت، يُستخدم عادةً التعرف التلقائي على الكلام (ASR) أولاً لتوليد نص مُفرَّغ بمحاذاة الطوابع الزمنية، ثم يُنمذَج بشكل مشترك مع الخصائص البصرية، مما يتيح استخدام النص مباشرةً لدفع البحث، وكذلك إجراء المقارنة والتصحيح عبر الوسائط.
- النمذجة الزمنية وتحديد المقاطع: بالنسبة للفيديوهات الطويلة، يلزم تعلّم تمثيلات على "مستوى المقطع" على المخطط الزمني، والتبديل الديناميكي بين المقاطع المحلية والسياق العام من خلال الانتباه أو RAG الزمني، لتحقيق تحديد دقيق للفترات الزمنية ذات الصلة بالسؤال.
- التوليد والاستدلال: ربط نماذج اللغة الكبيرة على التمثيلات متعددة الوسائط بعد المحاذاة، لإجراء توليد اللغة الطبيعية (ترجمات، ملخصات، شروحات)، أو إجراء أسئلة وأجوبة متعددة الجولات واستدلال منطقي.
النماذج من حيث شكل النماذج، مرت مهام الفيديو-اللغة متعددة الوسائط بتطور من "المُشفِّرات المتخصصة + رأس بسيط" إلى "النماذج الكبيرة الموحدة متعددة الوسائط":
- نماذج الفيديو-اللغة المبكرة: مثل VideoBERT وغيره، التي تُنمذِج الرموز البصرية والنصية بشكل مشترك في مرحلة التدريب المسبق، وتكتسب تمثيلات فيديو-لغة قابلة للنقل من خلال التنبؤ المقنَّع والتعلّم التقابلي.
- نماذج الفيديو-اللغة الشاملة (All‑in‑One Video‑Language Models): دمج الفيديو والنص (والصوت) بشكل موحد داخل محول Transformer متعدد الوسائط واحد، من خلال مشاركة المعاملات كليًا أو جزئيًا، لتحقيق معالجة موحدة لمهام متعددة مثل توليد الوصف والبحث والأسئلة والأجوبة.
- نماذج الفيديو الطويل متعددة الوسائط: مثل Gemini وClaude وGPT المزودة بقدرات الفيديو، التي تفهم الفيديو ككل لمدة عشرات الدقائق وحتى ساعات، من خلال السياق الطويل والنمذجة الزمنية الهرمية، وتدعم التلخيص والأسئلة والأجوبة على مستوى المخطط الزمني.
- RAG الزمني + VLM: بناء "فهرس متجهات زمني" على الفيديو، باستخدام VLM أولاً لترميز مقاطع الفيديو وإنشاء قاعدة بيانات، ثم عند الاستعلام، استرجاع المقاطع ذات الصلة، والدمج مع LLM لتوليف الإجابة والاستدلال القابل للتفسير.

بشكل عام، ترتقي هذه الطبقة بالفيديو من "الفهم الآلي" إلى مستوى "الحوار والتعاون بين الإنسان والآلة": حيث يمكن للمستخدم أن يطرح أسئلة على الفيديو كما يسأل شخصًا، ويقوم النظام خلف الكواليس بإجراء المحاذاة والاستدلال المعقد بين البصريات والصوت واللغة.

5.3.1 الترجمة والملخصات والمخططات الزمنية: ضغط الفيديو الطويل إلى نص قابل للتصفح

بالنسبة للدروس والمحاضرات والاجتماعات ومحتوى الفيديو الطويل، غالبًا ما تكون الحاجة الأكثر إلحاحًا هي "معرفة ما قيل بسرعة وأين تكمن النقاط المهمة"، بدلاً من المشاهدة الكاملة من البداية إلى النهاية. تجمع أنظمة الترجمة والتلخيص التلقائية بين "ASR + معالجة النصوص + المساعدة البصرية"، لتحويل المحتوى الصوتي إلى نص بمحاذاة الطوابع الزمنية، ثم البناء على ذلك لتوليد مخططات منظمة وملخصات موجزة، محققةً ضغط المعلومات من "فيديو بمستوى الساعات" إلى "قراءة بمستوى الدقائق".

على مستوى التنفيذ، يتولى مكون ASR مسؤولية تقديم تفريغ نصي متعدد اللغات بمحاذاة زمنية مستقرة وعالية الجودة؛ ويستخدم الجانب النصي نماذج اللغة الكبيرة لتصحيح أخطاء التفريغ الخام وتقسيم الجمل وإعادة التنظيم الدلالي، واستخراج عناوين الفصول والمعلومات الأساسية وأزواج الأسئلة والأجوبة. في بعض السيناريوهات، تُدمج أيضًا الإشارات البصرية (مثل تغيير صفحات PPT وانتقالات المشاهد) للمساعدة في تقسيم حدود الفصول والمقاطع المهمة، لضمان تناسق أكبر بين بنية الملخص وإيقاع المحتوى الحقيقي.

5.3.2 الأسئلة والأجوبة على الفيديو والبحث الدلالي: "التحكم" في الفيديو باللغة الطبيعية

فوق مستوى الترجمة والتلخيص، تتمثل الحاجة الأكثر تقدمًا في القدرة على طرح الأسئلة والبحث في محتوى فيديو محدد: مثل "أين وضع هذا الشخص الهاتف في النهاية" أو "أي مقطع تحدث عن استراتيجية التسعير" أو "في أي دقيقة تم عرض هذه الخطوة". تتطلب هذه المهام تحديدًا دلاليًا للسؤال على المخطط الزمني: فهم الشخصيات والأشياء والحركات التي يتضمنها السؤال نفسه، وفي نفس الوقت إيجاد المقطع المقابل في التمثيل الزمني للفيديو.

من الناحية العملية، يُبنى عادةً فهرس متعدد الدقة للفيديو دون اتصال: استخراج تمثيلات متعددة الوسائط (صورة + نص/صوت) لمقاطع ذات أطوال ثابتة، وإنشاء فهرس متجهات أو بنية بيانية. عند التفاعل المباشر، يُشفَّر سؤال المستخدم إلى متجه نصي، وتُجرى مطابقته مع تمثيلات المقاطع في الفهرس، لإيجاد أكثر الفترات الزمنية صلةً؛ ثم تُرسل محتويات هذه المقاطع (أوصاف لقطات الشاشة الرئيسية، النصوص المُفرَّغة، إلخ) مع السؤال إلى LLM، ليقوم النموذج بتوليد إجابة باللغة الطبيعية أو إرجاع النقاط الزمنية المقابلة. بالنسبة لمكتبات الفيديو واسعة النطاق، يمكن دعم "البحث عبر الفيديوهات" بنفس الآلية، مثل البحث عن مقاطع ذات صلة عبر المجموعات في قواعد المعرفة للتدريب المؤسسي أو فيديوهات منتجات التجارة الإلكترونية.

5.3.3 المساعدة في التحرير متعدد الوسائط: من الفهم إلى "المساعدة في القص"

عندما يصبح النظام قادرًا على فهم محتوى الفيديو وبنيته الدلالية بشكل مستقر، فإن الخطوة الطبيعية التالية هي الاستفادة العكسية من نتائج الفهم هذه للمساعدة في الإبداع والتحرير. يمكن لنماذج الفيديو-اللغة متعددة الوسائط، بناءً على السيناريو أو الكلمات المفتاحية التي يقدمها المبدع، أن تختار تلقائيًا من المواد الموجودة مقاطع متوافقة دلاليًا، وتوليد خط زمني للقص الأولي؛ كما يمكنها توليد العناوين ونصوص الغلاف وعلامات الفصول تلقائيًا بناءً على محتوى الفيديو، وحتى تقديم اقتراحات حول إيقاع اللقطات والموسيقى التصويرية.

في سير العمل، تظهر هذه القدرات عادةً على شكل "توصيات ذكية" و"قص أولي تلقائي": بعد أن يرفع المبدع المواد، يكمل النظام تلقائيًا التحليل وتقسيم اللقطات والتمييز، ويقدم عدة نسخ مرشحة (مثل خطط قص بإيقاعات مختلفة وأطوال متفاوتة)؛ ويمكن للمبدع التعديل الدقيق على هذا الأساس، دون الحاجة للبدء من الصفر بغربلة كل إطار. بالنسبة للتطبيقات المؤسسية، يمكن للنظام أيضًا الدمج مع قواعد المعرفة ومعايير العلامة التجارية، لضمان توافق النصوص والترجمات وأسلوب القص المُولَّدة مع متطلبات العمل المحددة ومعايير الامتثال.

5.4 إنشاء الفيديو وتحريره (Video Generation & Editing)

بعد امتلاك قدرة مستقرة على الفهم والتحليل البنيوي، تنتقل إنشاء الفيديو وتحريره إلى مرحلة "الإبداع النشط للمحتوى": لم يعد الأمر مقتصرًا على تحسين جودة الصورة أو إجراء تحليل بنيوي، بل أصبح يشمل إنشاء لقطات جديدة بالكامل بناءً على نصوص سيناريو أو صور مرجعية أو فيديوهات موجودة، أو إجراء تحرير بنيوي وإعادة ترتيب للفيديوهات الأصلية. يشمل ذلك التوليد من النص إلى الفيديو (Text‑to‑Video) من الصفر، بالإضافة إلى نقل الأنماط والتوسع وإعادة الترتيب بناءً على صور/فيديوهات موجودة، فضلًا عن التحرير الدقيق والاستبدال على مستوى الكائنات.

من ناحية المنتجات، دخلت هذه القدرة بالفعل إلى التيار الرئيسي لصناعة المحتوى من خلال سلسلة من المنتجات مثل Jimeng Video و minimax video و Sora و Runway Gen‑2 و Pika و Kling: حيث يمكن إنشاء الإعلانات التجارية والأفلام المفاهيمية والرسوم المتحركة والقصص المصورة بسرعة دون الاعتماد على فرق تصوير كبيرة وعمليات ما بعد الإنتاج المعقدة؛ ويمكن للمبدعين توجيه اللقطات والأنماط من خلال نصوص باللغة الطبيعية؛ كما بدأت عمليات تحرير الفيديو التقليدية في الاندماج العميق مع أدوات التوليد البنيوي. فيما يلي نستعرض ذلك من زوايا السيناريوهات والمبادئ والنماذج.

السيناريوهات
- من النصوص والسيناريوهات إلى الفيديوهات القصيرة: الإعلانات التجارية للعلامات التجارية، والمسرحيات القصيرة، ومقاطع القصص، والرسوم المتحركة المفاهيمية، حيث يتم إنشاء مسودات فيديو قابلة للتشغيل تلقائيًا أو شبه تلقائي بناءً على السيناريو.
- من الصورة/الفيديو إلى الفيديو: إنشاء نسخ متحركة من الرسوم التوضيحية أو تصاميم الشخصيات، ونقل الأنماط للمواد المصورة الواقعية (واقعي → أنمي/رسم توضيحي)، أو توسيع/إعادة ترتيب الفيديوهات الموجودة زمانيًا ومكانيًا.
- التحرير البنيوي وما بعد الإنتاج: تحقيق عمليات دقيقة مثل تغيير الوجوه، ومزامنة الشفاه، ومسح الكائنات واستبدالها، وإعادة ترتيب المقاطع بناءً على النصوص، دون تغيير الدلالة العامة للمحتوى.
المبادئ تعتمد طرق إنشاء وتحرير الفيديو السائدة حاليًا في الغالب على نماذج الانتشار (Diffusion) أو متغيراتها، حيث تقوم تدريجيًا بـ"إزالة الضوضاء" في الفضاء الكامن الزمكاني عالي الأبعاد لإنشاء الفيديو:
- النمذجة الشرطية النصية: من خلال مشفر نصي (مثل T5/CLIP text tower أو نموذج لغوي متخصص) لتحويل السيناريو إلى متجه شرطي، يوجه مفكك تشفير الفيديو لمحاذاة النمط والمحتوى وأنماط الحركة مع الوصف النصي.
- الاتساق الزمكاني والتحكم في الحركة: إضافة الالتفاف الزمكاني أو الانتباه الزمني أو التعبير رباعي الأبعاد (NeRF/GS وغيرها) في عملية الانتشار أو التحسين اللاحق، لضمان تماسك الفيديو على طول المحور الزمني ومعقوليته الفيزيائية.
- التوليد الشرطي بالصورة/الفيديو: بدء عملية الانتشار في فضاء السمات للصورة أو الفيديو المدخل، من خلال التحكم في حقن الضوضاء ومناطق الأقنعة والقنوات الشرطية، لتحقيق تحرير أو توسع متحكم فيه "يحافظ على الأجزاء المعطاة + يولد محتوى جديدًا".
- إشارات التحكم البنيوية: دمج معلومات بنيوية مثل الهياكل العظمية للوضعيات وأقنعة التجزئة وخرائط العمق ومسارات الكاميرا، لجعل الفيديو المُنشأ أكثر قابلية للتحكم في حركة العناصر وتغيرات زوايا المشاهدة.
النماذج تشمل النماذج والاتجاهات التمثيلية:
- نماذج الانتشار من النص إلى الفيديو (Sora و Runway Gen‑2 و Pika و Kling وغيرها)، التي تخضع للتدريب المسبق على أزواج واسعة النطاق من الفيديو والنص، وتمتلك قدرة توليد قوية في المشاهد المعقدة وحركات اللقطات المتعددة والأنماط المتنوعة.
- نماذج انتشار من الصورة إلى الفيديو: تستخدم صورة إطار واحد كشرط للتنبؤ بالتطور الديناميكي للإطارات اللاحقة، لتحقيق "صورة واحدة → رسوم متحركة/تأثيرات حركية"؛ أو إجراء عمليات مثل استكمال الفيديوهات القصيرة وتوسيعها وتدوير زوايا المشاهدة.
- طرق NeRF/التعبير رباعي الأبعاد والإطارات الرئيسية + الاستيفاء: استخدام تمثيل المشهد ثلاثي الأبعاد أو الإطارات الرئيسية + الاستيفاء الزمني، لدمج التوليد مع نمذجة الهندسة والاتساق، مما يحقق تجوالًا أكثر استقرارًا لزوايا المشاهدة وحركات معقدة.

هذه القدرات ليست معزولة، بل تتسرب تدريجيًا إلى خطوط أنابيب التحرير وما بعد الإنتاج: من النص إلى القصة المصورة، ومن القصة المصورة إلى القص الأولي، ومن القص الأولي إلى التنسيق والتحرير الموضعي — حيث يتم توجيه المزيد والمزيد من المراحل بواسطة "النص + التحكم البنيوي".

5.4.1 التوليد من النص إلى الفيديو: من السيناريو إلى تسلسل لقطات "قابلة للمشاهدة"

يهدف التوليد من النص إلى الفيديو (Text‑to‑Video) إلى تحقيق ما يلي: يقوم المستخدم بوصف مشهد أو لقطة أو مقطع قصة باللغة الطبيعية، ويقوم النظام تلقائيًا بإنشاء فيديو متماسك. بالمقارنة مع توليد الصور، يضيف التوليد من النص إلى الفيديو تحدي البُعد الزمني: ليس فقط الحفاظ على جودة الصورة واتساق النمط على مستوى الإطار الواحد، بل أيضًا ضمان تماسك هوية العناصر والإضاءة والخلفية ومسارات الحركة عبر الإطارات.

تقوم نماذج الانتشار النموذجية للتوليد من النص إلى الفيديو أولًا بالتدريب المسبق على بيانات مزدوجة واسعة النطاق من الفيديو والنص: يستخرج المشفر النصي الشروط الدلالية، ويقوم مفكك تشفير الفيديو بإزالة الضوضاء بشكل متكرر من "فيديو ضوضائي" في الفضاء الكامن، ليتقارب تدريجيًا مع إشارة زمكانية متوافقة مع النص. في هذه العملية، يتم بناء الاعتماد الزمني بشكل صريح في الشبكة من خلال هياكل مثل الانتباه الزمني أو الالتفاف ثلاثي الأبعاد أو التعبير رباعي الأبعاد، لتجنب مشكلات مثل "القفز بين الإطارات" و"إعادة ضبط الشخصيات". تدعم بعض الأنظمة أيضًا التحكم في حركة الكاميرا (التقريب والإبعاد والتحريك) وإيقاع التكوين، مما يجعل النتائج المُنشأة أقرب إلى لغة التصوير الحقيقية.

5.4.2 من الصورة/الفيديو إلى الفيديو: "النمو" و"التحول" على المحتوى الموجود

هناك مسار مهم آخر يتمثل في التوليد والتحرير بناءً على صور أو فيديوهات موجودة: على سبيل المثال، "تحريك" رسم توضيحي أو صورة مفهوم تصميمي، أو تحويل فيديو واقعي إلى نمط أنمي، أو تغيير الخلفية وضبط الطقس والوقت مع الحفاظ على البنية دون تغيير. من الناحية التقنية، تضيف هذه الأساليب غالبًا "قنوات مرجعية" فوق عملية الانتشار: حيث يتم ترميز الصورة أو الفيديو المدخل إلى سمات، تشارك في إزالة الضوضاء كشرط أو حالة ابتدائية، مع التحكم في "المناطق التي يمكن تغييرها والتي يجب الحفاظ عليها" من خلال آليات مثل الأقنعة والقيود الهندسية الصريحة.

بالنسبة لسيناريوهات نقل النمط، يقوم النموذج بإعادة رسم النسيج والإضاءة لتتناسب مع النمط المستهدف مع الحفاظ على الحركة والتكوين الأصليين؛ وبالنسبة لتوسيع الفيديو وإعادة ترتيبه، يتم "استكمال" إطارات جديدة في طرفي الوقت أو في المنتصف، لتحقيق توسع أفقي/عمودي للمشهد، أو دوران زوايا المشاهدة، أو إضافة تفاصيل للحبكة. هذه القدرات مناسبة جدًا للدمج مع عمليات التحرير التقليدية: حيث يقدم المحرر اللقطات الرئيسية والإيقاع أولًا، ثم يقوم النموذج تلقائيًا بإنشاء انتقالات وتنويعات بين "نقاط الارتساء" هذه.

5.4.3 تحرير الفيديو البنيوي: التحكم الدقيق على مستوى الكائنات

في العديد من سيناريوهات الأعمال، ليس من الضروري إعادة إنشاء الفيديو بالكامل، بل الأهم هو إجراء تحرير بنيوي دقيق وقابل للتحكم على المحتوى الموجود: مثل تغيير الوجوه، وتعديل حركة الشفاه، ومسح الكائنات غير المرغوب فيها، واستبدال محتوى المساحات الإعلانية، أو إعادة ترتيب تسلسل اللقطات بناءً على نص السيناريو. يتطور تحرير الفيديو البنيوي وفقًا لهذا التوجه: بناءً على فهم الفيديو، يتم إدخال تجزئة على مستوى الكائنات وتتبع وتمثيل معلمي، مما يجعل عمليات التحرير قابلة للربط بشكل مستقر بأهداف وفترات زمنية محددة.

يُعد تغيير وجوه الأشخاص ومزامنة الشفاه (Lip‑sync) من أكثر التطبيقات نموذجية في هذا الاتجاه: يحتاج النموذج إلى عرض هوية الشخص المستهدف على أداء الفيديو الأصلي مع ضمان وضعية الرأس والتعبيرات العامة بشكل طبيعي ومتماسك، والتحكم بدقة في حركة الشفاه وفقًا لإشارة الصوت الجديدة. بينما يعتمد مسح/استبدال الكائنات على تجزئة عالية الجودة وإكمال زمكاني: يتم أولًا تجزئة وإزالة الكائن المستهدف في كل إطار، ثم ملء الفراغات باستخدام نسيج الإطارات المجاورة والسياق، لتجنب ظهور آثار "ترقيع" واضحة. أما التحرير الموجه بالنص فيقوم بمحاذاة "بنية السيناريو" مع المحور الزمني للفيديو، لاختيار وتجميع المقاطع المتوافقة مع دلالات السيناريو تلقائيًا، مما يحقق تحريرًا آليًا على مستوى أعلى.

5.5 الإنسان الرقمي / الشخصية الافتراضية (Digital Human / Avatar)

الإنسان الرقمي / الشخصية الافتراضية (Digital Human / Avatar) يمكن اعتباره "تكاملاً على مستوى النظام" يجمع بين توليد الفيديو، وتركيب الصوت، والفهم متعدد الوسائط، والعرض الرسومي: فهو لا يقتصر على توليد مقطع فيديو فحسب، بل يقود شخصية افتراضية بشكل مستمر وقابل للتحكم "لتتحدث، وتعبر، وتتحرك" بناءً على إدخال نصي أو صوتي، ويحقق تفاعلاً شبه فوري بل وفوري في عدد متزايد من السيناريوهات. بالمقارنة مع توليد الفيديو العام، يركز الإنسان الرقمي بشكل أكبر على ثلاثة جوانب: الاتساق طويل المدى للهوية والمظهر، والمحاذاة الدقيقة بين الصوت والتعبير والحركة، بالإضافة إلى زمن الاستجابة الفوري واستقرار النظام الشامل.

من منظور المنتج، ظهر الإنسان الرقمي على نطاق واسع في منصات إنتاج المحتوى، وخدمة العملاء الافتراضية / المكاتب الأمامية الذكية / الجولات الافتراضية، والتعليم والتدريب والفصول الدراسية عبر الإنترنت، والشخصيات الافتراضية للعلامات التجارية / المؤثرين الافتراضيين، وأدوات المذيع الافتراضي / التوأم الرقمي للمبدعين وسيناريوهات أخرى: يمكن للشركات إنتاج محتوى فيديو بكميات كبيرة بمظهر وأسلوب ثابتين، ويمكن للخدمات الحكومية والمؤسسية استخدام المكاتب الأمامية الافتراضية لاستقبال المستخدمين على مدار الساعة طوال أيام الأسبوع، ويمكن للمبدعين الأفراد الاستمرار في إنتاج فيديوهات "يظهر فيها شخص" دون الكشف عن وجوههم. فيما يلي نستمر في التنظيم من ثلاثة أبعاد: السيناريوهات والمبادئ والنماذج، وسنتوسع في الأقسام الفرعية اللاحقة في ثلاثة اتجاهات: القيادة والتعبير، والمظهر وتوليد الفيديو، والتفاعل الفوري وتكامل النظام.

السيناريوهات
- إنتاج المحتوى والنشر عبر الإنترنت: فيديوهات الشركات الترويجية، وشروحات ميزات المنتجات، وتسجيل الدورات، ونشرات الأخبار، باستخدام الإنسان الرقمي بديلاً عن التصوير البشري، مما يقلل بشكل كبير من تكاليف مواقع التصوير، ومعدات الإضاءة، والموارد البشرية.
- خدمة العملاء الافتراضية والجولات الافتراضية: في فروع البنوك، وقاعات الخدمات الحكومية، والأماكن السياحية، والمتاحف، يستخدم الإنسان الرقمي للاستقبال، والاستفسارات، والاستشارات التجارية، والإرشاد المكاني، مع الحفاظ على توحيد المظهر والخدمة على مدار الساعة طوال أيام الأسبوع.
- الشخصيات الافتراضية للعلامات التجارية / المؤثرون الافتراضيون: تشغيل فيديوهات قصيرة، وبث مباشر، ومحتوى تجارة إلكترونية حول شخصية افتراضية معينة لفترة طويلة، مع الحفاظ على شخصية وأسلوب بصري موحدين عبر منصات مختلفة.
- المذيع الافتراضي والتوأم الرقمي: توفير مذيع افتراضي / توأم رقمي قابل للتكوين للمبدعين الذين لا يرغبون في الظهور أو يحتاجون إلى إدارة هويات متعددة، مرتبط بصوت حقيقي أو مركب، لتحقيق "الظهور الثابت بمجرد التحدث أو الكتابة".
المبادئ نظام الإنسان الرقمي هو في جوهره "خط أنابيب متعدد الوسائط مدفوع بالصوت / النص + نمذجة المظهر + مخرجات فيديو / عرض"، مع اختلافات طفيفة بين السيناريوهات غير المتصلة والمتصلة، لكن المكونات الأساسية متشابهة:
- القيادة الصوتية واللغوية: توليف الصوت مباشرة من النص باستخدام TTS وفقاً للنص المكتوب، أو الاتصال بـ ASR + LLM لتوليد نص الرد من صوت / نص المستخدم، ثم إخراج الصوت باستخدام TTS؛ تعمل ميزات الصوت (مثل طيف mel) كإشارات قيادة للتحكم في تزامن حركة الفم والتعابير.
- نمذجة المظهر وفضاء الحركة: بناء تمثيل هندسي ومظهري قابل للتحكم للشخصية الافتراضية، مثل الصور الشخصية / الرسوم التوضيحية ثنائية الأبعاد، أو الشخصيات الافتراضية ثلاثية الأبعاد القائمة على الهيكل العظمي وBlendshape، أو تمثيلات حجمية قابلة للعرض مبنية على NeRF / 4D Gaussian؛ مع تعريف مجموعة من "معاملات القيادة" (مثل النقاط الرئيسية، والهيكل العظمي للوضعية، ومعاملات Blendshape) لترميز التعابير والوضعيات.
- الربط بين الصوت والتعبير / الحركة: من خلال نماذج "القيادة الصوتية" المتخصصة، يتم ربط ميزات الصوت بمعاملات قيادة الوجه والجزء العلوي من الجسم، لتحقيق تزامن حركة الشفاه (Lip-sync)، وتفاصيل التعابير، وحركات الرأس والكتفين؛ يتطلب الإنسان الرقمي الفوري أن يكون هذا الربط منخفض الزمن ومستقراً من طرف إلى طرف.
- العرض والتركيب: وفقاً لمعاملات القيادة للإطار الحالي، يتم عرض صورة الشخصية الافتراضية بشكل ثنائي أو ثلاثي الأبعاد، وإخراج دفق فيديو مستمر أو صورة فورية؛ يمكن إضافة خلفيات ودعائم وترجمات وعناصر أخرى، ودمجها مع سير عمل تحرير الفيديو التقليدي.
النماذج على مستوى النماذج المحددة، غالباً ما تستخدم أنظمة الإنسان الرقمي مزيجاً من نماذج متخصصة متعددة ونماذج عامة متعددة الوسائط:
- نماذج Talking Head المدفوعة بالصوت (Audio-driven Talking Head): مثل Wav2Lip التي تعد من نماذج تزامن حركة الشفاه، حيث تتعلم علاقة المحاذاة بين الصوت ومنطقة الفم على مستوى البكسلات / الهندسة، لإنتاج حركات فم طبيعية مع الحفاظ على اتساق الهوية.
- نماذج الإنسان الرقمي الفوري / خفيف الوزن: مثل Ultralight-Digital-Human، ونماذج Talking Head خفيفة الوزن، التي تضغط بشكل كبير المعاملات والحسابات هيكلياً، مما يتيح تحقيق قيادة وعرض شبه فوريين حتى على وحدة المعالجة المركزية / الأجهزة المحمولة / WebGPU.
- نماذج التعبير NeRF / 4D: مثل ER-NeRF (حلول NeRF للإنسان الرقمي في اتجاه Explicit / Efficient / Editable)، التي تنمذج مظهر الشخصية وتغيرات تعابيرها في الفضاء ثلاثي الأبعاد، مما يجعل زاوية الرؤية والإضاءة والحركة أكثر طبيعية وسلاسة، ومناسبة للسيناريوهات عالية الدقة ومتعددة الكاميرات.
- نماذج القيادة الصوتية والمحاذاة متعددة الوسائط: مثل MuseTalk وهي نماذج من نوع "الصوت → تعابير الوجه / الرأس المتحدث"، تقوم بمحاذاة ميزات الصوت والميزات البصرية، لإنتاج تعابير كلام وحركات رأس واقعية دون الاعتماد على كميات كبيرة من التوسيم ثلاثي الأبعاد.
- نماذج الصوت والحوار: TTS متعدد المتحدثين عالي الطبيعية، ونماذج الحوار الصوتي من طرف إلى طرف (ASR + LLM + TTS متكاملة)، لتوفير قدرات صوتية وحوارية متعددة الأنماط واللغات للإنسان الرقمي.

بشكل شامل، الإنسان الرقمي هو مجموعة من النماذج، ونظام متكامل أيضاً: فهو يدمج فهم اللغة، والصوت، والتوليد البصري، والاستدلال الفوري، ليقدم شخصية افتراضية تفاعلية "على الشاشة". فيما يلي، نتوسع في ثلاثة اتجاهات: القيادة والتعبير، والمظهر وتوليد الفيديو، والتفاعل الفوري وتكامل النظام.

5.5.1 القيادة والتعبير: من النص / الصوت إلى شخص "يتحدث ويعبر"

في خط أنابيب الإنسان الرقمي، تكون القيادة والتعبير مسؤولة عن الإجابة على سؤال جوهري: بافتراض وجود نص مكتوب أو صوت، ما هو شكل الفم والتعبير وحركات الرأس والكتفين التي يجب أن تظهرها الشخصية الافتراضية في كل إطار؟ يشمل ذلك سيناريوهات الإنتاج الدفعي غير المتصل، وكذلك الاستجابة للحوار الفوري.

في إنتاج المحتوى غير المتصل، يكون المسار الشائع هو "النص المكتوب → TTS → القيادة الصوتية": يقدم فريق العمل النص المراد بثه، وتقوم وحدة TTS بتوليد الصوت بالطابع الصوتي المستهدف (مثل المتحدث الافتراضي للعلامة التجارية)، ثم تُدخل ميزات الصوت إلى نموذج "الصوت → الحركة". وتعد نماذج من نوع Wav2Lip ممثلاً مهماً لهذه المرحلة:

تأخذ إطاراً مرجعياً للصورة الشخصية ومقطع الصوت المقابل كمدخلات، وتتنبأ من خلال شبكة التفاف / انتباه بمنطقة الفم المحاذية بدقة مع الصوت، ثم تدمجها مع الصورة الشخصية الأصلية، وبذلك تعدل شكل الفم بدقة مع الحفاظ على الهوية ومعظم التعابير دون تغيير.
أثناء التدريب، تتعلم الشبكة من خلال بيانات محاذاة الصوت والفيديو الأشكال الفموية المقابلة لمختلف المقاطع الصوتية (phonemes)، وتحافظ على الاستمرارية الزمنية لتجنب قفزات حركة الفم أو الإحساس بالتأخير.

بالمقارنة مع الحلول المبكرة لمزامنة حركة الفم فقط، توسعت نماذج الجيل الجديد من القيادة الصوتية (مثل طرق من نوع MuseTalk) لتشمل تعابير الوجه الكاملة ووضعية الرأس:

تقوم هذه النماذج عادةً بربط ميزات الصوت بفضاء كامن "للعاطفة / التعبير" منخفض الأبعاد، ثم تولد من خلال مفكك الترميز نقاطاً رئيسية، أو معاملات Blendshape، أو ميزات صور مباشرة، لتحريك التغيرات الدقيقة في مناطق الحاجبين والعينين والوجنتين، مما يجعل "تعابير الكلام" أكثر حيوية.
بعض النماذج تقوم أيضاً بترميز المعلومات الدلالية لمحتوى الصوت (مثل الاستفهام، والتأكيد، والتعجب)، ودمجها مع إشارات نحوية / تداولية يحللها LLM، لإضافة حركات مثل الإيماء بالرأس، وتقطيب الحاجبين، والإيماءات عند تغيرات النبرة، مما يعزز طبيعية التعبير وتأثيره.

على مستوى أعلى، يمكن للقيادة والتعبير أيضاً أن تتحد مع إشارات تحكم خارجية: مثلاً استخدام الهيكل العظمي للوضعية، ومسارات الإيماءات، واتجاه النظر كمدخلات إضافية، لتمكين الإنسان الرقمي من تقليد أسلوب متحدث معين، أو تنفيذ قوالب حركية محددة مسبقاً وفقاً "للإجراءات الموجهة" في النص (مثل "الإشارة إلى الشاشة"، "فتح اليدين"). سواء كانت نماذج تزامن حركة الفم المحلية مثل Wav2Lip، أو نماذج التعبير الأكثر شمولاً مثل MuseTalk / القيادة الهيكلية الفورية، فإنها تحقق معاً الربط المستمر من الصوت / النص إلى حركات الوجه والجزء العلوي من الجسم، وهي الحلقة الأساسية التي تجعل الإنسان الرقمي "يبدو وكأنه يتحدث بجدية".

5.5.2 المظهر وتوليد الفيديو: من "نموذج" إلى "شخصية قابلة للتشكيل"

تحل سلسلة القيادة مشكلة "كيف يتحرك"، بينما يحدد المظهر وتوليد الفيديو "من يتحرك، وأين يتحرك، وبأي أسلوب يتحرك". يشمل ذلك الإنسان الرقمي فائق الواقعية، بالإضافة إلى الشخصيات المنمقة مثل الأنمي والكرتون والشخصيات منخفضة التفاصيل (Low-poly Avatar)، بالإضافة إلى خيارات تقنية مختلفة للعرض الفوري وغير المتصل.

في سيناريوهات الصور الشخصية والرسوم التوضيحية ثنائية الأبعاد، يكون الأسلوب النموذجي هو تدريب نموذج توليد Talking Head بناءً على عدد قليل من الصور المرجعية ومقاطع الفيديو القصيرة:

يقوم النموذج بترميز معلومات هوية الشخص كـ"متجه مظهري" أو ميزة أسلوبية، ويأخذ معاملات القيادة (مثل المتجه الكامن للصوت، والنقاط الرئيسية، وترميز التعابير) كمدخلات شرطية، ليولّد إطارات جديدة في فضاء الصورة.
على عكس Wav2Lip البحتة التي تعدل حركة الفم فقط، يمكن لهذا النوع من النماذج إجراء تأرجحات طفيفة في الوضعية وإضافة تغيرات عاطفية على التعابير، مما يجعل الإنسان الرقمي يبدو أقل "جموداً".

في السيناريوهات التي تسعى إلى واقعية أعلى وزوايا رؤية أكثر حرية وتبديل متعدد الكاميرات، تتبنى المزيد من الحلول نمذجة الإنسان الرقمي القائمة على NeRF / التعبير رباعي الأبعاد (مثل طرق من نوع ER-NeRF):

من خلال التصوير متعدد الزوايا أو الفيديو، يتم أولاً إعادة بناء حجم ثلاثي الأبعاد أو حقل غاوسي لرأس / الجزء العلوي من جسم الشخص، وترميز الحالات المقابلة لمختلف التعابير وأشكال الفم كفضاء كامن قابل للاستيفاء؛
عند القيادة، يتم ربط معاملات الصوت / التعابير بهذا الفضاء الكامن، وإجراء عرض حجمي أو عرض غاوسي في الفضاء ثلاثي الأبعاد، ثم الإسقاط على الشاشة.
تكمن ميزة هذا الأسلوب في: أن زاوية الرؤية والإضاءة والخلفية أكثر طبيعية، ويمكنه دعم حركات "الزاوية المحيطية" و"الكاميرا الافتراضية"، وهو مناسب بشكل خاص للواقع الافتراضي / المعزز، واستوديوهات البث الافتراضية، وإنتاج الإعلانات الراقية.

في الأعمال التي تركز على النشر عبر الأنظمة الأساسية والفورية، يتم أيضاً اعتماد حلول خفيفة الوزن من نوع Ultralight-Digital-Human:

من خلال التقليم الهيكلي، وإعادة بناء المؤثرات، وتقطير النماذج، يتم ضغط شبكات عرض Talking Head أو Avatar إلى حجم يمكن تشغيله على الأجهزة المحمولة / WebGPU؛
يتم توليد صورة من معاملات القيادة في غضون بضع ميلي ثوانٍ، بمحاذاة مع دفق الصوت الفوري أو إشارات التحكم، لتحقيق "إنسان رقمي منخفض الزمن"، مناسب لمحطات التفاعل، وأجهزة الخدمة الذاتية، وتطبيقات واجهة الويب الأمامية.

على مستوى إنتاج الفيديو الكامل، يجب أيضاً دمج المظهر وتوليد الفيديو مع الخلفيات والدعائم ولغة الكاميرا. سير العمل الشائع هو:

أولاً، تخصيص مظهر إنسان رقمي (ثنائي أو ثلاثي الأبعاد) للعلامة التجارية أو الفرد؛
إعداد مسبق لعدة مشاهد افتراضية (استوديو، مكتب، فصل دراسي، قاعة عرض، إلخ)؛
عند إنتاج المحتوى، يختار النظام تلقائياً المشهد وزاوية الكاميرا المناسبين وفقاً للنص، ويولد مشهد الإنسان الرقمي، وينسق العرض متعدد المشاهد مع PPT، وفيديوهات العروض التوضيحية، ومشاهد المنتجات. هذا يجعل الإنسان الرقمي ليس مجرد "رأس متحدث"، بل "شخصية" يمكن دمجها بشكل طبيعي في مختلف البرامج وأشكال المحتوى.

5.5.3 الإنسان الرقمي الفوري وتكامل النظام: من الفيديو غير المتصل إلى "زميل على الشاشة"

مع نضوج ASR وTTS وLLM ونماذج توليد الفيديو خفيفة الوزن، بدأت المزيد من أنظمة الإنسان الرقمي في الانتقال من الإنتاج الدفعي غير المتصل نحو التفاعل الفوري: يتحدث المستخدم أو يدخل نصاً على الجهاز الطرفي، ويقوم الإنسان الرقمي على الشاشة خلال مئات الميلي ثوانٍ إلى بضع ثوانٍ بـ"الفهم — التفكير — الرد — التحدث"، مما يخلق تجربة مشابهة لخدمة العملاء البشرية / الجولة الافتراضية / التقديم. المفتاح هنا ليس فقط النماذج نفسها، بل أيضاً كيفية ضغط سلسلة الوسائط المتعددة إلى زمن استجابة مقبول من طرف إلى طرف.

في حلقة الإنسان الرقمي الفوري النموذجية:

الإدخال الأمامي: تقوم وحدة ASR بتحويل صوت المستخدم إلى نص بشكل فوري، أو تستقبل مباشرة إدخال المستخدم النصي.
الفهم الدلالي واتخاذ القرار: يقوم LLM بالدمج مع قاعدة المعرفة والأدوات الخاصة بالعمل (RAG، واستعلامات قواعد البيانات، وتنسيق سير العمل) لتوليد نص الرد، بالإضافة إلى تعليمات منظمة ضرورية (مثل أي صفحة PPT يجب عرضها، أي مقطع فيديو يجب تشغيله).
الصوت والقيادة: يقوم TTS بتحويل نص الرد إلى صوت بالطابع الصوتي المستهدف، ويتم استهلاك دفق الصوت أثناء توليده من قبل Wav2Lip / MuseTalk / نماذج القيادة الهيكلية الفورية، لإخراج معاملات حركة الفم والتعابير المقابلة مقطعاً تلو الآخر.
مخرجات العرض: تقوم شبكات العرض خفيفة الوزن من نوع Ultralight-Digital-Human أو محركات عرض Avatar / NeRF القائمة على GPU، بتحويل معاملات القيادة إلى إطارات فيديو بشكل فوري، وإخراجها مباشرة إلى الشاشة عبر WebRTC أو RTMP أو العرض المحلي.

لتوفير تجربة متسقة عبر أطراف متعددة، يحتاج النظام أيضاً إلى موازنة دقيقة بين زمن الاستجابة وعرض النطاق والقدرة الحاسوبية:

في حلول العرض السحابي، تتم الغالبية العظمى من الحوسبة (LLM، TTS، القيادة والعرض) على الخادم، ويقتصر دور الطرف على تشغيل دفق الفيديو، وهو مناسب لتطبيقات الويب / التطبيقات ذات القدرة الحاسوبية المحدودة والشاشات الكبيرة غير المتصلة، لكنه يعتمد على استقرار الشبكة؛
في حلول "السحابة + الطرف الهجين"، يتم إكمال ASR وجزء من استدلال LLM في السحابة، بينما تتم القيادة والعرض خفيفا الوزن محلياً، مما يمكن أن يقلل بشكل كبير من زمن تفاعل الصوت والصورة، وهو مناسب للأجهزة المحمولة ومحطات الخدمة الذاتية؛
على الأطراف ذات القدرة الحاسوبية العالية (مثل أجهزة الكمبيوتر عالية الأداء، ومحطات العمل المتخصصة)، يمكن أيضاً إنزال معظم السلسلة محلياً، لتحقيق تفاعل مستقر في بيئات الشبكة الضعيفة.

على مستوى النماذج، يفرض الإنسان الرقمي الفوري أيضاً متطلبات إضافية على التصميم الهيكلي:

تحتاج نماذج القيادة الصوتية إلى قدرة استدلال تدفقي، بحيث يمكنها تقديم تنبؤات بحركة الفم والتعابير بعد الحصول على مقطع صوتي قصير، بدلاً من انتظار انتهاء الجملة كاملة؛
تحتاج شبكات العرض إلى تقليل الاعتماد على نوى الالتفاف الكبيرة والانتباه الشامل قدر الإمكان، واستخدام هياكل مثل الالتفاف المحلي، والانتباه الذاتي خفيف الوزن، وهرم الدقة للتحكم في كمية الحساب؛
بالنسبة للحلول عالية الدقة المبنية على NeRF / 4D، يلزم استخدام وسائل مثل تخزين الشبكات مؤقتاً، واقتصاص مخروط الرؤية، والحجوم المتفرقة، وتحسينات GPU، للتحكم في عرض كل إطار في غضون بضع ميلي ثوانٍ إلى عشرات الميلي ثوانٍ.

على مستوى تكامل النظام، غالباً ما يحتاج الإنسان الرقمي الفوري أيضاً إلى الارتباط الوثيق بـ معرفة العمل، وإعدادات الشخصية، واستراتيجيات الحوار:

من خلال قواعد المعرفة وRAG لإدارة المعرفة القطاعية، وسير العمل، والأسئلة الشائعة، لضمان "صحة وشمولية ما يقال"؛
من خلال تكوين الشخصية وقوالب الخطاب للتحكم في أسلوب التحدث وحدود التعبير، لضمان "أن يبدو مثل هذا الشخص (أو هذه العلامة التجارية)"؛
من خلال استراتيجيات الحوار متعدد الجولات وإدارة حالة الجلسة، ليتمكن الإنسان الرقمي من تذكر سياق المستخدم، والتأكيد والاستفسار في الوقت المناسب، مما يقدم إحساساً تفاعلياً "كزميل حقيقي / مرشد سياحي / محاضر".

بشكل عام، بعد إضافة نماذج مثل Wav2Lip وMuseTalk وER-NeRF وUltralight-Digital-Human المصممة خصيصاً لتزامن حركة الشفاه وقيادة التعابير والعرض الفوري، يتسارع تطور الإنسان الرقمي من "أداة قوالب فيديو غير متصلة" إلى كيان افتراضي يمكنه الاستجابة فوراً، ويمتلك شخصية مستقرة ومعرفة متخصصة، ليصبح الحلقة الأكثر شمولية وتوتراً تطبيقياً في منظومة تقنيات الفيديو.

6. السلاسل الزمنية واتخاذ القرارات التسلسلية (Time Series & Sequential Decision)

في النمذجة البصرية والهيكلية التي ناقشناها سابقًا، كنا نفكر غالبًا في مساحة "ثابتة": صورة، أو سجل، أو نص. أما في الأعمال الواقعية، فإن جزءًا كبيرًا من المؤشرات الأساسية يتطور عبر الزمن: حجم المبيعات وحركة المرور يتقلبان يوميًا، وحمل الخادم وقراءات المستشعرات تتغير كل ثانية، والأسعار المالية والمؤشرات الاقتصادية الكلية تتعدل باستمرار بفعل السياسات والأحداث. تركز طبقة السلاسل الزمنية واتخاذ القرارات التسلسلية على: التنبؤ بالمستقبل على المحور الزمني، واكتشاف الحالات الشاذة، وتوصيف التغيرات الهيكلية، واتخاذ قرارات وتحكم استباقي بناءً على ذلك.

من منظور المنتج، تمتد هذه القدرات عبر مجالات حيوية مثل العمليات التشغيلية، والتخطيط، وإدارة المخاطر، والجدولة: وحدات التنبؤ بالمؤشرات المدمجة في أنظمة BI ولوحات التقارير التقليدية، والتنبؤ بالطلب واقتراحات المخزون الآمن في أدوات تخطيط المالية وسلاسل التوريد، وتحليل الارتباطات الكلية واستخراج العلاقات السببية في برمجيات البحث والتحليل الكمي، والتنبؤ بحركة المرور وسعة الخدمة في منصات التجارة الإلكترونية وخدمات النقل، واكتشاف شذوذ المؤشرات والتنبيهات في أنظمة AIOps لإدارة العمليات — كلها تجسيدات نموذجية لهذه الطبقة. فيما يلي نستعرض أربعة اتجاهات رئيسية: الطرق الإحصائية الكلاسيكية، ونمذجة السلاسل الزمنية بالتعلم العميق، واكتشاف الشذوذ ونقاط التغير، ونمذجة السلاسل الزمنية المكانية.

6.1 النمذجة الإحصائية الكلاسيكية للسلاسل الزمنية (Statistical TS Modeling)

في العديد من الأعمال، يُعد "الوقت" هو المحور الطبيعي: حجم المبيعات يتغير يوميًا/أسبوعيًا، وحركة مرور الموقع تتقلب مع الأنشطة، وحمل الأجهزة يتغير مع سلوك المستخدمين، وقراءات المستشعرات تعكس تغييرات دقيقة في حالة النظام. النمذجة الإحصائية الكلاسيكية للسلاسل الزمنية تستفيد من هذه البنية الزمنية، باستخدام نماذج إحصائية قابلة للتفسير والتحليل للإجابة عن ثلاثة أسئلة أساسية: ماذا سيحدث في المستقبل؟ كيف ترتبط المتغيرات ببعضها؟ ما هي الحالة الحالية للنظام؟ على الرغم من أن التعلم العميق قد برز في العديد من السيناريوهات، إلا أن الأساليب التقليدية مثل ARIMA وتحليل التكامل المشترك ومرشح كالمان لا تزال تُستخدم على نطاق واسع في مجالات المالية وسلاسل الإمداد والعمليات وإدارة المخاطر، وغالبًا ما تكون بمثابة "خط الأساس" وأداة تفسير للأنظمة الأكثر تعقيدًا.

من منظور تطبيقي، توجد نماذج السلاسل الزمنية الكلاسيكية على نطاق واسع في وحدات التنبؤ بالمؤشرات في أنظمة BI/التقارير التقليدية، وأدوات تخطيط المالية وسلاسل الإمداد، وبرامج البحث الكمي المتنوعة. يمكنها تقديم فترات توقع مستقبلية لسلسلة زمنية واحدة أو متعددة، كما يمكن استخدامها لتحليل التغيرات المتزامنة وعلاقات التوازن طويل الأجل بين المؤشرات الكلية، وتقدير المسارات والحالات المخفية من خلال نمذجة فضاء الحالة. فيما يلي، نستعرض الاستخدامات النموذجية لهذه الأساليب من ثلاثة أبعاد: السيناريوهات والمبادئ والنماذج، ثم نفصل كل اتجاه على حدة.

السيناريوهات
- التنبؤ بالمؤشرات: التنبؤ قصير أو متوسط المدى بالقيم المتغيرة زمنيًا مثل حجم المبيعات وحركة مرور الموقع وحمل CPU وقراءات المستشعرات، لاستخدامها في قرارات مثل تخزين المخزون وترتيب السعة وجدولة العمليات.
- التحليل الاقتصادي الكلي والمالي: دراسة العلاقات طويلة الأجل والديناميكيات قصيرة المدى بين المؤشرات الكلية والسوقية مثل الناتج المحلي الإجمالي ومعدل التضخم وأسعار الفائدة وأسعار الصرف وأسعار الأصول، لدعم البحث في السياسات وتطوير الاستراتيجيات الكمية.
- تقدير العمليات والمسارات: في تحديد المواقع والملاحة وتتبع الأهداف ومراقبة الأجهزة، تقدير وتنعيم المسارات والسرعات والحالات المتغيرة زمنيًا، واستعادة "العملية الحقيقية" قدر الإمكان في بيئات الضوضاء.
المبادئ تعتمد أساليب السلاسل الزمنية الكلاسيكية عمومًا على فكرة "الافتراضات الإحصائية + البنية المعلمية":
- افتراض أن السلسلة الزمنية تستوفي شروط استقرارية معينة أو استقرارية ضعيفة، وتوصيف "مدى تحديد القيمة الحالية بالقيم التاريخية للفترات السابقة" من خلال بنية الارتباط الذاتي (دالة الارتباط الذاتي ACF، دالة الارتباط الذاتي الجزئي PACF).
- في الحالات متعددة المتغيرات، توصيف علاقات التوازن طويل الأجل وتصحيح الانحراف قصير المدى بين سلاسل زمنية متعددة من خلال التكامل المشترك ونماذج الانحدار الذاتي المتجه (VAR).
- بالنسبة للأنظمة ذات الضوضاء الشديدة والحالات غير القابلة للملاحظة المباشرة، إدخال الحالات المخفية (latent state) ومعادلات الملاحظة لتشكيل نماذج فضاء الحالة، واستخدام الاستدلال البايزي أو الترشيح التكراري (مثل مرشح كالمان) للتقدير والتنبؤ الفوري.
النماذج عائلة النماذج لهذه الأساليب واضحة نسبيًا وبنيتها محددة، مما يسهل تفسيرها وضبط معلماتها:
- سلسلة نماذج AR/MA/ARIMA/SARIMA أحادية ومتعددة المتغيرات، تُستخدم لنمذجة السلاسل الزمنية المستقرة/الموسمية، وهي "الأعضاء الدائمون" في أنظمة BI ووحدات التنبؤ التقليدية.
- نماذج VAR/التكامل المشترك، تُستخدم للنمذجة المشتركة واختبار العلاقات السببية للسلاسل الزمنية الكلية والمالية متعددة الأبعاد، وهي مناسبة لتحليل الارتباطات على مستوى السياسات والاستراتيجيات.
- نماذج فضاء الحالة ومرشح كالمان ونماذج ماركوف المخفية (HMM) وغيرها، تُستخدم لتقدير المسارات وتقدير حالة الأجهزة واستنتاج الحالات المخفية، وهي أدوات أساسية في التحكم الهندسي ومعالجة الإشارات.

بشكل عام، تكمن ميزة النمذجة الإحصائية الكلاسيكية للسلاسل الزمنية في قابليتها للتفسير والتشخيص وإمكانية التحكم الهندسي: حيث توجد معايير ناضجة لسير النمذجة واختبار الفرضيات وتحليل البواقي، مما يسهل دمجها في أنظمة BI والتخطيط الحالية. فيما يلي، نستعرض ثلاثة اتجاهات: التنبؤ أحادي/متعدد المتغيرات، والتكامل المشترك والسببية، وفضاء الحالة.

6.1.1 التنبؤ بالسلاسل الزمنية أحادية/متعددة المتغيرات: من ARIMA إلى VAR

في السيناريوهات العملية الأكثر شيوعًا، نواجه أولاً منحنى مؤشر واحد أو عدة مؤشرات مرتبة زمنيًا: مثل المبيعات اليومية لمنتج ما، أو مشاهدات الصفحة لكل ساعة في موقع، أو استخدام CPU لكل دقيقة في غرفة خوادم، أو قراءات مستشعر جهاز لكل ثانية. الهدف هو تقديم توقعات للفترات قصيرة أو متوسطة المدى بناءً على الاتجاهات التاريخية، مع تقديم فترات ثقة معقولة. سلسلة نماذج AR/MA/ARMA/ARIMA/SARIMA هي الأدوات القياسية المصممة خصيصًا لهذا الغرض.

بالنسبة للسلسلة أحادية المتغير، تفترض نماذج فئة ARIMA أن "القيمة الحالية تُحدد خطيًا بقيم الفترات السابقة والاضطرابات العشوائية"، ويتم إزالة الاتجاه والموسمية عن طريق التفاضل والتفاضل الموسمي لجعلها مستقرة:

جزء AR (الانحدار الذاتي) يصف "تأثير التأخر الذاتي على القيمة الحالية"؛
جزء MA (المتوسط المتحرك) يلتقط "تأثير حدود الخطأ التاريخية على القيمة الحالية"؛
جزء I (التفاضل) مسؤول عن إزالة الاتجاه؛
بإضافة الحد الموسمي نحصل على SARIMA، الذي يمكنه وصف البنى الدورية الأسبوعية والشهرية بشكل صريح.

في الاستخدام الهندسي، يتم عادةً إجراء اختبار الاستقرارية (مثل ADF)، ومراقبة مخططات ACF/PACF، ثم اختيار الرتب المناسبة من خلال معايير المعلومات (AIC/BIC) وتشخيص البواقي. بالنسبة للمؤشرات ذات الموسمية الواضحة (مثل المبيعات اليومية للتجارة الإلكترونية، وحركة المرور في العطلات)، تكون نمذجة SARIMA مناسبة بشكل خاص، ويمكن تحسين أداء التنبؤ بشكل أكبر بالدمج مع خصائص العطلات أو المتغيرات الخارجية.

عندما نرغب في نمذجة عدة سلاسل زمنية مترابطة دفعة واحدة، يمكننا تقديم نماذج السلاسل الزمنية متعددة المتغيرات. الطريقة الممثلة هي VAR (الانحدار الذاتي المتجه) ومتغيراته. يعامل VAR السلاسل المتعددة كمتجه مشترك، ويستخدم فترات التأخر الخاصة بها وببعضها البعض لشرح القيم الحالية بشكل مشترك، مما يلتقط التأثيرات المتبادلة بين المؤشرات المختلفة. على سبيل المثال، في التحليل الاقتصادي الكلي، يمكن إدراج معدل نمو الناتج المحلي الإجمالي ومعدل التضخم وأسعار الفائدة وأسعار الصرف في نفس نموذج VAR لدراسة استجابات الصدمات ومسارات الانتقال؛ وفي العمليات التجارية، يمكن أيضًا استخدام VAR لوصف "كيف تؤثر تغيرات حركة المرور في قناة ما على القنوات الأخرى" و"العلاقة الديناميكية بين شدة الترويج والمبيعات"، مما يوفر مرجعًا لتخصيص الموارد.

من حيث شكل المنتج، عادةً ما تكون قدرات التنبؤ أحادية/متعددة المتغيرات هذه مدمجة في وظائف التنبؤ في أنظمة BI/التقارير التقليدية، وأدوات تخطيط المالية وسلاسل الإمداد: يختار المستخدم سلسلة زمنية واحدة أو عدة سلاسل، ويقوم النظام تلقائيًا بإكمال النمذجة والتنبؤ، ويقدم فترات التوقع وتحليل البواقي وتقارير تشخيص النموذج، لدعم اتخاذ القرار دون الحاجة إلى فهم جميع التفاصيل الرياضية وراء القرار.

6.1.2 التكامل المشترك والعلاقات السببية: التوازن طويل الأجل بين المؤشرات الكلية

في المجالات الاقتصادية والمالية، تبدو العديد من السلاسل الزمنية ظاهريًا كمسيرات عشوائية، لكنها تحمل على مدى زمني أطول نوعًا من علاقة التوازن المستقر طويل الأجل. تشمل الأمثلة النموذجية أسعار الصرف وفروق أسعار الفائدة، ومؤشرات الأسهم والأرباح الكلية، وأسعار السلع ومؤشرات التكلفة. عند النظر إلى كل سلسلة على حدة، قد تكون جميعها غير مستقرة؛ لكن تركيبة خطية معينة تتذبذب حول مستوى مستقر على المدى الطويل. تُعرف هذه الظاهرة باسم التكامل المشترك (cointegration)، وهي توفر دليلاً مهمًا لفهم العلاقات الهيكلية بين المؤشرات الكلية.

في الممارسة الهندسية، يتضمن تحليل التكامل المشترك عادةً عدة خطوات:

إجراء اختبار جذر الوحدة لكل سلسلة زمنية، للتأكد من أنها متكاملة من نفس الرتبة (مثل أن تكون جميعها I(1))؛
إجراء اختبار التكامل المشترك (مثل طريقة Engle-Granger ذات الخطوتين، واختبار Johansen، إلخ)، لتحديد ما إذا كان هناك تركيبة خطية غير بديهية تجعل هذه التركيبة مستقرة؛
إذا تم اكتشاف علاقة تكامل مشترك، يمكن بناء نموذج تصحيح الخطأ (ECM)، لوصف "كيف يصحح النظام نفسه تدريجيًا للعودة إلى حالة التوازن عند الانحراف قصير المدى عن التوازن طويل الأجل".

يرتبط بالتكامل المشترك اختبار سببية Granger. إنه ليس "سببية" بالمعنى الفلسفي الدقيق، بل تعريف إحصائي قائم على القدرة التنبؤية: إذا كانت المعلومات التاريخية للمتغير X يمكنها تحسين دقة التنبؤ بالمتغير Y بشكل ملحوظ، فيُقال إن "X يسبب Granger لـ Y". من خلال مقارنة خطأ التنبؤ مع/بدون فترات تأخر متغير معين في إطار VAR أو الانحدار، يمكن تقييم التأثيرات الاتجاهية بين المؤشرات الكلية أو السوقية المختلفة. في البحث الكمي والتحليل الكلي، يُستخدم هذا الاختبار غالبًا لتحديد المؤشرات الرائدة المحتملة، وبناء العوامل، أو التحقق من فرضيات الاستراتيجية.

من منظور المنتج، يظهر تحليل التكامل المشترك والسببية بشكل أكبر في برامج التحليل الكمي، ومنصات التحليل الاقتصادي الكلي، وأدوات البحث المالي. إنها تساعد الباحثين على استخراج علاقات هيكلية مستقرة نسبيًا من كومة السلاسل الزمنية، وربط هذه العلاقات بمفاهيم أعمال عالية المستوى (مثل "القيد طويل الأجل لأسعار الفائدة على أسعار الصرف"، و"عودة الفروق السعرية بين الأصول المختلفة")، لتصبح أساسًا مهمًا لتصميم الاستراتيجيات وإدارة المخاطر.

6.1.3 نماذج فضاء الحالة وتقدير الحالات المخفية: مرشح كالمان و HMM

في العديد من الأنظمة الواقعية، تكون السلاسل الزمنية التي نلاحظها مجرد مظهر ملوث بالضوضاء، وما يهمنا حقًا هو "حالة النظام" التي تتطور عبر الزمن خلفها: مثل الموقع والسرعة الحقيقيين للمركبة، والحالة الصحية للجهاز، وأنماط السلوك الكامنة للمستخدم، إلخ. في هذه الحالة، إذا اقتصرنا على نمذجة من نوع ARIMA على سلسلة الملاحظات فقط، فسيكون من الصعب الاستفادة الكاملة من فهم بنية النظام. نماذج فضاء الحالة (State Space Models) صُممت خصيصًا لهذه المشكلة المتمثلة في "الحالة المخفية + الملاحظات المشوشة".

يتكون نموذج فضاء الحالة عادةً من جزأين:

معادلة انتقال الحالة: تصف كيفية تطور الحالة المخفية عبر الزمن، ويمكن أن تكون خطية أو غير خطية؛
معادلة الملاحظة: تصف كيفية توليد الحالة المخفية لقيم مرصودة مشوشة.

تحت فرضية الخطية والغاوسية، يمكن لهذا الإطار تحقيق التقدير التكراري والتنبؤ بالحالة من خلال مرشح كالمان (Kalman Filter) والمُنعِّم (Smoother): تنقسم كل خطوة إلى مرحلتي "التنبؤ" و"التحديث"، حيث يتم دمج توزيع الحالة للحظة السابقة مع الملاحظة الحالية للحصول على تقدير جديد للحالة. هذا شائع للغاية في الملاحة وتحديد المواقع (مثل تقدير المسارات وتتبع الأهداف)، والسلاسل الزمنية المالية (مثل تقدير التقلب)، وتقدير حالة الأجهزة (مثل مراقبة الصحة وتقدير العمر المتبقي).

بجانب نماذج فضاء الحالة المستمرة، توجد نماذج ماركوف المخفية (HMM). تفترض HMM أن النظام ينتقل عبر الزمن بين عدة حالات مخفية متقطعة، وتختلف توزيعات احتمالية توليد بيانات الملاحظة تحت كل حالة مخفية. من خلال خوارزمية الأمام-الخلف وخوارزمية Viterbi، يمكن لـ HMM تقدير تسلسل الحالات المخفية، وحساب احتمالية تسلسل الملاحظات، والتنبؤ بالحالة والملاحظة التالية. استُخدمت HMM مبكرًا على نطاق واسع في التعرف على الكلام ووسم النصوص، كما تُستخدم بشكل شائع في التعرف البسيط على أنماط السلوك ونمذجة تسلسل الأحداث، ولا تزال لها مزاياها في بعض السيناريوهات الصناعية والمالية — بنية قابلة للتفسير، وتدريب مستقر، وسهولة الدمج مع الخبرة المجالية.

على مستوى النظام، غالبًا ما تُستخدم نمذجة فضاء الحالة ومرشح كالمان و HMM كوحدات أساسية في أنظمة تقدير المسارات، وتقدير حالة الأجهزة، وأنظمة التحكم المالية والهندسية، ويتم تغليفها في سلاسل أدوات أكبر. قد لا تكون معروضة مباشرة للمستخدم النهائي، لكنها تلعب دور "المحرك الخفي" طويل الأمد خلف منتجات الملاحة وتتبع الأهداف والتحكم الصناعي وقياس المخاطر وغيرها.

6.2 النمذجة العميقة للسلاسل الزمنية (Deep TS Forecasting)

مع تزايد حجم البيانات وتعقيد السيناريوهات، بدأت النماذج الكلاسيكية التي تعتمد على افتراضات الخطية والاستقرار تبدو "غير كافية" في العديد من التطبيقات: الأنماط غير الخطية الكثيرة، والاعتماديات طويلة المدى، والتفاعلات المعقدة متعددة المتغيرات، والسلوكيات المفاجئة المتراكبة مع الدورات — كلها خصائص تستدعي هياكل نماذج أكثر مرونة وقدرة. وقد تطورت النمذجة العميقة للسلاسل الزمنية في هذا السياق تحديدًا: من RNN/LSTM/GRU، إلى Temporal CNN/TCN، ثم إلى محولات (Transformer) متخصصة للسلاسل الزمنية، والنماذج الهجينة والهرمية — وكلها تشكل معًا الصندوق الأدواتي الأساسي للتنبؤ والنمذجة الحديثة للسلاسل الزمنية.

من منظور تطبيقي، نُشرت نماذج السلاسل الزمنية العميقة على نطاق واسع في منصات التنبؤ بحركة المرور والمبيعات في التجارة الإلكترونية، وأنظمة التنبؤ بالعرض والطلب / القدرة الاستيعابية / الجدولة، وأدوات التنبؤ بأحمال الموارد السحابية وتخطيط السعة، لتقديم حلول تنبؤ موحدة ومرنة عبر هياكل معقدة متعددة الفئات، ومتعددة الفروع، ومتعددة المدن، بل ومتعددة خطوط الأعمال. وبالمقارنة مع النماذج الكلاسيكية، فإنها تركز أكثر على "تعلم التمثيل من البداية إلى النهاية" و"نمذجة الأنماط الشاملة"، وتتفوق في التعامل مع السيناريوهات ذات التسلسلات الطويلة والأبعاد العالية والمتغيرات المتعددة. وفيما يلي، نستعرضها أيضًا من ثلاثة أبعاد: السيناريوهات، والمبادئ، والنماذج.

السيناريوهات
- التنبؤ متعدد التسلسلات واسع النطاق: آلاف التسلسلات من المبيعات/حركة المرور بأبعاد المنتج والفرع والمدينة، تحتاج إلى نمذجة موحدة ضمن نموذج واحد، مع دعم البداية الباردة والتسلسلات ذات الذيل الطويل.
- العمليات والجدولة المعقدة: في أنظمة الطاقة/المياه/القدرة الاستيعابية/الجدولة، يتأثر الطلب بخصائص متعددة الأبعاد (الطقس، العطلات، الأسعار، الفعاليات)، مع وجود هياكل متعددة المستويات (فرع/مدينة/وطني)، مما يتطلب مراعاة الأنماط الشاملة والاختلافات المحلية في آن واحد.
- الموارد السحابية والبنية التحتية: مجموعات الخوادم واسعة النطاق، ومنصات الحاويات، وأحمال الشبكات والتخزين، تُظهر هياكل غير خطية للغاية ومتعددة القمم، وتتطلب تنبؤات عالية التردد وتخطيطًا للسعة لدعم SLO.
المبادئ يكمن جوهر نماذج السلاسل الزمنية العميقة في التعلم التلقائي للأنماط متعددة المقاييس والاعتماديات طويلة المدى من التسلسلات التاريخية والمتغيرات المساعدة:
- تنقل RNN/LSTM/GRU "الذاكرة" صراحةً عبر البُعد الزمني من خلال البنية الحلقية، وهي مناسبة لالتقاط الاعتماديات الترتيبية والهياكل الزمنية المحلية.
- تستخدم Temporal CNN / TCN الالتفاف أحادي البُعد والالتفاف الموسع لتوسيع المجال الاستقبالي مع الحفاظ على السببية، مما يحقق تدريبًا متوازيًا وانتشارًا مستقرًا للتدرجات.
- تستفيد محولات السلاسل الزمنية والمتغيرات المصممة خصيصًا (Informer، Autoformer، TimesNet، إلخ) من آلية الانتباه الذاتي لنمذجة الاعتماديات المعقدة والأنماط الدورية في إعدادات التسلسلات الطويلة ومتعددة المتغيرات.
- تقدم النماذج الهجينة والهرمية افتراضات هيكلية إضافية مثل "الشامل + المحلي" و"السلاسل الزمنية متعددة المستويات"، لتعلم الأنماط الشاملة والخصائص الفردية في آن واحد ضمن إطار موحد.
النماذج على مستوى التنفيذ، ظهرت مجموعة من البنيات التمثيلية في النمذجة العميقة للسلاسل الزمنية:
- نماذج التسلسل العميق الكلاسيكية: RNN/LSTM/GRU والنماذج القائمة عليها مثل DeepAR للتنبؤ الاحتمالي الانحداري الذاتي.
- نماذج التفكيك والتنبؤ المتكاملة: مثل N‑BEATS التي تعزز قابلية التفسير من خلال وحدات تفكيك صريحة للاتجاه/الموسمية.
- نماذج السلاسل الزمنية القائمة على الانتباه: مثل Temporal Fusion Transformer (TFT) الذي يجمع بين الانتباه والبوابات واختيار المتغيرات، وهو مناسب لسيناريوهات الأعمال متعددة المتغيرات ذات المتغيرات المساعدة الغنية.
- نماذج المحولات للتسلسلات الطويلة: Informer، Autoformer، TimesNet، PatchTST، وغيرها، المصممة خصيصًا لكفاءة التسلسلات الطويلة والنمذجة متعددة المقاييس.

فيما يلي، نستعرض ثلاثة اتجاهات: نماذج التسلسل العميق، والنماذج الالتفافية والمحولات، والنمذجة الهجينة والهرمية.

6.2.1 الشبكات العميقة RNN/LSTM/GRU: من التسلسل الواحد إلى DeepAR

في بداية دخول التعلم العميق مجال السلاسل الزمنية، كانت RNN/LSTM/GRU هي الخيار الأكثر بداهة. وعلى غرار نمذجة النصوص والكلام، تقوم هذه الشبكات بنقل الحالة الخفية بين الخطوات الزمنية "لتذكر" المعلومات التاريخية، مما يسمح بالتقاط اعتماديات غير خطية وطويلة المدى أكثر تعقيدًا مما تتيحه النماذج الخطية التقليدية. بالنسبة لتسلسل زمني واحد أو عدد قليل من التسلسلات، يمكن لشبكة LSTM/GRU بسيطة أن تحقق نتائج تنبؤ جيدة عند توفر بيانات كافية؛ أما في السيناريوهات واسعة النطاق متعددة التسلسلات، فيمكن استخدام نموذج RNN/LSTM/GRU ذي المعلمات المشتركة للتدريب المشترك على جميع التسلسلات، مما يتيح تعلم أنماط زمنية عامة.

وبالبناء على ذلك، قدمت النماذج الاحتمالية الانحدارية الذاتية مثل DeepAR إطارًا قياسيًا للنمذجة العميقة للسلاسل الزمنية: حيث تُدخل المشاهدات التاريخية والمتغيرات المساعدة إلى شبكة RNN/LSTM/GRU مشتركة، وتُخرج معلمات التوزيع الشرطي لقيم التسلسل عند كل خطوة زمنية (مثل التوزيع الغاوسي، أو ذي الحدين السالب، إلخ)، وتحقق تنبؤًا احتماليًا من البداية إلى النهاية عبر التدريب بأقصى احتمال. يتيح هذا التصميم للنموذج توليد فترات تنبؤ بشكل طبيعي، والتعامل مع المقاييس غير المنتظمة وخلط التسلسلات المتعددة، مما يسهل تطبيقه في سيناريوهات مثل مبيعات التجارة الإلكترونية والتنبؤ بالطلب.

ومع ذلك، تعاني نماذج RNN من مشاكل تقليدية: اضمحلال التدرجات على التسلسلات الطويلة، وعدم القدرة على التوازي الكامل أثناء التدريب. وعلى الرغم من أن آليات البوابات (LSTM/GRU) تخفف من حدة هذه المشاكل جزئيًا، إلا أن كفاءة التدريب والاستدلال تظل عوامل تحتاج إلى موازنة عند التعامل مع فترات زمنية طويلة جدًا وبيانات عالية التردد. وهذا ما دفع الصناعة والأوساط الأكاديمية إلى استكشاف هياكل أكثر ملاءمة للتوازي، مثل TCN وTransformer.

6.2.2 الشبكات الالتفافية الزمنية والمحولات: من الالتفاف المحلي إلى انتباه التسلسلات الطويلة

لمعالجة مشاكل كفاءة واستقرار RNN على التسلسلات الطويلة، قدمت Temporal CNN / TCN الالتفاف أحادي البُعد والالتفاف الموسع لنمذجة الاعتماديات الزمنية: من خلال تكديس طبقات متعددة من الالتفاف السببي وتوسيع المجال الاستقبالي طبقة تلو الأخرى، تحقق هذه الشبكات نمذجة للتاريخ البعيد دون الإخلال بالسببية الزمنية. وبالمقارنة مع RNN، يمكن تدريب TCN بتوازٍ عالٍ، كما أن مسارات انتشار التدرجات أقصر، مما يمنحها أداءً متميزًا في استقرار وكفاءة التدريب، وهي مناسبة لسيناريوهات التنبؤ الصناعي بالسلاسل الزمنية التي تتطلب بيانات عالية التردد ومجالًا استقباليًا كبيرًا.

وعلى مستوى أعلى من التعقيد، أصبحت المحولات والهياكل المتخصصة للسلاسل الزمنية هي البطل الرئيسي في نمذجة التسلسلات الطويلة ومتعددة المتغيرات في السنوات الأخيرة. يؤدي الاستخدام المباشر للمحول القياسي إلى نمو التعقيد الحسابي تربيعيًا مع طول التسلسل، مما أدى إلى ظهور مجموعة من الحلول المُعدّلة للسلاسل الزمنية:

Informer يقلل العبء الحسابي على التسلسلات الطويلة من خلال آليات مثل الانتباه الذاتي المتناثر احتماليًا، مع تحسين الهيكل لمهام التنبؤ.
Autoformer يدمج تفكيك الاتجاه والموسمية في إطار الانتباه الذاتي، سعيًا للحفاظ على قدرة نمذجة التسلسلات الطويلة مع تحسين قابلية التفسير والاستقرار.
TimesNet يعزز إدراك الدورات والأنماط من خلال التوسع في المجال الزمني-الترددي أو متعدد المقاييس، لمعالجة التسلسلات الطويلة المعقدة ومتعددة الدورات بشكل أفضل.
PatchTST يستلهم فكرة "الرُقع (patches)" من Vision Transformer، حيث يعامل التسلسلات الجزئية المتجاورة كرُقع، مما يحسن كفاءة النمذجة وقدرة التعميم على التسلسلات الطويلة.

هذه النماذج مناسبة بشكل خاص لسيناريوهات السلاسل الزمنية المعقدة طويلة التسلسل ومتعددة المتغيرات وذات المتغيرات المساعدة عالية الأبعاد، مثل أحمال الموارد السحابية واسعة النطاق، والطلب على الطاقة متعدد المناطق، والتنبؤ بحركة المرور متعددة القنوات. ويمكنها في بنية موحدة نمذجة المدخلات متعددة الأبعاد والخصائص الثابتة والمتغيرات المرتبطة زمنيًا في آن واحد، مع توفير أدلة معينة للتفسير والتشخيص اللاحق من خلال أوزان الانتباه.

6.2.3 النماذج الهجينة والهرمية: الشامل + المحلي، والسلاسل الزمنية متعددة المستويات

في سياقات الأعمال الواقعية، نادرًا ما تكون السلاسل الزمنية "معزولة": فهي غالبًا ما تمتلك هياكل هرمية وأنماطًا مشتركة واضحة — مثل هرمية المبيعات: فرع/مدينة/منطقة/وطني، أو هرمية المنتج: SKU/فئة/علامة تجارية، أو الهيكل التنظيمي: خط أعمال/منتج/قناة. إذا تمت نمذجة كل تسلسل على حدة ببساطة، يصعب الاستفادة من هذه البنية الهرمية؛ أما خلط جميع التسلسلات معًا مباشرة فيؤدي إلى تجاهل الفروق الفردية لكل منها. وقد صُممت النماذج الهجينة والهرمية خصيصًا لمعالجة هذا النوع من المشاكل.

تتمثل إحدى الأفكار الشائعة في النموذج الشامل + المحلي: من خلال "نموذج شامل" مشترك يتعلم الأنماط العامة لجميع التسلسلات (مثل الاتجاهات العامة، وتأثيرات العطلات، والموسمية)، مع إدخال معلمات محلية أو متجهات تضمين لكل تسلسل أو مجموعة فرعية لالتقاط الخصائص الفردية. يتجنب هذا الهيكل مشكلة تشتت البيانات الناتجة عن تدريب نموذج منفصل للتسلسلات ذات الذيل الطويل، مع الاحتفاظ بقدرة النمذجة الدقيقة على التسلسلات الشائعة.

أما الفئة الأخرى فهي نمذجة السلاسل الزمنية الهرمية (hierarchical TS): حيث تؤخذ القيود الهرمية في الاعتبار صراحةً أثناء عملية التنبؤ (مثل أن مجموع المستويات الفرعية يجب أن يتوافق مع تنبؤ المستوى الأعلى)، من خلال التحسين المشترك من الأعلى إلى الأسفل، أو من الأسفل إلى الأعلى، أو على المستوى المتوسط، لضمان اتساق التنبؤات عبر المستويات المختلفة عدديًا وهيكليًا. وفي إطار السلاسل الزمنية العميقة، يتجلى ذلك عادةً في إضافة خصائص هرمية إلى ترميز المدخلات، أو تصميم مخرجات متعددة الرؤوس لمستويات مختلفة، أو استخدام دوال خسارة هرمية للتدريب.

من منظور المنتج، تُستخدم هذه النمذجة الهجينة والهرمية على نطاق واسع في منصات التنبؤ بمبيعات التجارة الإلكترونية، وأنظمة التنبؤ بالعرض والطلب / القدرة الاستيعابية / الجدولة وغيرها من السيناريوهات: حيث يحتاج النظام إلى تقديم تنبؤات بدقة "المنتج الواحد في الفرع الواحد"، و"المدينة"، و"الإجمالي الوطني" في آن واحد، مع الحفاظ على الاتساق بين المستويات العليا والدنيا أثناء تخطيط الموارد وتفكيك مؤشرات الأداء الرئيسية (KPI). وتتيح البنية المرنة للنماذج العميقة إمكانية تضمين هذه القيود في عملية النمذجة من البداية إلى النهاية، دون الاعتماد كليًا على التصحيحات اللاحقة.

6.3 الكشف عن الحالات الشاذة واكتشاف نقاط التغيير (Anomaly & Change Point Detection)

في سيناريوهات السلاسل الزمنية، "التنبؤ بالمستقبل" ليس سوى جزء من المشكلة، وهناك جزء آخر لا يقل أهمية وهو: اكتشاف الحالات الشاذة والتغيرات الهيكلية في الوقت الفعلي. سواء تعلق الأمر بتشغيل الأجهزة، أو مؤشرات الأعمال، أو سلوك المعاملات، أو مراقبة العمليات، فإن الكشف عن الحالات الشاذة واكتشاف نقاط التغيير يُعدان من القدرات الأساسية لضمان استقرار النظام وتحديد المخاطر والفرص. تقليديًا، تُستخدم طرق مثل العتبات الإحصائية و EWMA و CUSUM على نطاق واسع؛ ومع زيادة أبعاد البيانات وتعقيدها، بدأت أساليب التعلم الآلي والتعلم العميق المتنوعة (Isolation Forest و One‑Class SVM و AutoEncoder/VAE و GAN للسلاسل الزمنية و GNN + نماذج السلاسل الزمنية) تلعب دورًا مهمًا أيضًا.

من منظور شكل المنتج، غالبًا ما تكون هذه القدرات مدمجة في أنظمة الإنذار المبكر لأعطال الأجهزة، ومنصات التنبيه لمؤشرات الأعمال غير الطبيعية (مثل الانخفاض المفاجئ في معدل التحويل)، وأنظمة الكشف عن الهجمات الأمنية والاحتيال، ومحركات التنبيه AIOps للعمليات، حيث تقوم بمراقبة الإشارات الزمنية متعددة الأبعاد في الوقت الفعلي، وتضع علامات تلقائية على النقاط المشبوهة والتغيرات الهيكلية، وتتكامل مع القواعد وقواعد المعرفة وعمليات اتخاذ القرار البشري. فيما يلي، نواصل التوسع من ثلاثة زوايا: السيناريوهات والمبادئ والنماذج.

السيناريوهات
- الأجهزة والأنظمة الصناعية: مراقبة بيانات المستشعرات مثل درجة الحرارة والاهتزاز والتيار والضغط، والكشف المبكر عن الأعطال واتجاهات التدهور، مما يقلل من فترات التوقف والخسائر.
- مؤشرات الأعمال والتشغيل: مراقبة المؤشرات الرئيسية مثل PV/UV ومعدل التحويل وحجم الطلبات وزمن الاستجابة ومعدل الأخطاء، والكشف السريع عن الانخفاضات والارتفاعات والتقلبات غير الطبيعية، وتوفير التنبيهات لفرق التشغيل والفرق التقنية.
- الأمن وإدارة المخاطر: تحليل السلاسل الزمنية لسلوك تسجيل الدخول وتسلسلات المعاملات وأنماط الوصول، وتحديد الهجمات المحتملة والغش والسلوك الاحتيالي.
المبادئ يتمثل جوهر الكشف عن الحالات الشاذة ونقاط التغيير في البحث عن الانحرافات الكبيرة والطفرات الهيكلية في "الأنماط الطبيعية":
- بالنسبة للحالات الشاذة النقطية والتسلسلية، يمكن من خلال ملاءمة التوزيع الإحصائي أو تقدير الكثافة أو تعلم الحدود، الحكم على ما إذا كانت الملاحظة الحالية تقع خارج "المنطقة الطبيعية".
- بالنسبة لنقاط التغيير، يتم التركيز على الطفرات في الخصائص الإحصائية للسلسلة الزمنية (المتوسط، التباين، هيكل الارتباط، التوزيع، إلخ) على طول المحور الزمني، ومحاولة تحديد الموقع الزمني لحدوث التغيير.
- في الشبكات عالية الأبعاد ومتعددة النقاط، يجب دمج هيكل الاعتماد بين السلاسل الزمنية المتعددة (مثل الطوبولوجيا والارتباط) في النمذجة، لتجنب الخلط بين الحالات الشاذة المحلية والاتجاه العام.
النماذج من منظور عائلات الأساليب، يمكن تقسيمها تقريبًا إلى الأساليب الإحصائية، وأساليب التعلم أحادي الفئة/العزل، ونماذج إعادة البناء العميقة، والنماذج المركبة من الرسم البياني + السلاسل الزمنية:
- الكشف الإحصائي عن الحالات الشاذة: العتبات، EWMA، CUSUM وغيرها، فعالة للغاية في السيناريوهات أحادية المتغير أو البسيطة، وهي أساس أنظمة المراقبة التقليدية.
- أساليب التعلم الآلي: Isolation Forest و One‑Class SVM وغيرها، تُستخدم لوصف "المنطقة الطبيعية" في فضاء السمات متعدد الأبعاد، وعزل العينات الشاذة.
- نماذج إعادة البناء العميقة: AutoEncoder / VAE / GAN للسلاسل الزمنية، تتعلم إعادة بناء التسلسلات الطبيعية، وتضع علامة على الحالات الشاذة عندما يكون خطأ إعادة البناء كبيرًا.
- الشبكات العصبية البيانية + نماذج السلاسل الزمنية: في سيناريوهات شبكات المستشعرات ومؤشرات الخدمات المصغرة وغيرها، يتم إدخال الهيكل البياني ونماذج السلاسل الزمنية للتعلم المشترك للأنماط الطبيعية، وتعزيز التعرف على الحالات الشاذة المرتبطة بالطوبولوجيا.

فيما يلي، نتوسع حول ثلاثة اتجاهات: الحالات الشاذة النقطية/التسلسلية، واكتشاف نقاط التغيير، والهيكل متعدد الأبعاد والبياني.

6.3.1 الحالات الشاذة النقطية والتسلسلية: من العتبات الإحصائية إلى نماذج إعادة البناء

أكثر أشكال الكشف عن الحالات الشاذة بديهية هو الحالة الشاذة النقطية: حيث تنحرف قيمة الملاحظة في نقطة زمنية معينة بعيدًا عن النطاق الطبيعي التاريخي (مثل ارتفاع استخدام وحدة المعالجة المركزية فجأة إلى 100%، أو زيادة غير طبيعية في مبلغ المعاملة، أو قفزة لحظية في قراءة المستشعر). في الأساليب التقليدية، تتمثل الممارسة الأكثر شيوعًا في ملاءمة توزيع إحصائي أو إحصائيات منزلقة (المتوسط، التباين، المئينات) على البيانات الطبيعية التاريخية، وعلى هذا الأساس يتم تحديد عتبات أو مخططات تحكم (مثل EWMA و CUSUM)، وعندما تتجاوز الملاحظة الحالية النطاق المقبول يتم إصدار تنبيه. الميزة هي البساطة في التنفيذ، والتكلفة الحسابية المنخفضة، وسهولة التفسير، لذلك لا تزال مستخدمة على نطاق واسع في عدد كبير من أنظمة مراقبة العمليات والأنظمة الصناعية.

عندما ترتفع الأبعاد أو تصبح الأنماط أكثر تعقيدًا، يمكن إدخال أساليب التعلم أحادي الفئة/العزل مثل Isolation Forest و One‑Class SVM: حيث تتعلم منطقة تجميع (أو حدود) على "العينات الطبيعية"، وتعتبر النقاط التي تقع خارج هذه المنطقة حالات شاذة. من خلال استخراج السمات الإحصائية على النافذة المنزلقة للتسلسل (مثل متوسط النافذة، التباين، سمات المجال الترددي، إلخ)، يمكن استخدام هذه الأساليب أيضًا لتحديد "الحالات الشاذة التسلسلية" المحلية (أي انحراف السلوك عن النمط الطبيعي خلال فترة زمنية)، وهي مناسبة للسيناريوهات ذات المؤشرات متعددة الأبعاد والتي يصعب فيها تحديد شكل التوزيع بدقة.

في إطار التعلم العميق، توفر أساليب AutoEncoder / VAE / GAN للسلاسل الزمنية المستندة إلى خطأ إعادة البناء خيارات أكثر مرونة:

استخدام AutoEncoder أو VAE لتدريب نموذج "ضغط–إعادة بناء" على كمية كبيرة من التسلسلات الطبيعية، بحيث يتعلم إعادة بناء الأنماط الطبيعية؛
أثناء المراقبة عبر الإنترنت، يتم إدخال النافذة الزمنية الجديدة إلى النموذج، وإذا زاد خطأ إعادة البناء بشكل كبير، يُعتبر أن هناك حالة شاذة في هذا الفاصل؛
أما أساليب GAN للسلاسل الزمنية فتتعلم توليد تسلسلات طبيعية، وتبحث عن إشارات الشذوذ في نتائج حكم المُميّز أو أخطاء التوليد.

يمكن لهذه الأساليب التكيف مع الأنماط غير الخطية بدرجة عالية وهياكل المتغيرات المشتركة المعقدة، وهي مناسبة بشكل خاص لبناء محرك موحد للكشف عن الحالات الشاذة على مؤشرات الأعمال متعددة الأبعاد وبيانات المستشعرات المعقدة للأجهزة.

6.3.2 اكتشاف نقاط التغيير: الطفرات الهيكلية وتفعيل الأحداث

على عكس الحالات الشاذة النقطية والمحلية، يركز اكتشاف نقاط التغيير (Change Point Detection) على الطفرات الهيكلية في السلاسل الزمنية: مثل انتقال المتوسط من مستوى إلى آخر، أو تغير التقلب، أو تعديل الدورات وهياكل الارتباط. غالبًا ما تتوافق هذه التغييرات مع أحداث معينة أو تبديلات حالة في العالم الحقيقي، مثل تغييرات التكوين، أو تفعيل سياسات جديدة، أو تعديلات السياسات، أو تغييرات عمليات الإنتاج، أو تبديل أنظمة السوق (market regime)، وهي أمور بالغة الأهمية لتشخيص الأعمال والتحليل السببي.

في الأساليب الإحصائية التقليدية، يعتمد اكتشاف نقاط التغيير غالبًا على تقنيات مثل اختبار نسبة الاحتمال (Likelihood Ratio Test) و CUSUM و Bayesian Online Change Point Detection (BOCPD):

من خلال ملاءمة نماذج بمعلمات مختلفة (مثل متوسط/تباين مختلف) قبل وبعد نقاط زمنية مختلفة، ومقارنة جودة الملاءمة بين "فرضية عدم وجود نقطة تغيير" و"فرضية وجود نقطة تغيير"؛
في السيناريوهات عبر الإنترنت، يتم تحديث الاحتمال البعدي لـ "ما إذا ظهرت نقطة تغيير حتى المقطع الحالي" بشكل تكراري لكل نقطة زمنية، ويتم تشغيل التنبيه بمجرد تجاوز العتبة المحددة.

في الإعدادات الأكثر تعقيدًا، يمكن دمج التعلم التمثيلي العميق مع نماذج التجزئة، والنظر إلى اكتشاف نقاط التغيير كمشكلة تجزئة التسلسل: استخراج السمات باستخدام الشبكات العصبية، ثم البحث عن حدود المقاطع في فضاء السمات، أو تدريب النموذج مباشرة للتنبؤ باحتمالية انتماء نقطة زمنية معينة إلى "نقطة تغيير". هذا مفيد بشكل خاص لمؤشرات الأعمال التي توجد فيها أشكال متعددة من التغييرات (ليست فقط تغييرات المتوسط/التباين) ويصعب وصفها بافتراضات إحصائية بسيطة.

في منظومة المنتجات، عادة ما يتم دمج اكتشاف نقاط التغيير في منصات تحليل مؤشرات الأعمال، وأنظمة تحليل تجارب A/B، وأدوات مراقبة تغييرات التكوين والسياسات: عندما تظهر المؤشرات الرئيسية تغييرات هيكلية، يمكن للنظام وضع علامة تلقائية على نقاط التغيير المحتملة، وربطها بأحداث التغيير ذات الصلة (مثل إصدار النسخ، تعديل المعاملات، تطبيق السياسات)، مما يوفر أدلة لتحليل الأسباب الجذرية اللاحق.

6.3.3 السلاسل الزمنية متعددة الأبعاد والهيكل البياني: النمذجة المشتركة لـ GNN + نماذج السلاسل الزمنية

في الأنظمة الموزعة الحديثة وسيناريوهات إنترنت الأشياء، غالبًا ما نواجه سلاسل زمنية متعددة النقاط ومتعددة الأبعاد وذات هيكل طوبولوجي مترابط: مثل نقاط القياس المتعددة في شبكات المستشعرات، ومؤشرات الخدمات المختلفة في بنية الخدمات المصغرة، والعقد والحواف المتعددة في شبكات توزيع الطاقة/شبكات المرور. في هذه الحالة، إجراء الكشف عن الحالات الشاذة لكل سلسلة زمنية بشكل منفرد ومتسلسل يمكن أن يؤدي بسهولة إلى سوء تقدير التقلبات المحلية أو تجاهل الأنماط العامة — فالحالة الشاذة الحقيقية غالبًا ما تكون مظهرًا من "عدم الاتساق المحلي–العام" أو "عدم التناسق في الهيكل الطوبولوجي".

لهذا الغرض، ظهرت في السنوات الأخيرة عدد كبير من الأساليب المركبة من الشبكات العصبية البيانية (GNN) + نماذج السلاسل الزمنية:

أولاً، بناء هيكل بياني يمثل العلاقات بين النقاط المتعددة، استنادًا إلى الطوبولوجيا الحقيقية (الاتصالات الفيزيائية، طوبولوجيا الشبكة) أو الرسم البياني للارتباط المُقدَّر من البيانات؛
في كل خطوة زمنية، استخدام GNN لإجراء تمرير الرسائل على سمات العقد (القيم الزمنية لكل نقطة وسياقها المحلي)، وتعلم سمات الارتباط المكاني؛
ثم إدخال التمثيل المُشفَّر بيانيًا إلى نماذج السلاسل الزمنية مثل RNN أو TCN أو Transformer، لالتقاط الأنماط الديناميكية في البعد الزمني؛
وأخيرًا، إجراء تقييم الشذوذ أو اكتشاف نقاط التغيير على التمثيل المشترك، مما يحقق تعرفًا مشتركًا مكانيًا–زمانيًا على الحالات الشاذة.

هذا الإطار مناسب بشكل خاص لسيناريوهات مثل مراقبة شبكات المستشعرات، والكشف عن الحالات الشاذة في مؤشرات الخدمات المصغرة، والكشف عن الحالات الشاذة المكانية–الزمانية في الحوسبة الحضرية: حيث يمكنه التمييز بين "التغييرات العالمية" (مثل ارتفاع حمل النظام بأكمله) و"الحالات الشاذة المحلية" (مثل ازدحام غير طبيعي في عقدة معينة)، كما يمكنه التعرف بشكل أفضل على أنماط الحالات الشاذة المرتبطة بالهيكل الطوبولوجي (مثل مشاكل على مستوى الروابط، أعطال الشبكة الإقليمية).

على المستوى الهندسي، تظهر هذه الأساليب عادة كقدرات متقدمة في أنظمة التنبيه AIOps للعمليات، ومنصات الأمن وإدارة المخاطر، وأنظمة مراقبة مجموعات الأجهزة، وتتكامل مع المراقبة الإحصائية الأساسية وأنظمة القواعد والمعرفة الخبيرة، لتوفير آليات اكتشاف حالات شاذة أكثر ذكاءً وأكثر وعيًا بالسياق للأنظمة المعقدة.

6.4 النمذجة الزمانية-المكانية (Spatio-Temporal Modeling)

في العديد من سيناريوهات الأعمال الحيوية، لا تكفي نمذجة "الزمن" وحده: "متى" و"أين" متلازمان ومترابطان بشدة. فحركة المرور في المدن تتأثر بهيكل شبكة الطرق والأنماط الزمنية معًا، وتعتمد الأرصاد الجوية وجودة الهواء على التطور الزمني والتقارب الجغرافي وتيارات الغلاف الجوي معًا، بينما تتطلب جدولة الخدمات اللوجستية والدراجات التشاركية وسيارات الأجرة عبر التطبيقات النظر في كلٍ من التوزيع الزماني-المكاني للطلب وهيكل الطرق/المناطق. النمذجة الزمانية-المكانية (Spatio‑Temporal Modeling) هي المنهج المنهجي المصمم خصيصًا لهذا النوع من مسائل النمذجة المشتركة "زمن + مكان".

بالمقارنة مع نماذج السلاسل الزمنية البحتة، تحتاج النماذج الزمانية-المكانية إلى دمج هيكل الاعتماد المكاني بشكل صريح: فحركة المرور في قطاعات الطرق المتجاورة، وجودة الهواء في محطات الرصد المتقاربة، وحمولة وحالة العقد المتصلة، عادةً ما تكون أكثر ارتباطًا من النقاط المتباعدة جغرافيًا. ولهذا الغرض، تُستخدم بنى مثل الشبكات العصبية البيانية (GNN) وشبكات LSTM الالتفافية (ConvLSTM) على نطاق واسع لدمج تعلم السمات في البُعدين المكاني والزماني. وعلى مستوى المنتج، تدعم هذه القدرات عددًا كبيرًا من التطبيقات الحيوية مثل منصات الحوسبة الحضرية (التنبؤ بحركة المرور/تدفق البشر)، وأنظمة التنبؤ بالأرصاد الجوية/البيئية، وتخطيط المسارات اللوجستية ومنصات جدولة الدراجات التشاركية/سيارات الأجرة.

السيناريوهات
- التنبؤ بحركة المرور وتدفق البشر: التنبؤ بتدفق المركبات والبشر في فترات زمنية مختلفة على هيكل شبكة الطرق أو مترو الأنفاق، لدعم تحسين إشارات المرور وإدارة الازدحام واتخاذ قرارات الجدولة.
- الرصد الجوي والبيئي: التنبؤ بالتوزيع الزماني-المكاني المستقبلي لدرجة الحرارة وهطول الأمطار والرياح وجودة الهواء وغيرها على الشبكات الجغرافية أو شبكات محطات الرصد، لتوفير دعم للتنبؤات واتخاذ القرارات.
- الجدولة اللوجستية وجدولة الرحلات: التنبؤ بطلب الطلبات وتوزيع المركبات وحمولة المستودعات/المحطات على هيكل المناطق الحضرية أو شبكات الطرق، لتوفير أساس لتخطيط المسارات وجدولة المركبات وتوزيع السعة.
المبادئ يكمن جوهر النمذجة الزمانية-المكانية في تعلم كلٍ من الارتباط المكاني والديناميكية الزمنية معًا في إطار موحد:
- في البُعد المكاني، يتم تصوير "من يرتبط بمن" من خلال الهياكل البيانية أو الالتفافية، وبناءً على ذلك يتم تمرير الرسائل وتجميع السمات؛
- في البُعد الزماني، تُستخدم شبكات RNN أو TCN أو Transformer أو هياكل تسلسلية متخصصة لتصوير التغيرات الديناميكية؛
- يمكن توصيل الاثنين بالتسلسل (المكان أولاً، ثم الزمان)، أو تشابكهما أو تطبيقهما معًا (مثل الالتفاف الزماني-المكاني، والانتباه الزماني-المكاني).
النماذج تعتمد معظم النماذج الزمانية-المكانية النموذجية على الشكل المركب "GNN + نموذج تسلسلي" أو "التفاف + LSTM":
- الشبكات العصبية البيانية + النماذج التسلسلية: ST‑GCN، DCRNN، Graph WaveNet، ST‑Transformer وغيرها، تلتقط الاعتماد المكاني من خلال الالتفاف البياني أو الانتباه البياني، ثم تلتقط الديناميكية الزمنية باستخدام الهياكل التسلسلية.
- نماذج من فئة LSTM الالتفافية: ConvLSTM، Conv‑TT‑LSTM وغيرها، تدمج بوابات الالتفاف المكاني في الاستدعاء الذاتي التسلسلي، لتحقيق نمذجة مشتركة للسمات الزمانية-المكانية المحلية.

ننطلق فيما يلي من ثلاثة اتجاهات: المهام الزمانية-المكانية وتمثيل البيانات، ونماذج GNN + النماذج التسلسلية، ونماذج LSTM الالتفافية والالتفاف الزماني-المكاني.

6.5.1 المهام الزمانية-المكانية وتمثيل البيانات: من شبكات الطرق إلى الشبكات الجغرافية

قبل الدخول في النماذج المحددة، يجب على النمذجة الزمانية-المكانية أولاً حل مسألة كيفية تمثيل الهيكل المكاني. على عكس المحور الزمني أحادي البُعد، يمكن أن يكون الهيكل المكاني شبكة منتظمة (grid)، أو رسمًا بيانيًا غير منتظم (graph)، أو شكلاً هجينًا.

في سيناريوهات المرور، تشكل الطرق والتقاطعات طبيعيًا رسمًا بيانيًا موجّهًا أو غير موجّه: تمثل العقد قطاعات الطرق أو التقاطعات، وتمثل الحواف وصلات الطرق واتجاهات السير؛ ولكل عقدة مجموعة من السمات في كل خطوة زمنية، مثل حجم المرور ومتوسط السرعة ومؤشر الازدحام وغيرها.
في التنبؤ بالأرصاد الجوية وجودة الهواء، يمكن استخدام شبكات جغرافية منتظمة (مثل شبكات خطوط الطول والعرض)، أو بناء علاقات التجاور بين محطات الرصد كهيكل بياني، مع تعريف أوزان الحواف بناءً على المسافة الجغرافية أو اتجاه الرياح أو الارتباط.
في سيناريوهات الخدمات اللوجستية والرحلات التشاركية، يمكن تقسيم المدينة إلى شبكات أو وحدات مناطقية، حيث تمتلك كل وحدة سمات مثل حجم الطلبات وعدد المركبات النشطة على المستوى الزماني، وتكون متصلة مكانيًا من خلال علاقات التجاور أو مسافات الطرق الفعلية.

هذا التمثيل الموحد "الهيكل المكاني + السلاسل الزمنية" يجعل العديد من السيناريوهات المختلفة قابلة للنمذجة كمسائل متشابهة: بالنظر إلى سلسلة زمانية-مكانية تاريخية، يتم التنبؤ بحالة كل عقدة أو خلية شبكة في عدد من الخطوات الزمنية المستقبلية. تصميمات النماذج اللاحقة (سواء كانت GNN + نموذج تسلسلي، أو ConvLSTM) تنطلق جميعها من هذه الرؤية الموحدة.

على مستوى المنتج، غالبًا ما يُغلّف هذا التجريد في طبقة البيانات وطبقة النمذجة في منصات الحوسبة الحضرية، وأنظمة التنبؤ بالأرصاد الجوية/البيئية، ومنصات تخطيط المسارات والجدولة: يحتاج طرف الأعمال فقط إلى معرفة "كيف سيكون تدفق/طلب المستقبل على شبكة الطرق/الشبكة الجغرافية"، بينما يتولى إطار النمذجة معالجة تمثيل البيانات والدمج الزماني-المكاني في الطبقة السفلية بشكل موحد.

6.5.2 الشبكات العصبية البيانية + النماذج التسلسلية: ST‑GCN، DCRNN، Graph WaveNet وغيرها

لنمذجة السلاسل الزمانية-المكانية على الهياكل البيانية، فإن المسار الأكثر شيوعًا حاليًا هو التركيبة "الشبكات العصبية البيانية (GNN) + النموذج التسلسلي". تشمل النماذج الممثلة ST‑GCN، DCRNN، Graph WaveNet، ST‑Transformer وغيرها، وخصائصها المشتركة هي:

في البُعد المكاني، تُستخدم طرق مثل الالتفاف البياني (GCN) أو الانتباه البياني (GAT) أو الالتفاف في المجال الطيفي لإجراء "تجميع مجاور" على سمات العقد في كل خطوة زمنية، مما يلتقط الاعتماد المكاني وتأثير الهيكل الطوبولوجي؛
في البُعد الزماني، تُستخدم شبكات RNN (مثل GRU/LSTM) أو TCN أو Transformer لنمذجة سمات مستوى العقدة تسلسليًا، لالتقاط الاتجاهات الزمنية والدورية؛
من خلال التكديس المتناوب أو التصميم المشترك، يمكن للنموذج تعلم الأنماط المحلية والعالمية على مقاييس زمانية-مكانية متعددة.

على سبيل المثال، DCRNN (Diffusion Convolutional RNN) يدمج الالتفاف البياني مع وحدات البوابات التكرارية، مستخدمًا الالتفاف الانتشاري لمحاكاة انتشار المعلومات على شبكة الطرق، ثم يلتقط الديناميكية الزمنية من خلال RNN، وهو مناسب جدًا لمهام مثل التنبؤ بحركة المرور. أما Graph WaveNet فيعتمد على الالتفاف البياني والالتفاف الزماني، مع إدخال تعلم هيكل الرسم البياني التكيفي والنمذجة متعددة المقاييس، مما يحسن التكيف مع شبكات الطرق المعقدة والطوبولوجيات غير المنتظمة. بينما تُدخل نماذج مثل ST‑Transformer آلية الانتباه الذاتي في النمذجة الزمانية-المكانية، من خلال وحدات الانتباه الزمانية-المكانية التي تأخذ في الاعتبار العلاقات المتبادلة بين المواقع الزمانية والمكانية المختلفة في آنٍ واحد.

في الأنظمة الفعلية، تُنشر هذه الفئة من نماذج GNN + النماذج التسلسلية على نطاق واسع في منتجات مثل منصات التنبؤ بحركة المرور وتدفق البشر في المدن، وأنظمة جدولة الرحلات التشاركية، ومراقبة شبكات IoT المعقدة. وعادةً ما تعمل كمحركات تنبؤ أساسية، وتشكل مع أنظمة القواعد ونماذج المحاكاة واستراتيجيات الأعمال حلقة مغلقة، مما يمكّن الجدولة والتخطيط من مراعاة الهيكل العالمي والاستجابة للتغيرات المحلية في آنٍ واحد.

6.5.3 LSTM الالتفافية والالتفاف الزماني-المكاني: ConvLSTM، Conv‑TT‑LSTM وغيرها

يتمثل مسار مهم آخر في النمذجة الزمانية-المكانية القائمة على LSTM الالتفافية (ConvLSTM) ومتغيراتها. على عكس LSTM القياسي الذي يمرر متجهات أحادية البُعد بين الخطوات الزمنية، تستخدم ConvLSTM عوامل الالتفاف في هيكل البوابات، مما يجعل الحالة المخفية والمدخلات محفوظة كموترات متعددة الأبعاد (مثل خرائط السمات على شبكة مكانية). وبهذه الطريقة، يتضمن تحديث الحالة في كل خطوة زمنية كلاً من الاستدعاء الذاتي الزمني والتجميع الالتفافي المحلي في البُعد المكاني، مما يحقق نمذجة طبيعية للأنماط الزمانية-المكانية المحلية.

وعلى هذا الأساس، تحاول النماذج المحسّنة مثل Conv‑TT‑LSTM من خلال آليات مثل تحليل الموترات ومشاركة المعاملات والالتفاف متعدد المقاييس، تحسين القدرة التعبيرية وكفاءة النموذج، للتكيف مع بيانات زمانية-مكانية أكبر حجمًا وأكثر تعقيدًا. على سبيل المثال، في التنبؤ بالأرصاد الجوية، يمكن استخدام ConvLSTM مكدس في طبقات متعددة لإجراء استدعاء ذاتي زماني-مكاني على خرائط متعددة القنوات لعناصر الأرصاد الجوية (درجة الحرارة، الرطوبة، اتجاه الرياح، إلخ)، للتنبؤ بالتوزيع المكاني لعدة ساعات أو أيام قادمة من عدد من الإطارات التاريخية؛ وفي مراقبة المرور والبيئة، يمكن أيضًا تعيين شبكات الطرق أو نقاط الرصد على شبكات منتظمة، واستخدام نماذج مثل ConvLSTM للتنبؤ.

بالمقارنة مع نماذج GNN + النماذج التسلسلية، تُستخدم فئة ConvLSTM بشكل أكبر في السيناريوهات ذات الهياكل الشبكية المنتظمة والتنعيم المكاني المحلي الواضح، مثل التنبؤ بصدى الرادار الجوي، والتنبؤ الشبكي بجودة الهواء، والتنبؤ على مستوى الإطارات في الفيديو. وتكمن ميزتها في أن التنفيذ مباشر نسبيًا، وسهل الاستفادة من البنية التحتية الحالية للشبكات الالتفافية للتسريع والنشر، كما يسهل التعاون مع نماذج الرؤية مثل CNN/ViT، كما هو الحال في دمج السمات الالتفافية والاستدعاء الذاتي التسلسلي في النمذجة الزمانية-المكانية لصور الاستشعار عن بُعد.

على مستوى شكل المنتج، تُستخدم نماذج هذا الاتجاه في الغالب في أنظمة التنبؤ بالأرصاد الجوية/البيئية، ومنصات التحليل الزماني-المكاني للاستشعار عن بُعد، والتنبؤ الزماني-المكاني بالفيديو والصور، وغالبًا ما تُعرض القدرات للأعلى على شكل "خرائط تنبؤ بالمشاهد الزمانية-المكانية المستقبلية"، لتصبح مدخلاً مهمًا لاتخاذ القرارات التجارية والتحليل البصري.

7. طبقة الوكلاء واستدعاء الأدوات (Agents & Tool Use)

في طبقات القدرات السابقة مثل الرؤية واللغة، كانت النماذج في الغالب تعمل بصيغة "الإجابة السلبية" — تستقبل المدخلات وتُنتج المخرجات. لكن في العديد من سيناريوهات الأعمال الحقيقية، ما نحتاجه هو وكيل ذكي (Agent) يمكنه التخطيط بشكل استباقي، واستدعاء الأدوات الخارجية، وربط سير العمل معًا: لا يقتصر دوره على الرؤية/القراءة/الاستماع فحسب، بل يمكنه أيضًا "اتخاذ القرار بشأن الخطوة التالية" بنفسه، مثل البحث عن المعلومات، وتشغيل الكود، وقراءة وكتابة الملفات، واستدعاء الأنظمة الداخلية، ثم دمج النتائج وشرحها وإعادتها إلى المستخدم.

يمكن فهم هذه الطبقة على أنها الطبقة اللاصقة الأساسية التي "تحوّل النموذج الأساسي إلى نظام قابل للتنفيذ": من خلال واجهات استدعاء الأدوات المهيكلة، وتنسيق سير العمل، والتعاون بين الوكلاء المتعددين، وآليات الإشراف البشري (Human-in-the-Loop)، يتم توسيع نطاق LLM من "نواة معرفية" قوية إلى "موظف رقمي" قادر على إنجاز المهام من البداية إلى النهاية.

7.1 استدعاء الأدوات وتنفيذها (Tool Calling / Function Calling)

في عصر النصوص البحتة التي تقتصر على القراءة والكلام دون تنفيذ فعلي، كان نموذج اللغة الكبير (LLM) أشبه بـ"محاور خارق": يستطيع فهم الأسئلة، وتقديم الاقتراحات، وكتابة التعليمات البرمجية، وطرح الخطط، لكن جميع أعمال "التنفيذ الحقيقي" — كالاستعلام من قواعد البيانات، وتشغيل السكربتات، وإنشاء الملفات، واستدعاء الخدمات السحابية — كانت لا تزال تتطلب تدخلاً بشرياً لإتمامها. أما ظهور استدعاء الأدوات / Function Calling فقد أتاح للنموذج لأول مرة إمكانية "التصرف" ضمن حدود آمنة: إذ يولّد معاملات منظمة انطلاقاً من اللغة الطبيعية، ليستدعي قدرات خارجية كمحركات البحث، وقواعد البيانات، ومحركات الحوسبة، وخدمات توليد الصور والصوت والفيديو، ثم يعيد تجميع نتائج التنفيذ ويعرضها، محققاً بذلك حلقة مغلقة من "الفهم → القرار → التنفيذ".

من منظور المنتج، يُعد استدعاء الأدوات "القدرة الأساسية" لمعظم أنظمة الوكلاء (Agent): فمنصات مثل OpenAI Assistants API وLangChain وLlamaIndex وAutoGen ومنصات الوكلاء لدى مختلف مزودي الخدمات السحابية، كلها تبني عملياً فوق نموذج اللغة الكبير طبقة تشغيل (Runtime) تتمحور حول كيفية تعريف الأدوات، وكيفية جعل النموذج يختار الأداة الصحيحة، وكيفية معالجة الأخطاء وإعادة المحاولة. نستعرض فيما يلي هذه القدرة من زوايا السيناريوهات والمبادئ والنماذج، ثم نفصّل في الأقسام الفرعية اللاحقة ثلاثة محاور: "تصميم واجهة استدعاء الأدوات"، و"اختيار الأدوات واستراتيجياتها"، و"أنواع الأدوات النموذجية".

السيناريوهات
- الإجابة الذكية المعززة بالاسترجاع: يقرر النموذج تلقائياً بناءً على سؤال المستخدم ما إذا كان سيستدعي أداة استرجاع (بحث متجهي/كلمات مفتاحية)، أو يبحث في قاعدة المعرفة الداخلية للمؤسسة، أو يبحث في الإنترنت العام، ثم يدمج المستندات والأسئلة الشائعة المسترجعة في الإجابة النهائية.
- أتمتة البيانات والتقارير: إزاء طلبات مثل "استعلم لي عن المبيعات في هذه الفترة وارسمها بيانياً" أو "احسب لي مؤشرات المخاطرة لهذه المحفظة الاستثمارية"، يولّد النموذج تلقائياً استعلامات SQL أو معاملات تحليلية، ويستدعي قواعد البيانات ومحركات الحوسبة، ويعرض الرسوم البيانية والاستنتاجات.
- التعامل مع المستندات والملفات: يقرأ تلقائياً ملفات PDF/Word/Excel وجداول قواعد البيانات، ويستخلص المعلومات الأساسية ويلخصها، أو ينشئ ملفات جديدة (كتقارير، وعقود، ومخططات) وفقاً للتعليمات، ثم يحفظها أو يرفعها إلى الموقع المحدد عبر الأدوات.
- توليد الوسائط ومعالجتها: يستدعي خدمات توليد الصور/الصوت/الفيديو/المشاهد ثلاثية الأبعاد وفقاً للتعليمات النصية، أو يُجري عمليات قص وضغط وتحويل ترميز وإضافة علامات مائية على الوسائط الموجودة، مشكّلاً بذلك خط إنتاج محتوى متكامل "نص + تصميم + تصدير" بضغطة واحدة.
المبادئ يتمحور جوهر استدعاء الأدوات حول: قيادة استدعاءات دوال منظمة عبر اللغة الطبيعية.
- أولاً، تُعرض الأدوات الخارجية على نموذج اللغة الكبير على هيئة JSON Schema أو توقيعات دوال (Function Signatures)، متضمنةً الاسم والوصف وهيكل المعاملات (النوع، والحقول الإلزامية، والقيم المُعدّدة، إلخ).
- عندما يوجّه المستخدم طلباً، لا يقتصر دور النموذج على فهم الدلالة اللغوية فحسب، بل يجب أيضاً أن يحكم "ما إذا كان هناك حاجة لاستدعاء أداة ما"، و"أي أداة (أو أدوات) مطلوبة"، و"كيف ينبغي ملء معاملات هذه الأدوات".
- حالما يقرر النموذج استدعاء أداة معينة، يولّد معاملات منظمة (عادةً بصيغة JSON)، لتقوم طبقة التشغيل بتنفيذ واجهة API أو البرنامج الخارجي فعلياً، ثم تعيد نتيجة التنفيذ إلى النموذج بهيئة منظمة، ليواصل النموذج استدلاله أو ليولّد الإجابة النهائية بناءً عليها.
- لضمان الأمان والمتانة، يحتاج النظام أثناء هذه العملية إلى معالجة التحقق من المعاملات، والمهلات (Timeout)، والاستجابات الخاطئة، وإعادة المحاولة والتراجع، مع تطبيق ضوابط الصلاحيات والتدقيق على الاستدعاءات التي قد تنطوي على اعتبارات أمنية أو خصوصية.
النماذج تنقسم النماذج والأطر الداعمة لهذه القدرة إلى ثلاث فئات رئيسية:
- نماذج اللغة الكبيرة الداعمة لـ Function Calling: مثل GPT‑4.1 وسلسلة o وغيرها، التي تفهم على مستوى فك الترميز "توقيعات الأدوات + JSON Schema"، وتستطيع في التوقيت المناسب توليد معاملات استدعاء منظمة بشكل استباقي أو تفاعلي.
- أنماط الاستدلال المعززة بالأدوات: مثل ReAct وToolformer، التي تدمج "التفكير + استدعاء الأدوات" في سلسلة استدلالية واحدة، معتبرةً استخدام الأداة جزءاً من الخطوات الوسيطة، وليس مجرد معالجة سابقة أو لاحقة.
- أطر العمل وطبقات التشغيل الهندسية: مثل OpenAI Assistants API وLangChain وLlamaIndex وAutoGen ومنصات الوكلاء لدى مزودي الخدمات السحابية، التي توفر بنية تحتية لتعريف الأدوات، وتوجيه الاستدعاءات، وإدارة الحالة، ومعالجة الأخطاء، وتدقيق السجلات، مما يتيح للمطورين التركيز على "ما هي الأدوات التي يجب عرضها" و"كيفية تجريد واجهات API الأعمال"، دون الحاجة لبناء طبقة التشغيل من الصفر.

7.1.1 واجهة استدعاء الأدوات: من اللغة الطبيعية إلى استدعاءات دوال منظمة

يحتاج أي نظام قابل للاستخدام لاستدعاء الأدوات، أولاً وقبل كل شيء، إلى "طبقة واجهة أدوات" واضحة وموحدة وصديقة لنماذج اللغة الكبيرة. تضطلع هذه الطبقة بمهمة تغليف واجهات API والسكربتات والخدمات الخارجية في هيئة "دوال" يمكن للنموذج فهمها واستدعاؤها بأمان، بحيث يستطيع النموذج أن "يفصح" عن الأداة التي يرغب في استدعائها ومعاملاتها كما لو كان يكتب سطراً من التعليمات البرمجية الوصفية (pseudo-code).

تعريف الأدوات وأنماط المعاملات على مستوى الواجهة، تُعرِّف كل أداة عادةً باستخدام بنية تشبه JSON Schema أو توقيعات الدوال، وتشمل: الاسم (name)، والوصف (description)، وحقول المعاملات (properties)، والنوع (string / number / boolean / array / object)، وما إذا كانت إلزامية (required)، ومدى القيم أو القيم المُعدّدة، إلى غير ذلك. تُستخدم هذه المعلومات من جهة لدفع التحقق من الأنواع في الواجهة الأمامية وحزمة SDK، ومن جهة أخرى تُقدَّم مباشرةً إلى نموذج اللغة الكبير لمساعدته على "تعلّم" كيفية ملء المعاملات بشكل صحيح. وكلما كان الوصف أوضح والقيود أكثر منطقية، كان الاستدعاء الذي يولده النموذج أكثر انضباطاً وأقل عرضة للأخطاء.
توليد النموذج للمعاملات المنظمة عندما يطرح المستخدم طلباً مثل "استعلم لي عن إيرادات الربع الثالث من عام 2024 وارسم مخططاً عمودياً مقسّماً حسب المنطقة"، يحتاج النموذج أولاً إلى أن يستنتج أن هذا يتطلب على الأقل "أداة استعلام عن التقارير" (للوصول إلى البيانات)، وربما "أداة توليد رسوم بيانية" (للرسم). وبالنسبة لكل أداة، ينبغي أن يستخلص من اللغة الطبيعية المعاملات المنظمة ويعيّنها، مثل النطاق الزمني (start_date/end_date)، والبُعد (region)، والمؤشر (revenue)، ونوع المخطط (bar)، وصيغة المخرجات، وغيرها، ثم يُخرجها بصيغة JSON ويسلمها إلى طبقة التشغيل. في هذه العملية، يؤدي النموذج أساساً استدلالاً متكاملاً من "اللغة الطبيعية → تخطيط المهمة → استخلاص/ملء المعاملات"، لذا فإن التلميحات النصية الطبيعية لوصف الأداة، وأمثلة المعاملات، ونماذج few-shot تُعد جميعها بالغة الأهمية.
تنفيذ الأداة وإعادة النتائج بعد أن تتلقى طبقة التشغيل استدعاء JSON الذي أنتجه النموذج، تُجري أولاً تحققاً من صحة المعاملات وفحصاً أمنياً، ثم تستدعي واجهة API أو البرنامج الخلفي فعلياً. وبعد اكتمال التنفيذ، تُغلَّف النتيجة في كائن منظم (كجدول نتائج استعلام، أو رابط ملف، أو معرف مصدر وسائط، إلخ) وتُعاد إلى النموذج. بعد ذلك، يحوّل النموذج هذه النتائج الأولية إلى شرح مفهوم للمستخدم أو يعالجها بشكل إضافي، كتلخيص تقرير، أو توليد تحليل باللغة الطبيعية، أو تضمين تعليقات توضيحية للمخططات. بالنسبة للنموذج، لا تعدو نتائج الأدوات كونها جزءاً من المعلومات الوسيطة، فهو لا يزال مسؤولاً عن "فهم النتيجة + شرحها".

7.1.2 اختيار الأدوات واستراتيجياتها: اتخاذ القرار في عالم متعدد الأدوات

عندما لا يوجد في النظام سوى أداة واحدة، فإن السؤال الوحيد المطروح هو "هل نستخدم الأداة أم لا؟". لكن في تطبيقات الوكلاء الواقعية، غالباً ما يكون هناك عشرات أو حتى مئات الأدوات: أدوات استرجاع من مصادر بيانات مختلفة، وواجهات API أعمال لأقسام متعددة، وقدرات توليد/تحليل في مجالات تقنية متنوعة. وهذا يطرح تحدياً جديداً: كيف يتخذ النموذج خيارات وتنسيقاً معقولاً في بيئة متعددة الأدوات.

اختيار الأدوات وتوجيهها أولاً، يحتاج النموذج إلى أن يحكم "ما إذا كان الطلب الحالي يستدعي استخدام أداة"، و"أي أداة (أو أدوات) يجب استدعاؤها". ويتحقق ذلك عادةً من خلال عرض شروح الأدوات المتاحة في التلميحة النظامية (system prompt)، مع تقديم أمثلة نموذجية، ليتعلم النموذج اختيار الأداة المناسبة بناءً على نية المستخدم. وفي السيناريوهات التي تكثر فيها الأدوات وتتشابه أوصافها، تُدخل أطر عمل كثيرة "مُوجِّه أدوات" (Tool Router) (كالتصفية المسبقة المعتمدة على البحث المتجهي أو القواعد)، فيُصفّي القائمة الكبيرة أولاً إلى عدد من الأدوات المرشحة، ثم تُعرض على نموذج اللغة الكبير للاختيار، مما يخفف العبء على النموذج ويقلل احتمالية الاختيار الخاطئ.
ترتيب الأدوات المتعددة وتجميعها غالباً ما تتطلب المهام المعقدة تعاون عدة أدوات. مثلاً، "إجراء بحث عن الشركات المدرجة الرئيسية في قطاع معين، وإصدار تقرير يتضمن مخططات مقارنة مالية" قد يشمل محرك بحث، وقاعدة بيانات للتقارير المالية، ومحرك حوسبة، وأداة توليد رسوم بيانية، وأداة تصدير مستندات، إلى غير ذلك. في هذه الحالة، يحتاج النموذج إلى إجراء تخطيط خفيف للمهمة: أي أداة تُستخدم أولاً للحصول على القائمة، ثم الاستعلام عن تفاصيل كل عنصر في القائمة، ثم دمج البيانات، وإجراء الحسابات والتصورات البيانية، وأخيراً استدعاء أداة التصدير لإصدار التقرير. وتشمل الممارسات النموذجية أفكار ReAct/Planner‑Executor، حيث يُكمل النموذج استدعاءات الأدوات المركبة تدريجياً في حلقة من "التفكير (Plan) — الاستدعاء (Act) — التأمل (Reflect)".

7.1.3 أنواع الأدوات النموذجية: قطع أحجية القدرات من الاسترجاع إلى توليد الوسائط

تمنح الأنواع المختلفة من الأدوات نظام الوكيل "عقولاً خارجية" بأبعاد متنوعة. ومن منظور الممارسة الهندسية، تكاد الأنواع التالية من الأدوات أن تكون "المكونات الأساسية" لجميع التطبيقات المعقدة.

أدوات الاسترجاع: البحث المتجهي والبحث بالكلمات المفتاحية تتولى أدوات الاسترجاع توسيع نطاق "الذاكرة" ليشمل العالم الخارجي:
- يناسب البحث بالكلمات المفتاحية المستندات التقليدية وقواعد بيانات الأعمال ذات البنية الجيدة والحقول الواضحة.
- أما البحث المتجهي فيبني فهارس دلالية عبر التضمين (embedding) للنصوص غير المنظمة، والتعليمات البرمجية، وسجلات المحادثات، بل وحتى البيانات متعددة الوسائط، داعماً بذلك الاسترجاع "الغامض لكن ذا الصلة الدلالية". في سيناريوهات RAG، يسحب نموذج اللغة الكبير عبر أدوات الاسترجاع السياق المرتبط بسؤال المستخدم، ثم يُجري الاستدلال والتوليد بناءً عليه، مما يحسن بشكل كبير آنية الإجابات ودقتها.
تنفيذ التعليمات البرمجية ومحركات الحوسبة تتيح أدوات تنفيذ التعليمات البرمجية (كصندوق الرمل Python/JS، ومُنفِّذات الدفاتر الحاسوبية Notebook) لنموذج اللغة الكبير "كتابة تعليمة برمجية وتشغيلها فوراً"، لحل مسائل الحوسبة المعقدة، ومعالجة البيانات، والمحاكاة العددية، والتصور البياني، وغيرها. يتولى النموذج إنتاج التعليمات البرمجية ومعاملات الإدخال، بينما تتولى بيئة التنفيذ العزل الآمن، وتقييد الموارد، وجمع النتائج. وتكتسب هذه الأدوات أهمية بالغة في سيناريوهات تحليل البيانات، والبحث الكمي، والتقارير المؤتمتة، والحوسبة العلمية، والتحقق الذاتي للوكيل (حيث يولّد النموذج إجابة ثم يتحقق منها برمجياً).
الوصول إلى الملفات ومصادر البيانات تتولى أدوات قراءة وكتابة الملفات إدخال أنظمة الملفات الخارجية ومصادر البيانات في نطاق رؤية الوكيل: قراءة PDF/Word/Excel، والوصول إلى جداول قواعد البيانات، واستدعاء واجهات API الأعمال الداخلية، إلخ. يحصل النموذج من خلال هذه الأدوات على بيانات أعمال حقيقية، ثم يُجري التلخيص والمقارنة وإصدار التقارير. وبالتوازي معها، توجد أدوات كتابة وإدارة الملفات: حيث تُحفَظ التقارير والمخططات والعروض التقديمية والتعليمات البرمجية المُنشأة بشكل دائم، مع إرجاع رابط أو معرِّف، مما يسهّل على المستخدم لاحقاً الوصول إليها ودمجها.
أدوات توليد الوسائط ومعالجتها تضيف أدوات توليد الوسائط للوكيل ذراعاً في "الإبداع" و"التصميم":
- توليد الصور/الفيديو وتحريرها: إنشاء صور مصاحبة، وملصقات، ولوحات قصصية (storyboard) تلقائياً بناءً على النصوص، أو إجراء عمليات قص، وإضافة ترجمات، ودمغ العلامات المائية على الوسائط الموجودة.
- توليد الصوت ومعالجته: تحويل النص إلى كلام (TTS)، والتعليق الصوتي، وتوليد الموسيقى، وتحسين الصوت وتحريره.
- الأدوات ثلاثية الأبعاد/الهندسية: توليد مشاهد ثلاثية الأبعاد بسيطة، ورسوم CAD أولية، ونماذج واجهات مستخدم أولية، إلخ. في تطبيقات إنتاج المحتوى، والتصميم التسويقي، والتعليم والتدريب، والألعاب والوسائط المتعددة، تجعل هذه الأدوات الانتقال "من الفكرة إلى المنتج النهائي" أقرب ما يكون إلى خط إنتاج مؤتمت.

بصورة إجمالية، يرتقي استدعاء الأدوات وتنفيذها بنموذج اللغة الكبير من "نموذج لغوي" إلى "متحكم عام مزود بواجهات تنفيذية": يفهم النموذج الاحتياجات والبيئة من خلال اللغة، وينفذ عمليات حقيقية عبر الأدوات، ويُصحّح استراتيجياته باستمرار من خلال التغذية الراجعة. وباقتران ذلك مع تنسيق سير العمل المناسب والتعاون بين الوكلاء المتعددين (انظر 7.2)، يتشكل الهيكل الأساسي للجيل الجديد من التطبيقات الذكية.

7.2 تنسيق سير العمل والتعاون متعدد الوكلاء (Workflow & Orchestration)

مع قدرة استدعاء الأدوات، لم يعد LLM مجرد "مجيب على الأسئلة"، بل أصبح "وحدة تنفيذ" موجهة نحو مهام محددة. لكن الأعمال الواقعية غالبًا ما تكون أكثر تعقيدًا من مجرد محادثة واحدة: تحليل دعوى قضائية كامل، أو بحث سوقي، أو جولة من تكوين تجارب A/B، أو عملية تشغيل وصيانة شاملة، جميعها تتطلب عادةً خطوات متعددة وأدوات متنوعة وحتى مشاركة طويلة الأمد من عدة جهات. وهنا يصبح نموذج "LLM منفرد + أدوات" غير كافٍ، مما يستدعي تنسيق سير العمل والتعاون متعدد الوكلاء.

من منظور النظام، تتمثل مسؤولية هذه الطبقة في: تجريد عملية أعمال معقدة ومتعددة الخطوات ومتعددة المشاركين إلى رسم بياني لسير العمل يمكن لـ LLM فهمه والتحكم فيه، ثم جدولة وكيل واحد أو أكثر على هذا الرسم البياني، بالتنسيق مع التدخل البشري، لإنجاز المهمة معًا. تشمل التطبيقات النموذجية بنية الوكيل من نوع Planner‑Executor، والوكلاء ذوي قدرات التأمل/التصحيح الذاتي، ومنسق سير العمل القائم على الرسم البياني (Graph-based Workflow Orchestrator)؛ أما أشكال المنتجات المقابلة فتشمل منصات إنشاء التقارير الآلية وأتمتة العمليات، وتكامل منصات Low-code مع LLM، وروبوتات العمليات التجارية المعقدة، وأنظمة التشغيل الآلي وغيرها.

السيناريوهات
- خطوط إنتاج التقارير والمحتوى: من "استلام المتطلبات → البحث وسحب البيانات → التحليل والتصور → كتابة التقرير → المراجعة والتعديل → التصدير والتوزيع"، أتمتة عملية إنتاج المحتوى متعددة الخطوات كليًا أو جزئيًا.
- أتمتة العمليات التجارية: مثل "تحليل المنتج → مراقبة المنافسين → إنشاء استراتيجية الحملات → التنفيذ على المنصة" في عمليات التجارة الإلكترونية، و"التنبيه من المراقبة → تحليل السبب الجذري → تنفيذ إجراءات التخفيف → تقرير المراجعة" في سيناريوهات التشغيل والصيانة.
- التعاون عبر الأدوار: جعل وكلاء من مجالات مختلفة (قانوني، مالي، تقني، تشغيلي) يتعاونون حول مشروع معقد، مثل العناية الواجبة في عمليات الاندماج والاستحواذ، أو إعداد مواد الاستثمار والتمويل، أو كتابة عطاءات المشاريع الكبيرة.
المبادئ جوهر تنسيق سير العمل والتعاون متعدد الوكلاء هو إضافة طبقة من التحكم المنظم وإدارة الحالة فوق LLM:
- تقسيم المهام المعقدة إلى مهام فرعية ذات علاقات تبعية، وتمثيلها باستخدام DAG / آلة الحالة / الرسم البياني الموجه، مع تكوين شروط التشغيل والمدخلات والمخرجات والوكيل/الأداة المطلوبة لكل عقدة.
- يتولى وكيل Planner أو المنسق العلوي تحديد متى يتم تشغيل أي عقدة، وأي وكيل أو أداة يجب استخدامها، وتعديل المسار اللاحق ديناميكيًا بناءً على نتائج التنفيذ (التفرع الشرطي، الحلقات، التراجع عند الخطأ).
- إدخال الإنسان في الحلقة (Human‑in‑the‑loop) في المراحل الحرجة، للتأكيد والتحرير اليدوي للقرارات عالية المخاطر والمخرجات الرئيسية، وإعادة التغذية الراجعة البشرية إلى النظام لاستخدامها في تحديث الاستراتيجيات أو ضبط النماذج.
النماذج تشمل الاتجاهات التقنية الرئيسية الداعمة لهذه الطبقة:
- بنية الوكيل Planner‑Executor: حيث يتولى "وكيل التخطيط" مسؤولية تحليل المهام وتصميم المسار، بينما يتولى "وكيل التنفيذ" (أو عدة وكلاء تنفيذ) تنفيذ الخطوات المحددة فعليًا.
- وكلاء التأمل/التصحيح الذاتي: حيث يراجع الوكيل أداءه باستمرار أثناء التنفيذ، ويتأمل ويصحح النتائج الوسيطة غير المنطقية، مما يقلل من الانتشار الصامت "للأخطاء الواثقة".
- منسق سير العمل القائم على الرسم البياني (Graph‑based Workflow Orchestrator): نمذجة عملية المهمة بأكملها كرسم بياني، مع إدخال آليات مثل حالة العقدة، وشروط الحواف، والتحكم في التوازي/التسلسل، مما يجعل استدعاء LLM يصبح عقدة أو أكثر داخل الرسم البياني، بدلاً من كونه مركز التحكم الوحيد.

7.2.1 تحليل المهام والتخطيط: من "طلب بجملة واحدة" إلى عملية قابلة للتنفيذ

ما يقدمه المستخدم للوكيل عادةً هو طلب مضغوط جدًا بلغة طبيعية، مثل "قم بإجراء بحث سوقي عن صناعة مركبات الطاقة الجديدة وأخرج عرض PPT"، وهو ما يتضمن في الواقع خطوات كثيرة مثل البحث، والتصفية، والتحليل، والتصور، والتنسيق، وجولات متعددة من التعديل. كيفية الانطلاق من هذه الجملة لبناء سير عمل واضح وقابل للتنفيذ تلقائيًا هي الخطوة الأولى في تنسيق سير العمل.

من اللغة الطبيعية إلى رسم المهام الفرعية يحتاج وكيل Planner أولاً إلى "تفصيل" الطلب: بالاعتماد على القوالب المضمنة، والحالات السابقة، وقائمة الأدوات، لتحديد المراحل الرئيسية (مثل جمع المعلومات، تحليل البيانات، تصميم الهيكل، كتابة المحتوى، المراجعة والتصدير)، ثم تجزئتها إلى مهام فرعية قابلة للتنفيذ (مثل "البحث عن 5 تقارير صناعية موثوقة من العام الماضي"، "سحب بيانات المبيعات لآخر 3 سنوات وتفصيلها حسب نوع المركبة"، "إنشاء 3 رسوم بيانية مقارنة"، إلخ). يتم تمثيل علاقات التبعية ومنطق الجدولة بين هذه المهام الفرعية بشكل صريح كرسم بياني أو آلة حالة: ما الذي يمكن تنفيذه بالتوازي، وما الذي يجب أن يكون متسلسلًا، وفي أي العقد نحتاج إلى تأكيد بشري، وتحت أي ظروف يجب التراجع أو إعادة المحاولة.
التفرع الشرطي، الحلقات، ومسارات الاستثناءات العمليات الواقعية غالبًا ليست خطية، بل تحتوي على تفرعات شرطية (مثل "إذا تعذر العثور على تقارير عالية الجودة بما يكفي، استبدل الكلمات المفتاحية أو مصدر البيانات")، وحلقات (مثل "استمر في محاولة إعادة الكتابة والضغط حتى يفي طول التقرير بالحد المسموح")، ومسارات استثناءات (مثل "عند عدم توفر مصدر بيانات معين، انتقل إلى مصدر بديل أو استخدم طريقة تقديرية"). هذا يتطلب من طبقة تنسيق سير العمل أن تكون قادرة على التعبير عن دلالات تدفق التحكم مثل if/else و while/for و try/catch على هيكل الرسم البياني، وأن تسمح لوكيل Planner أو المنسق العلوي باتخاذ القرارات أثناء التشغيل بناءً على النتائج الفعلية، وليس فقط التخطيط لجميع الخطوات مرة واحدة في البداية.
الربط مع استدعاء الأدوات يرتبط تحليل المهام والتخطيط ارتباطًا وثيقًا باستدعاء الأدوات في القسم 7.1: فعندما يقوم Planner بإنشاء المهام الفرعية، فإنه غالبًا ما يحدد في نفس الوقت "ما الأدوات/الوكلاء المطلوبين لهذه المهمة" و"صيغة المدخلات والمخرجات لهذه العقدة"، مما يمهد الطريق للتعبئة التلقائية للوسائط وتنفيذ الأدوات لاحقًا. بعض الأنظمة تتبنى مرحلتين صريحتين "Plan + Execute": يقوم Planner أولاً بإخراج خطة قابلة للقراءة آليًا (مثل وصف JSON لسير العمل)، ثم يقوم Executor بتنفيذ الأدوات والوكلاء بدقة وفقًا للخطة؛ بينما تستخدم أنظمة أخرى أسلوب ReAct، حيث تدمج "التفكير–استدعاء الأداة–الملاحظة–إعادة التفكير" في نفس المحادثة، للحصول على تنفيذ تكيفي أكثر مرونة.

7.2.2 التعاون متعدد الوكلاء: جعل "الفريق الافتراضي" يؤدي كلٌّ دوره

على الرغم من قوة النموذج الكبير المنفرد، إلا أن المجالات المختلفة في سيناريوهات الأعمال المعقدة غالبًا ما تتطلب هياكل معرفية مختلفة، وتفضيلات أسلوبية، وسياسات أمان مختلفة. فكرة التعاون متعدد الوكلاء تقوم على تقسيم الذكاء "الكبير والشامل" إلى أدوار "متخصصة ودقيقة": أحدهم مسؤول عن التخطيط، وآخر عن التنفيذ، وآخر عن المراجعة، وآخر عن الحكم المهني في المجال، ليشكلوا معًا فريقًا افتراضيًا يتكون من وكلاء + أدوات + بشر.

تقسيم الأدوار: التخطيط، التنفيذ، والمراجعة في عملية نموذجية متعددة الوكلاء، تشمل الأدوار الشائعة:
- وكيل التخطيط: مسؤول عن فهم احتياجات المستخدم، وتصميم الخطة العامة، وتقسيم المهام الفرعية، وتعديل المسار ديناميكيًا بناءً على النتائج أثناء التنفيذ.
- وكيل التنفيذ: مُحسَّن بعمق حول أدوات أو مجالات فرعية معينة (مثل وكيل البحث، وكيل تحليل البيانات، وكيل كتابة المحتوى)، لتنفيذ خطوات محددة وفقًا لمتطلبات التخطيط.
- وكيل المراجعة: يقوم بفحص وتنقيح المخرجات الوسيطة والنهائية من زوايا الهيكلية، والمنطقية، واتساق الأسلوب، والتحكم في المخاطر، مثل "محرر/مراجع افتراضي".
تعاون وكلاء المجالات المتخصصة بالنسبة للمجالات عالية التخصص مثل القانون والمالية والتقنية والعمليات، يمكن تقسيمها إلى وكلاء مجال متخصصين: مثل "وكيل المستشار القانوني"، "وكيل تحليل الاستثمار"، "وكيل تشغيل السحابة الأصلية"، "وكيل تحسين الإعلانات"، إلخ. يمكنهم الاعتماد على قواعد معرفية خاصة بالمجال، وأدوات، وحتى نماذج مضبوطة خصيصًا، للمشاركة في تعاون قائم على المشاريع: على سبيل المثال، في مادة تمويل استثماري، يتولى الوكيل التقني جزء الجدوى التقنية، والوكيل المالي النموذج المالي والتقييم، والوكيل القانوني الامتثال والإفصاح عن المخاطر، والوكيل التشغيلي استراتيجية السوق والنمو، ثم يقوم وكيل التحكم الرئيسي بالتجميع وتوحيد الأسلوب.
بروتوكولات التعاون وتوجيه الرسائل مفتاح التعاون متعدد الوكلاء يكمن أيضًا في "من يتحدث إلى من ومتى". يحتاج النظام إلى آلية توجيه وتنسيق للرسائل:
- تحديد أي وكيل يجب أن يعالج طلب مستخدم معين أو نتيجة وسيطة معينة.
- الحفاظ على سياق مشترك وذاكرات خاصة لكل وكيل.
- التحكم في التنفيذ المتوازي والمتسلسل، وحل النزاعات (مثل كيفية التحكيم عندما يقترح وكلاء مختلفون توصيات متناقضة). هذه القدرات تقدمها عادةً طبقة المنسق العلوي أو "وكيل الإدارة"، بينما توفر أطر العمل مثل LangChain و AutoGen على المستوى الهندسي البنية التحتية لتوجيه المحادثات، وجلسات الوكلاء المتعددين، وتعريف الأدوار.

7.2.3 الإنسان في الحلقة (Human‑in‑the‑loop): الإمساك بزمام المخاطر

مهما بلغ ذكاء تنسيق سير العمل والتعاون متعدد الوكلاء، لا يمكن الاستغناء تمامًا عن الحكم البشري في الأعمال الواقعية، خاصة في السيناريوهات عالية المخاطر، عالية التكلفة، وعالية الحساسية، مثل الامتثال القانوني، والقرارات المالية، والنصائح الطبية، وتغييرات الإنتاج واسعة النطاق، والاستجابة للرأي العام. تصميم الإنسان في الحلقة (Human‑in‑the‑loop) يهدف بالضبط إلى إيجاد توازن بين الأتمتة وقابلية التحكم: ما يمكن أتمتته يُؤتمت، وما يحتاج إلى تأكيد بشري يجب التوقف عنده ليلقيه الإنسان نظرة.

التأكيد اليدوي في الخطوات الحرجة في رسم سير العمل، عادةً ما تُعلَّم بشكل صريح عدة "عقد موافقة/تأكيد بشري":
- على سبيل المثال، عند إنشاء عقد تلقائيًا، يلزم تأكيد مزدوج من المسؤول القانوني ومسؤول الأعمال قبل الإصدار؛
- في أنظمة التشغيل الآلي، العمليات المتعلقة بتغييرات بيئة الإنتاج، وإعادة التشغيل الجماعي، وتعديل الإعدادات، يجب أن ينقر عليها مهندس مناوب للتأكيد؛
- في سيناريوهات إنشاء المحتوى، المحتوى المخصص للنشر العام الواسع أو الحساس للعلامة التجارية يحتاج إلى مراجعة بشرية. يقوم المنسق (Orchestrator) بإيقاف التنفيذ الآلي مؤقتًا عند هذه العقد، وإرسال النتائج الوسيطة إلى الأدوار البشرية المقابلة، واستئناف العملية بعد تلقي الملاحظات.
تحديث الاستراتيجيات المدفوع بالتغذية الراجعة لا يقتصر دور الإنسان على "الضغط على زر الموافقة أو الرفض" في لحظة معينة، بل الأهم هو أن محتوى التغذية الراجعة يمكن أن يمتصه النظام:
- مقارنة النسخة المعدلة يدويًا مع المخرجات الأصلية، وتسجيلها "كأمثلة إيجابية/سلبية" لاستخدامها لاحقًا في تحسين التلميحات أو ضبط النماذج.
- بناءً على التحليل الإحصائي، تحديد أنواع المهام/الخطوات الأكثر عرضة للتعديل البشري المتكرر، ومن ثم تحسين تلميحات الوكيل المقابل، أو مجموعة الأدوات، أو تصميم سير العمل.
- في الحالات القصوى أو الاستثنائية، يمكن للبشر إضافة "قائمة سوداء/قائمة بيضاء/قواعد خاصة"، مما يؤثر مباشرة على اختيار الاستراتيجية في الحالات المماثلة.
تصنيف المخاطر وقابلية الملاحظة أخيرًا، يحتاج الإنسان في الحلقة أيضًا إلى آلية واضحة لتصنيف المخاطر وقابلية الملاحظة:
- تصنيف العمليات إلى مستويات مخاطر مختلفة، بناءً على أبعاد مثل نوع المهمة، ونطاق التأثير، وحجم المبلغ، والمعلومات الحساسة المعنية، مع مستويات مختلفة من التدخل البشري (مثل المراجعة للقراءة فقط، الموافقة الإلزامية، الموافقة متعددة المستويات).
- من خلال السجلات، والتدقيق، ولوحات المراقبة المرئية، تمكين موظفي العمليات والإدارة من تتبع المهام الجارية، والخطوة التي وصلت إليها، وأين تم تشغيل التدخل البشري، وما حالات الفشل والتصحيحات البشرية التي حدثت تاريخيًا. هذه القدرات لا تزيد فقط من قابلية قبول النظام داخل المؤسسة، بل توفر أيضًا أساسًا للمراجعة التنظيمية وتحديد المسؤوليات لاحقًا.

بالنظر إلى الصورة الكلية، فإن استدعاء الأدوات والتنفيذ (7.1) يعالج مشكلة "العمل بخطوة واحدة"، بينما يحاول تنسيق سير العمل والتعاون متعدد الوكلاء (7.2) الإجابة عن "كيفية ربط خطوات عديدة معًا، وجعل أدوار مختلفة تتعاون طويل الأمد وتعمل بشكل قابل للتحكم". الجمع بين الاثنين، مع الإنسان في الحلقة والممارسات الهندسية الجيدة، يشكل قاعدة الجيل الجديد من التطبيقات الذكية الموجهة لسيناريوهات الأعمال الواقعية.

8. الاسترجاع المعزز وطبقة المعرفة (Retrieval & Knowledge)

في طبقة الرؤية والفهم السابقة، يعتمد النموذج بشكل أساسي على "المعرفة التي تعلمها من بارامتراته الذاتية" لفهم وإنتاج المحتوى. لكن في الأعمال الحقيقية، لا يمكن حل العديد من المشكلات بالاعتماد على "الذاكرة" فقط: سياسات الشركات الداخلية تتغير يوميًا، واللوائح والمعايير الصناعية تُحدث باستمرار، وسجلات العملاء التاريخية موجودة فقط في قواعد البيانات الداخلية. في هذه الحالات، لا تكفي المعرفة "المحفوظة" لدى النموذج، والأهم من ذلك هو القدرة على البحث والاستدلال بفعالية على قواعد المعرفة الخارجية والبيانات المنظمة والرسوم البيانية المعرفية.

يمكن فهم هذه الطبقة على أنها: فوق قدرات النموذج، نضيف طبقة "دماغ خارجي يعرف كيف يبحث في المراجع ويستخدم قواعد البيانات". عندما يطرح المستخدم سؤالًا، لا يقوم النظام بتوليد الإجابة مباشرة، بل يذهب أولًا "للبحث في المراجع" من مصادر البيانات المناسبة: مكتبات المستندات، قواعد البيانات، محركات البحث، الرسوم البيانية المعرفية، السجلات وأنظمة الأعمال… ثم يدع النموذج يقدم الإجابة والقرار بناءً على المحتوى المسترجع فعليًا. هذا لا يحسن الدقة والحداثة بشكل كبير فحسب، بل يعزز أيضًا قابلية التفسير والامتثال (مثل القدرة على الاستشهاد بالمصادر، والاحتفاظ بسجلات تنفيذ SQL، إلخ).

حول هذه الطبقة، يمكن تقسيم القدرات الشائعة تقريبًا إلى اتجاهين: الأول هو التوليد المعزز بالاسترجاع (RAG) ، الذي يركز بشكل أساسي على "الإجابة على الأسئلة باللغة الطبيعية + البحث في المستندات/قواعد المعرفة"؛ والثاني هو البيانات المنظمة والرسوم البيانية المعرفية (Structured Data & KG) ، المسؤول عن الوصول والاستدلال بشكل أكثر دقة وتحكمًا على قواعد البيانات وقواعد البيانات البيانية ومنصات المعرفة المجالية. فيما يلي تفصيل لكل منهما.

8.1 التوليد المعزز بالاسترجاع (RAG)

يمكن اعتبار RAG (Retrieval‑Augmented Generation) بمثابة "LLM يمكنه البحث في المراجع". فعلى عكس الاعتماد الكامل على المعاملات الداخلية للنموذج، يقوم RAG قبل الإجابة عن كل سؤال بالبحث في قاعدة معرفة خارجية، ويستخرج أكثر أجزاء المستندات صلةً بالسؤال (chunk)، ثم يغذي هذه المحتويات المسترجعة "كسياق" إلى LLM، ليتمكن من توليد الإجابة بناءً على "الاطلاع على المراجع". وقد أصبح RAG النموذج الافتراضي في سيناريوهات مثل الإجابة عن الأسئلة في قواعد المعرفة المؤسسية، والبحث في تقارير القطاعات، والإجابة عن الأسئلة المتخصصة في المجالات القانونية/الطبية/المالية، وروبوتات البحث في المستندات الداخلية.

من الناحية المعمارية للنظام، يمكن تفكيك RAG النموذجي إلى ثلاث طبقات: طبقة بناء الفهرس، وطبقة الاسترجاع، وطبقة التوليد. تهتم الطبقتان الأوليان بشكل أساسي بـ"دقة البحث"، بينما تهتم الطبقة الأخيرة بـ"وضوح التعبير". فيما يلي تفصيل لهذه الطبقات الثلاث، مع مزيد من التفصيل حول التصميم الأساسي والممارسات في الأقسام الفرعية.

السيناريوهات
- الإجابة عن الأسئلة المعرفية الداخلية للمؤسسة: يطرح الموظفون أسئلة باللغة الطبيعية حول إجراءات العمل، والمستندات التقنية، ومواد المشاريع، ويقوم النظام باسترجاع المحتويات ذات الصلة من المستندات الداخلية والويكي، ثم يولد LLM إجابة واضحة مع الاستشهادات.
- البحث في تقارير القطاعات والدراسات: البحث في كميات كبيرة من ملفات PDF والتقارير والأوراق البحثية عن محتويات متعلقة بمسألة قطاعية معينة (مثل "التغيرات في سياسة دعم مركبات الطاقة الجديدة")، مع تلخيص ومقارنة وذكر المصادر تلقائياً.
- الإجابة عن الأسئلة في المجالات القانونية/الطبية/المالية: التعزيز بالاسترجاع استناداً إلى مواد موثوقة مثل نصوص القوانين، وأحكام القضاء، والإرشادات السريرية، ونشرات المنتجات، مما يقلل من مخاطر "اختلاق الإجابات".
- روبوتات البحث في المستندات/تذاكر الدعم الداخلية: مساعدة فرق العمليات وخدمة العملاء والبحث والتطوير في تحديد الإجابات بسرعة ضمن قواعد المعرفة وتذاكر الدعم وسجلات التغييرات، وتلخيص النتائج باللغة الطبيعية.
المبدأ الفكرة الأساسية لـ RAG هي "تخزين المعرفة خارجياً، وإسناد الاستدلال إلى النموذج":
- تقسيم المستندات غير المهيكلة (PDF، صفحات الويب، Word، المستندات التقنية، إلخ) إلى أجزاء مستندات (chunk) مناسبة للاسترجاع، وتحويلها إلى فضاء متجهات باستخدام نموذج Embedding، وبناء فهرس متجهات (مثل FAISS و Milvus و PGVector، إلخ).
- عند استعلام المستخدم، استخدام البحث الدلالي بالمتجهات والبحث بالكلمات المفتاحية (Hybrid Search) معاً للعثور على أكثر أجزاء المستندات صلةً بالسؤال، وإجراء إعادة ترتيب (Re‑ranking) بناءً على الصلة والتغطية.
- إدخال السياق المسترجع وسؤال المستخدم والتعليمات النظامية/قيود التنسيق اللازمة معاً إلى LLM، ليجيب النموذج في إطار "الأدلة المرئية"، مع ذكر المصادر (source citation) في المخرجات لتعزيز قابلية التفسير والتدقيق.
النماذج غالباً ما يكون نظام RAG النموذجي عبارة عن معمارية مكونة من مجموعة نماذج:
- نموذج Embedding: يُستخدم لتشفير الاستعلامات وأجزاء المستندات في نفس الفضاء الدلالي، وهو مفتاح فعالية البحث بالمتجهات (يشمل Embedding العام و Embedding المخصص للمجال).
- نماذج الاسترجاع وإعادة الترتيب: Hybrid Search (مثل BM25 + Vector) مسؤول عن الاستدعاء في المرحلة الأولى، و Cross‑Encoder Re‑ranker أو LLM نفسه يُستخدم لإعادة ترتيب نتائج الاستدعاء بشكل أدق.
- نموذج التوليد: يجيب LLM بناءً على سياق الاسترجاع المُعطى؛ وفي سيناريوهات RAG / HyDE / ReAct + RAG الأكثر تعقيداً، يشارك LLM أيضاً في عمليات مثل "توليد مستندات افتراضية" و"استدعاء الأدوات متعدد الجولات" و"التفكير + الاسترجاع بالتناوب"، لتحسين الاستدعاء وتقليل النسيان وتعزيز قدرة الاستدلال.

8.1.1 بناء الفهرس وتنظيم الأصول المعرفية

في أي نظام RAG، يُعد بناء الفهرس هو الأساس. فبدون فهرس عالي الجودة، حتى أقوى LLM سيكون "عاجزاً عن العمل دون مواد خام". الهدف من بناء الفهرس هو تحويل موارد المستندات غير المنتظمة إلى "أصول معرفية قابلة للبحث وقابلة للصيانة وقابلة للتوسع".

من منظور التدفق العملي، يتضمن بناء الفهرس النموذجي الخطوات الرئيسية التالية:

تجزئة المستندات والمعالجة المسبقة غالباً ما تكون المستندات عبارة عن ملفات PDF أو PPT أو Word طويلة أو صفحات ويب. إذا تم تحويل المستند بأكمله مباشرةً إلى متجهات، فسيؤدي ذلك بسهولة إلى "التخفيف" (يحتوي المستند الواحد على مواضيع متعددة)، كما أنه لا يساعد على كفاءة البحث. لذلك يلزم:
1. التجزئة حسب الفقرات والعناوين وأرقام الصفحات وهيكل الفصول، مع الموازنة بين "اكتمال الدلالة" و"حجم الجزء";
2. معالجة مشكلات التنسيق (الجداول، المعادلات، التعرف الضوئي على النصوص في الصور)، وإزالة التشويش (الترويسات والتذييلات وجداول المحتويات ومعلومات حقوق النشر، إلخ);
3. إنشاء "وسوم سياقية" لكل جزء (مثل المستند المنتمي إليه، عنوان الفصل، رقم الصفحة)، تمهيداً للتفسير والاستشهاد لاحقاً.
الـ Embedding وفهرس المتجهات بناءً على التجزئة، يتم توليد متجه دلالي لكل جزء من المستند:
1. اختيار نموذج Embedding مناسب (مثل Embedding الدلالي العام، أو نموذج مُضبَّط للمجال)، لضمان قدرة تعبير جيدة عن اللغة المستهدفة ومصطلحات المجال;
2. استخدام FAISS و Milvus و PGVector وغيرها لبناء فهرس متجهات عالي الأبعاد، يدعم البحث التقريبي عن أقرب جار على نطاق واسع من البيانات;
3. معالجة الإصدارات المتعددة والتحديثات التزايدية: عند تحديث المستندات، يلزم دعم إعادة بناء الفهرس التزايدي وتسجيل الإصدارات واستراتيجيات تنظيف الإصدارات القديمة.
فهرس المعلومات الوصفية والتصفية المتجهات الدلالية وحدها لا تكفي لتلبية احتياجات التصفية المعقدة، وعادةً ما يلزم بناء فهرس معلومات وصفية أيضاً:
1. إضافة بيانات وصفية لكل جزء من المستند مثل الوقت والمؤلف والمصدر ونوع المستند وخط العمل ومستوى الحساسية;
2. دعم التصفية المسبقة بناءً على المعلومات الوصفية أثناء البحث (مثل النطاق الزمني، القسم، مستوى الصلاحية)، لتقليل النتائج غير ذات الصلة;
3. وضع الأساس للتحكم في الصلاحيات والتدقيق، لتجنب تسريب RAG لمحتويات لا يحق للمستخدم الوصول إليها في الإجابات.

8.1.2 الاسترجاع وإعادة الترتيب: من "استدعاء ما هو ذو صلة" إلى "العثور على أنسب الأدلة"

بعد اكتمال بناء الفهرس، عندما يبدأ المستخدم استعلاماً، ندخل مرحلة الاسترجاع وإعادة الترتيب. المفتاح هنا ليس مجرد "إيجاد بعض المستندات ذات الصلة"، بل السعي قدر الإمكان لإيجاد توليفة من الأدلة ذات صلة وكافية في التغطية وتدعم الاستدلال.

البحث الهجين (Hybrid): تكامل المتجهات + الكلمات المفتاحية يتفوق البحث النقي بالمتجهات في التقاط التشابه الدلالي، لكن بالنسبة للمصطلحات الدقيقة والرموز وحقول الجداول، غالباً ما يكون البحث بالكلمات المفتاحية (مثل BM25) أكثر متانة. لذلك يُعتمد على نطاق واسع في الممارسات الهندسية على البحث الهجين (Hybrid Search):
1. أولاً، إجراء بحث بالمتجهات وبحث بالكلمات المفتاحية على الاستعلام بشكل منفصل، والحصول على مجموعتين من أجزاء المستندات المرشحة;
2. استخدام تسجيل مرجح أو استراتيجية دمج مُتعلَّمة لدمج المرشحين من المسارين;
3. في بعض السيناريوهات، يمكن تعديل أوزان البحث بالمتجهات والكلمات المفتاحية ديناميكياً حسب نوع الاستعلام (أسئلة FAQ مقابل تحديد موقع المواد القانونية).
إعادة الترتيب (Re‑ranking): اختيار أكثر دقة لـ"مجموعة الأدلة" غالباً ما تحتوي نتائج الاسترجاع الأولية على عدد لا بأس به من أجزاء المستندات "ذات الصلة الهامشية" أو "المكررة"، مما يستدعي إعادة الترتيب لتحسين جودة Top‑K النهائية:
1. استخدام Cross‑Encoder لتشفير ثنائي الاتجاه لأزواج "الاستعلام–جزء المستند" وتسجيل الصلة، وهو أكثر دقة مقارنةً بنموذج Embedding ثنائي البرج، لكنه أكثر تكلفة، ومناسب كمرحلة إعادة ترتيب ثانية;
2. عند سماح الأداء، إشراك LLM في إعادة ترتيب خفيفة، ليحدد النموذج أي الأجزاء "مفيدة" حقاً بناءً على معلومات دلالية وسياقية أكثر ثراءً;
3. مراعاة التغطية والتنوع في نفس الوقت، لتجنب تركز جميع أجزاء الاسترجاع في نفس المستند أو نفس الفقرة، مما يؤدي إلى ضيق أفق الإجابة.
تحسين حلقة الاسترجاع–التوليد المغلقة في الممارسات الأكثر تقدماً، لم يعد الاسترجاع والتوليد تدفقاً أحادي الاتجاه، بل يشكلان حلقة مغلقة:
1. استخدام LLM لتحليل "حالة استخدام" نتائج الاسترجاع (أي الأجزاء تم الاستشهاد بها، وأيها يتم تجاهلها دائماً)، للتوجيه العكسي لتحسين استراتيجيات الفهرس والتجزئة;
2. استخدام إشارات "الاستفسار المتابع/التصحيح" من سجلات المحادثات، لوسم وإعادة تدريب عينات فشل الاستدعاء أو الاستدعاء الخاطئ، وتحسين متانة النظام تجاه الاستعلامات الغامضة والأسئلة ذات الذيل الطويل.

8.1.3 التوليد والاستشهاد: الإجابة عن الأسئلة "في إطار قيود الأدلة"

الحلقة الأخيرة هي طبقة التوليد، وهي التي تحدد تجربة المستخدم بشكل مباشر. الهدف هنا ليس ترك النموذج "يتصرف كيفما يشاء"، بل جعله يقدم إجابة واضحة ومحددة وموثقة بالاستشهادات، في إطار قيود الأدلة المسترجعة.

التوليد المُقيَّد بناءً على سياق الاسترجاع في معمارية RAG، لا يتلقى LLM سؤال المستخدم فحسب، بل أيضاً أجزاء متعددة من المستندات المسترجعة بالإضافة إلى تعليمات النظام. عادةً ما يقوم النظام بما يلي:
1. تقييد النموذج من خلال التوجيه (Prompt) بأن "يجيب فقط بناءً على المستندات المُعطاة" و"إذا لم يجد الإجابة في المستندات، يوضح بوضوح أنها مفقودة";
2. تنظيم سياق الاسترجاع بشكل هيكلي (تقسيم، ترقيم، وسم المصادر)، لتسهيل فهم النموذج والاستشهاد بها;
3. التحكم في تنسيق المخرجات (قوائم، جداول، شرح بالنقاط، إلخ)، بما يتوافق مع الأنظمة اللاحقة أو العرض في الواجهة الأمامية.
الاستشهاد وقابلية التفسير (Source Citation) لتسهيل التدقيق والتتبع، خاصةً في المجالات عالية المخاطر مثل القانون والطب والمالية واللوائح الداخلية للمؤسسات، غالباً ما تحتاج الإجابات إلى استشهادات واضحة:
1. وسم مصادر الاستشهاد في المخرجات، مثل "[المستند أ، الفصل 3، القسم 2]" "[المادة 12 من القانون س]";
2. دعم الانتقال بنقرة واحدة إلى موقع النص الأصلي في واجهة المستخدم الأمامية، ليسهل على المستخدم التحقق والقراءة الإضافية;
3. حفظ سجل كامل لمسار "السؤال–نتائج الاسترجاع–أجزاء الاستشهاد–الإجابة النهائية" في الخلفية، لتوفير بيانات للرقابة اللاحقة وتحسين النموذج.
متغيرات RAG المتقدمة: HyDE / ReAct + RAG وغيرها لتحسين الأداء في السيناريوهات الصعبة، تُستخدم عملياً متغيرات RAG أكثر تعقيداً:
1. HyDE: يقوم LLM أولاً بتوليد "مستند إجابة افتراضي" بناءً على السؤال، ثم يستخدم متجه ذلك المستند للبحث في المستندات الحقيقية، مما يحسن جودة الاستدعاء;
2. ReAct + RAG: يعمل LLM بأسلوب "التفكير (Reasoning) + الإجراء (Action)"، فيستدعي أدوات البحث عدة مرات أثناء الاستدلال، وينقح السؤال تدريجياً ويضيف الأدلة، مثل "البحث في المراجع أثناء التفكير";
3. RAG متعدد الجولات: أثناء عملية المحادثة، الاحتفاظ بنتائج الاسترجاع والإجابات السابقة، لتشكيل جلسة معرفية طويلة الأمد واعية بالسياق، بدلاً من مجرد "سؤال واحد وبحث واحد".

8.2 البيانات المنظمة والرسوم البيانية المعرفية (Structured Data & KG)

إذا كان RAG يعالج بشكل أساسي "كيفية البحث في المستندات غير المنظمة واسعة النطاق"، فإن طبقة البيانات المنظمة والرسوم البيانية المعرفية تتجه أكثر نحو "كيفية الاستفادة بأناقة من قواعد البيانات وأنظمة التقارير وقواعد البيانات البيانية في المعرفة المنظمة".

في بيئة المؤسسات، توجد بيانات الأعمال الحيوية حقًا — الطلبات والعملاء والعقود والمخزون وسجلات السلوك — غالبًا في شكل قواعد بيانات علائقية ومستودعات بيانات ومحركات OLAP أو قواعد بيانات بيانية. هذه الأنظمة ناضجة جدًا من حيث قدرات الاستعلام وكفاءة الحوسبة والتدقيق، لكن بالنسبة للموظفين غير التقنيين، لا يزال كتابة SQL / DSL مباشرةً تشكل عائقًا مرتفعًا. Text‑to‑SQL / Text‑to‑DSL و الإجابة عن الأسئلة والاستدلال باستخدام الرسوم البيانية المعرفية تهدف إلى جعل LLM يعمل "كواجهة لغة طبيعية" و"شريك استدلال تعاوني" دون المساس باستقرار هذه الأنظمة.

السيناريوهات
- الأسئلة الذكية في ذكاء الأعمال (BI) والتحليل الذاتي: يطرح الموظفون غير التقنيين أسئلة باللغة الطبيعية (مثل "أرني اتجاه معدل إعادة الشراء للعملاء الجدد في منطقة شرق الصين خلال آخر 3 أشهر")، ويقوم النظام تلقائيًا بإنشاء SQL والاستعلام عن مستودع البيانات، ثم إرجاع النتائج باللغة الطبيعية مع رسوم بيانية توضيحية.
- مساعد تحليل العمليات/المبيعات: يمكن لموظفي العمليات استكشاف البيانات بطريقة حوارية ("لماذا انخفض معدل تحويل هذه الحملة"، "ما القنوات التي ساهمت بأكبر عدد من المستخدمين ذوي القيمة العالية")، مع تحسين الشروط والأبعاد تدريجيًا عبر حوار متعدد الأدوار.
- منصة المعرفة المجالية المركزية: تنظيم الكيانات والمفاهيم والقواعد والحالات في رسم بياني معرفي، لدعم استكشاف العلاقات المرتبطة بكيان معين والتحقق من الامتثال.
- نظام الإجابة والاستدلال بقاعدة البيانات البيانية: في سيناريوهات مثل التحكم في المخاطر ومكافحة غسيل الأموال وتحليل سلسلة التوريد، يتم الإجابة عن أسئلة "سلاسل العلاقات" و"الاستدلال متعدد القفزات" وشرحها من خلال الجمع بين قواعد البيانات البيانية و LLM.
المبدأ جوهر هذه الطبقة هو تحويل LLM من "شخص يعطي إجابات مباشرة" إلى "مساعد يستدعي قواعد البيانات وقواعد البيانات البيانية":
- في الإجابة عن الأسئلة باستخدام قواعد البيانات، يحتاج النموذج إلى فهم نية المستخدم باللغة الطبيعية، والجمع بين مخطط قاعدة البيانات (هيكل الجداول، معاني الحقول، القيود، إلخ)، وإنشاء SQL / GraphQL / DSL داخلي صحيح، ثم شرح النتائج المنفذة وتصورها.
- في سيناريوهات الرسم البياني المعرفي، يحتاج النظام أولاً إلى استخراج الكيانات والعلاقات من المستندات والسجلات، وبناء رسم بياني منظم؛ ثم أثناء الإجابة، يتولى LLM ترجمة أسئلة اللغة الطبيعية إلى استعلامات بيانية (مثل Cypher)، وإجراء استدلال متعدد القفزات وشرح بناءً على نتائج الاستعلام.
- على عكس RAG، ينصب التركيز هنا على الوصول الدقيق إلى البيانات المنظمة وهياكل الرسوم البيانية، مع ضمان الدقة الدلالية وصحة القواعد من جهة، والتحكم في هجمات الاستعلام الجانبي وكشف البيانات الحساسة والاستعلامات عالية التكلفة من جهة أخرى.
النماذج الحل النموذجي يكون عادةً بهندسة متعددة الوحدات "LLM + مكونات متخصصة":
- نماذج Text‑to‑SQL: نماذج مدربة مسبقًا أو مضبوطة دقيقًا على مجموعة كبيرة من نصوص SQL (مثل PICARD و DIN‑SQL وغيرها)، تركز على صحة القواعد والمحاذاة مع المخطط، وأحيانًا تقترن بتغذية راجعة تنفيذية للتصحيح الذاتي.
- خط أنابيب استخراج المعلومات وبناء الرسم البياني: من خلال وحدات التعرف على الكيانات المسماة (NER) واستخراج العلاقات واستخراج الأحداث، يتم بناء وتحديث الرسم البياني المعرفي من النصوص والسجلات؛ يمكن لـ LLM المشاركة في الحالات الصعبة والحكم المساعد على العلاقات ذات الحدود الغامضة.
- الإجابة المشتركة بين LLM وقاعدة البيانات البيانية: يتولى LLM تحليل الأسئلة وإنشاء الاستعلامات وشرح النتائج، بينما تتولى قاعدة البيانات البيانية (مثل Neo4j وغيرها) التنفيذ الفعال والبحث في العلاقات متعددة القفزات، ويتواصلان من خلال بروتوكول استدعاء الأدوات أو DSL وسيط.

8.2.1 ممارسة الإجابة عن الأسئلة باستخدام قواعد البيانات (Text‑to‑SQL / DSL)

هدف الإجابة عن الأسئلة باستخدام قواعد البيانات هو تمكين الموظفين غير التقنيين من "سؤال البيانات باللغة الطبيعية"، بينما يقوم النظام تلقائيًا بإنشاء عبارات الاستعلام وتنفيذها وشرحها. لإنجاز هذا الأمر بشكل جيد، يكمن المفتاح في الموازنة بين الدقة الدلالية وصحة القواعد وسلامة التنفيذ.

التحويل من اللغة الطبيعية إلى SQL / DSL في المسار الأساسي، يحتاج النظام إلى:
1. تحليل نية المستخدم: تحديد كائنات الاستعلام (مثل "العملاء الجدد في منطقة شرق الصين")، وشروط التصفية (الوقت، المنطقة، القناة)، وطرق التجميع (الإجمالي، المتوسط، المقارنة السنوية/ربع السنوية) ومتطلبات العرض (الاتجاهات، التصنيفات، Top‑N)؛
2. الجمع مع مخطط قاعدة البيانات: فهم أي الجداول والحقول يمكنها التعبير عن المفاهيم المذكورة أعلاه، وكيفية إجراء الربط (join) والتجميع (group by) والترتيب؛
3. إنشاء SQL / GraphQL / DSL داخلي قابل للتنفيذ، وضمان الصحة الهيكلية من خلال مدقق قواعدي أو نماذج Text2SQL المتخصصة (PICARD و DIN‑SQL وغيرها).
الشرح باللغة الطبيعية والتصور لنتائج التنفيذ بعد تنفيذ الاستعلام، يحتاج النظام أيضًا إلى تحويل "مجموعة النتائج الجافة" إلى "رؤى قابلة للفهم":
1. شرح النتائج البسيطة نصيًا، مثل "اتجاه معدل إعادة الشراء للعملاء الجدد في منطقة شرق الصين خلال آخر 3 أشهر في ارتفاع عام، من 15% إلى 21%"؛
2. اختيار أشكال التصور المناسبة للنتائج المعقدة (مخطط خطي، مخطط أعمدة، مخطط دائري، مخطط توزيع، إلخ)، مع تقديم تحليل موجز؛
3. دعم المستخدم في متابعة الأسئلة بناءً على النتائج الحالية (مثل "من أي القنوات جاء هذا النمو بشكل أساسي؟")، وإنشاء استعلامات جديدة تلقائيًا بناءً على SQL التاريخي والسياق.
الأمان والتحكم: منع "الاستعلام العشوائي" و"تجاوز الصلاحيات" نظرًا للمرونة العالية لـ SQL المنشأ بواسطة LLM، يجب وجود طبقة من آليات الأمان والحوكمة:
1. تقييد صارم لقواعد البيانات والجداول والحقول والنطاقات الزمنية القابلة للاستعلام بناءً على دور المستخدم وصلاحياته؛
2. تجهيز قواعد مراجعة ثابتة/ديناميكية لـ SQL المنشأ بواسطة النموذج، لتصفية العمليات الخطرة (مثل المسح واسع النطاق، والـ join عالي التكلفة، والاستعلام عبر المستأجرين، إلخ)؛
3. تسجيل كامل لمسار "سؤال اللغة الطبيعية – SQL المنشأ – نتيجة التنفيذ – الإجابة النهائية" لأغراض التدقيق وتحليل الشذوذ.

8.2.2 بناء الرسم البياني المعرفي والاستعلام

يحاول الرسم البياني المعرفي تنظيم المعرفة المبعثرة في النصوص والجداول والسجلات في شبكة منظمة من "الكيانات – العلاقات – الخصائص – الأحداث"، مما يدعم بشكل أفضل استكشاف العلاقات والاستدلال متعدد القفزات والإجابة عن الأسئلة المعقدة. في هذا الاتجاه، يشكل LLM تكاملاً جيدًا مع استخراج المعلومات التقليدي وقواعد البيانات البيانية.

استخراج الكيانات والعلاقات من المستندات لبناء الرسم البياني عادةً ما يعتمد بناء الرسم البياني المعرفي على خط أنابيب متعدد المراحل:
1. استخراج المعلومات: استخدام نماذج NER واستخراج العلاقات واستخراج الأحداث لتحديد الكيانات من النصوص (الأشخاص، المؤسسات، المنتجات، أسماء الأماكن، المفاهيم، إلخ)، والعلاقات بينها (الانتماء، التعاون، الاعتماد، السببية) والأحداث الرئيسية (المعاملات، المخاطر، التغييرات)؛
2. التوحيد والمحاذاة: توحيد التعبيرات المختلفة لنفس الكيان (الاختصارات، الأسماء المستعارة، اختلافات التهجئة) ومحاذاتها إلى معرف موحد؛
3. تحديث الرسم البياني وإدارة الإصدارات: دعم التحديث التدريجي وحل التعارضات وتصحيح الأخطاء، لضمان جودة واتساق الرسم البياني في التطور طويل المدى. يمكن لـ LLM المساعدة في إزالة الغموض وتنقيح أنواع العلاقات واستقراء القواعد في هذه المراحل.
LLM + قاعدة البيانات البيانية (Neo4j وغيرها) للاستعلام والاستدلال عند اكتمال بناء الرسم البياني، تتولى قاعدة البيانات البيانية التخزين والاسترجاع بكفاءة، بينما يلعب LLM دور "مدخل اللغة الطبيعية + متحكم الاستدلال":
1. تحليل السؤال وإنشاء استعلام بياني: ترجمة أسئلة اللغة الطبيعية إلى عبارات استعلام بيانية (مثل Cypher في Neo4j)، بما في ذلك تحديد كيان البداية ونوع العلاقة وطول المسار وشروط التصفية؛
2. الاستدلال متعدد القفزات: من خلال المسارات والرسوم البيانية الفرعية المحلية الناتجة عن الاستعلام البياني، يقوم LLM بالشرح والاستقراء، مثل "العميل A مرتبط بشكل غير مباشر بالكيان عالي المخاطر B من خلال ثلاث شركات وسيطة"؛
3. تصور النتائج وقابلية التفسير: عرض نتائج الاستعلام البياني في شكل شبكة مرئية، مع تقديم LLM لشرح شفهي يساعد المستخدمين على فهم هياكل العلاقات المعقدة.
منصة المعرفة المجالية المركزية والخدمة الموحدة في التطبيقات المؤسسية أو على مستوى القطاع الأوسع، غالبًا ما يعمل الرسم البياني المعرفي "كمنصة معرفة مجالية مركزية":
1. توفير منظور موحد للكيانات والعلاقات لأنظمة الأعمال العليا (التحكم في المخاطر، الامتثال، عرض العميل 360، تحليل سلسلة التوريد، إلخ)؛
2. تشكيل طبقة خدمة معرفية موحدة مع RAG والإجابة عن الأسئلة باستخدام قواعد البيانات، حيث يحدد منطق تنسيق LLM الموحد ما إذا كان السؤال الحالي يجب أن يصل إلى فهرس المستندات أم قاعدة البيانات العلائقية أم قاعدة البيانات البيانية؛
3. في ظل متطلبات الأمان والامتثال، تقليل مخاطر تسرب المعلومات الحساسة بشكل أكبر من خلال سياسات التحكم في الوصول وإخفاء البيانات على مستوى الرسم البياني.

الهدف المشترك لهذه الطبقة هو ترقية "النموذج الذي يتحدث" إلى "نموذج يتحدث ومتصل فعليًا ببيانات المؤسسة الحقيقية وأصول المعرفة". عندما يتم دمج RAG و Text‑to‑SQL والرسم البياني المعرفي مع البنية التحتية التقليدية للبيانات بشكل فعال، يمكن لأنظمة الذكاء الاصطناعي أن تحافظ على الذكاء والمرونة في بيئات الأعمال المعقدة، مع امتلاك قابلية التحكم والتفسير والقدرة على التطور طويل المدى.

9. الأمان والمحاذاة والتقييم (Safety / Alignment / Evaluation)

في الفصول السابقة، ركزنا على "ما يمكن للنموذج فعله": يمكنه رؤية الصور، كتابة الكود، والتحدث مع المستخدمين. لكن في أنظمة النماذج الكبيرة الحقيقية، مجرد "امتلاك القدرة" ليس كافيًا: كيف نثبت أن هذه القدرات مستقرة وموثوقة وقابلة للتحكم؟ كيف نضمن توافق المخرجات مع القيم والمتطلبات التنظيمية؟ وكيف نراقب ونكرر ونراجع الأداء بشكل مستمر خلال دورة التشغيل الطويلة؟ تركز هذه الطبقة على: تقييم القدرات واختبار المعايير المرجعية، محاذاة القيم والتدريب، أمان المحتوى والامتثال، بالإضافة إلى المتانة والتحكم في الهلوسة، والتي تشكل معًا "طبقة البنية التحتية" لنموذج كبير قابل للتشغيل المستدام.

من منظور المنتج، تمتد هذه القدرات عبر دورة حياة النموذج بأكملها: يحتاج النموذج في مرحلة المختبر إلى معايير مرجعية قياسية (Benchmark) وتقييم متخصص؛ وقبل الإطلاق يجب أن يخضع لتدريب المحاذاة ومراجعة الأمان؛ وبعد الإطلاق يعتمد على بوابة أمان المحتوى وتدقيق السجلات واختبار A/B للمراقبة المستمرة؛ وعند مواجهة سيناريوهات جديدة وتهديدات جديدة، يجب العودة إلى حلقات التقييم والمحاذاة لإعادة التدريب والتحقق. فيما يلي سنتناول أربعة اتجاهات: تقييم القدرات واختبار المعايير المرجعية، محاذاة القيم والتدريب، أمان المحتوى والامتثال، والمتانة والتحكم في الهلوسة.

9.1 تقييم القدرات والاختبارات المعيارية (Capability Evaluation & Benchmarks)

في عملية تطوير النماذج اللغوية الكبيرة ونشرها، يُعد تقييم القدرات والاختبارات المعيارية الحلقة الأساسية لتحويل "قدرة النموذج" إلى "إشارات قابلة للملاحظة": إذ يجب الإجابة عن سؤالَي "ما المستوى العام لهذا النموذج؟" و"كيف يؤدي في مجال تخصصي معين أو سيناريو عمل حقيقي؟". من جهة، نستخدم مجموعات معيارية موحدة وأنظمة تقييم تلقائي لقياس أداء النموذج في أبعاد عامة مثل الفهم والتوليد اللغوي، والاستدلال والرياضيات، والمعرفة والواقعية؛ ومن جهة أخرى، نحتاج إلى بناء تقييمات متخصصة لمجالات مثل الطب، والقانون، والمالية، والتعليم، والتحقق منها وتصحيحها باستمرار من خلال محادثات المستخدمين الحقيقية، واختبارات AB، ومؤشرات الأعمال (معدل نجاح المهام، وCSAT، ومعدل إغلاق التذاكر، إلخ). بشكل عام، تتبلور هذه الطبقة في النهاية إلى منصة داخلية لتقييم القدرات و**"وثيقة وصف القدرات"** خارجية، وتوفر أساسًا موحدًا لاتخاذ قرارات اختيار النماذج عبر الإصدارات المتعددة والمستأجرين المتعددين والسيناريوهات المتعددة. فيما يلي تفصيل من ثلاثة زوايا: السيناريوهات، والمبادئ، والنماذج.

السيناريوهات
- سيناريوهات تقييم القدرات العامة: عند إصدار نموذج أساسي أو تحديث رئيسي، يلزم تقييم أدائه بشكل منهجي في مهام الفهم والتوليد اللغوي مثل الفهم القرائي، والتلخيص، والترجمة، وجودة المحادثة، وكذلك قدراته في مهام الاستدلال والرياضيات مثل الحساب، والاستدلال متعدد الخطوات، والأسئلة البرمجية/المنطقية، إلى جانب قياس مستوى المعرفة والواقعية من خلال الإجابة عن الأسئلة الواقعية، والأسئلة مفتوحة المجال، ومهام تغطية المعرفة، وذلك للحكم على "ما إذا كان النموذج الجديد يمثل تحسنًا شاملًا".
- سيناريوهات تقييم المجالات التخصصية: بالنسبة للمجالات التخصصية مثل الطب، والقانون، والمالية، والتعليم، يلزم تصميم أسئلة متخصصة ومحاكاة لاتخاذ القرار، مثل الأسئلة الطبية ونصائح الفرز، وفهم النصوص القانونية وتصنيف القضايا، وتحليل الاستثمار والتمويل وتقييم المخاطر، والإجابة عن الأسئلة التعليمية والإرشاد الأكاديمي، واختبار اتساق النموذج واستقراره في بيئات متعددة اللغات والثقافات، للتأكد من قدرته على "قول الصواب والمناسب" في البيئات عالية المخاطر.
- سيناريوهات تقييم المؤشرات الواقعية والتجارية: في مرحلة إطلاق المنتج والتشغيل المستمر، يتم ربط أداء النموذج بمؤشرات الأعمال مثل معدل نجاح المهام (Task Success Rate)، ورضا المستخدم (CSAT)، ومعدل إغلاق التذاكر، من خلال إعادة تشغيل سجلات محادثات المستخدمين، واختبارات AB المباشرة، وغيرها؛ وفي هذه الحالة يكون موضوع التقييم فعليًا هو النظام المتكامل "النموذج + الاستراتيجية + سير العمل في المنتج"، ويُستخدم لتوجيه قرارات التراجع عن الإصدارات، وضبط الاستراتيجيات، وإطلاق الميزات الجديدة تدريجيًا.
المبادئ يمكن النظر إلى نظام تقييم القدرات على أنه "نظام قياس هندسي" متعدد الطبقات، وتشمل مبادئه الأساسية:
- المجموعات المعيارية القياسية: مقياس موحد وتجارب قابلة للتكرار
  - اللغة / الاستدلال: استخدام مهام شاملة مثل MMLU وBIG-Bench، إلى جانب مسائل رياضية ومنطقية مثل GSM8K وMATH، لبناء مقياس موحد للفهم اللغوي، وإتقان المعرفة، والاستدلال متعدد الخطوات.
  - البرمجة: من خلال HumanEval وMBPP وبنك أسئلة Codeforces، لقياس قدرات توليد الأكواد، وإصلاح البرامج، وحل المسائل البرمجية.
  - متعدد الوسائط: استخدام معايير مثل VQA وMMBench وScienceQA وMathVista لاختبار الفهم البصري-النصي، والأسئلة البصرية، والاستدلال الرياضي في الصور. تؤكد هذه المعايير على التوحيد القياسي، وقابلية التكرار، وقابلية المقارنة، مما يسهل المقارنة الأفقية بين النماذج والمؤسسات والإفصاح الخارجي.
- التقييم التلقائي: التوسع والانحدار المستمر
  - LLM-as-a-Judge: استخدام نموذج أقوى أو مدرب خصيصًا لتسجيل/ترتيب الإجابات، وتقييم الصحة، والاكتمال، والأسلوب، والسلامة، مما يحقق تقييمًا ذاتيًا تلقائيًا واسع النطاق.
  - المقاييس المبنية على القواعد: مثل BLEU / ROUGE / BERTScore لقياس تشابه النصوص، وPass@k لقياس معدل النجاح في المسائل البرمجية، مما يتيح مقارنة سريعة للفروق بين الإصدارات المختلفة على مجموعات بيانات ثابتة. المفتاح في التقييم التلقائي هو الاستقرار والاتساق، فحتى لو لم يكن مثاليًا، يكفي أن يكون "الانحراف ثابتًا" ليعكس بشكل موثوق التغيرات النسبية للنموذج في التكامل المستمر (CI).
- التقييم البشري: المواءمة مع الإدراك البشري وأهداف الأعمال
  - المقارنة الثنائية (Pairwise) والتقييم بالدرجات: يقوم المقيّمون باختيار تفضيلي بين إجابات النموذجين A وB (Pairwise) أو تقييم متعدد الأبعاد (مفيد/صادق/غير ضار helpful / honest / harmless)، وهو مصدر بيانات مهم لتدريب نماذج المكافأة في RLHF / RLAIF.
  - تجارب المستخدمين المباشرة: إجراء اختبارات AB في سيناريوهات النشر مثل مساعدي المحادثة، والبحث/التوصية، لمراقبة تأثير النماذج/الاستراتيجيات المختلفة مباشرة على مؤشرات مثل رضا المستخدم ومعدل التحويل. يُستخدم التقييم البشري لمعايرة التقييم التلقائي، وهو أيضًا مرجع مهم عند "شرح سلوك النموذج" للخارج.
النماذج في الممارسة الهندسية، يتبلور تقييم القدرات إلى "منصة + سير عمل + نظام مؤشرات" متكامل نسبيًا:
- منصة تقييم القدرات الداخلية وخط أنابيب CI: إدارة موحدة لمختلف المجموعات المعيارية، ونصوص التقييم، وإعدادات LLM-as-a-Judge، وأدوات التقييم البشري، مع دعم تشغيل انحدار المعايير (Benchmark) بنقرة واحدة بعد تقديم نموذج أو استراتيجية جديدة؛ وتلخيص تغيرات المؤشرات عبر المهام والأبعاد المختلفة تلقائيًا، مع توفير لوحة معلومات (Dashboard) مرئية وتنبيهات الانحدار.
- "وثيقة وصف القدرات" الخارجية والصورة النمطية للنموذج: تنظيم نتائج التقييم الداخلي في "وثيقة وصف قدرات" قابلة للاستهلاك الخارجي، تشمل نتائج المعايير التمثيلية، وسيناريوهات الاستخدام الموصى بها (مثل المحادثة العامة، والمساعدة البرمجية، والفهم متعدد الوسائط، إلخ)، والقيود المعروفة وسيناريوهات عدم الملاءمة، لمساعدة العملاء على تكوين توقعات صحيحة، وتوفير أساس للامتثال وتحديد المسؤوليات.
- أداة موحدة لتقييم واختيار النماذج متعددة المستأجرين/الإصدارات: في إطار نفس نظام التقييم، مقارنة موحدة للنماذج ذات الأحجام المختلفة، أو استراتيجيات المواءمة المختلفة، أو البنى المختلفة، مع دعم تكوين الأوزان وفقًا للصناعة، والمنطقة، ومتطلبات SLA، وإنشاء تقييم شامل "الأداء–التكلفة–زمن الاستجابة" تلقائيًا، لمساعدة فرق المنتج والأعمال في اختيار النماذج واتخاذ قرارات الإطلاق التدريجي.

9.1.1 تقييم القدرات العامة والتخصصية: من المعايير (Benchmark) إلى التحقق السيناريوهي

يُشكل تقييم القدرات العامة والتخصصية "الطبقة الأساسية الأولى" لنظام التقييم بأكمله، وينصب التركيز فيه على: قياس القدرات الأساسية للنموذج أولاً بمقياس موحد، ثم التحقق من قابليته للاستخدام ومخاطره في السيناريوهات التخصصية.

في تقييم القدرات العامة، تُقسم المهام عادة إلى ثلاثة أبعاد: الفهم والتوليد اللغوي، والاستدلال والرياضيات، والمعرفة والواقعية؛ الأول يفحص من خلال مهام الفهم القرائي، والتلخيص، والترجمة، وجودة المحادثة ما إذا كان النموذج قادرًا على فهم السياق بدقة، والتحكم في الأسلوب، وإنتاج نصوص متماسكة؛ والثاني يقيم قدرة النموذج في سلاسل الاستدلال المعقدة والبنى البرمجية من خلال الحساب، والاستدلال متعدد الخطوات، والأسئلة البرمجية/المنطقية؛ والثالث يقيس تغطية المعرفة ومستوى الواقعية من خلال الأسئلة الواقعية والأسئلة مفتوحة المجال. أما في تقييم المجالات التخصصية، فيلزم دعوة خبراء الصناعة للمشاركة في تصميم البيانات: مثل تضمين سياق التاريخ الطبي ونتائج الفحوصات في الأسئلة الطبية، ومطالبة النموذج بتقديم تحذيرات المخاطر وحدود النصائح الطبية في إجاباته؛ وفي المهام القانونية، تصميم استرجاع النصوص القانونية، ومقارنة القضايا، وتحليل الانطباق القانوني؛ وفي المالية والتعليم، التركيز على الإفصاح عن الامتثال والتوجيه التعليمي. غالبًا ما تجمع هذه الطبقة من التقييم بين المجموعات المعيارية القياسية ومجموعات البيانات المبنية ذاتيًا، سعيًا لتحقيق القابلية للمقارنة وملاءمة الأعمال في آنٍ واحد.

9.1.2 التقييم التلقائي وتقنية LLM-as-a-Judge: جعل التقييم قابلاً للتوسع

عندما يزداد حجم المهام وعدد إصدارات النماذج بسرعة، يصبح الاعتماد على التقييم البشري وحده غير كافٍ لتلبية احتياجات التقييم، وهنا تبرز الحاجة إلى نظام تقييم تلقائي لتحقيق التوسع والانحدار عالي التردد.

يتمثل أحد الأساليب في استخدام المقاييس التقليدية المبنية على القواعد: في مهام الترجمة والتلخيص، تُستخدم BLEU / ROUGE / BERTScore للمقارنة مع الإجابات المرجعية، وفي المهام البرمجية يُستخدم Pass@k لاختبار ما إذا كانت هناك عينة واحدة على الأقل تجتاز اختبار الوحدة من بين عدة عينات مولدة. هذه المؤشرات سهلة التنفيذ وقابلة للأتمتة بدرجة عالية، لكنها غير حساسة لتنوع الإجابات وتفاصيل الأسلوب. أما الأسلوب الآخر الأكثر تمثيلاً فهو LLM-as-a-Judge: حيث يُستخدم نموذج أقوى أو مدرب خصيصًا "كحكم تقييم"، ويقوم بتقييم مخرجات النموذج قيد الاختبار بأبعاد متعددة أو ترتيب ثنائي (Pairwise) وفقًا لمعيار تقييم (Rubric) محدد مسبقًا. يتيح لنا هذا إجراء تقييم تلقائي فعال حتى في مهام الأسئلة المفتوحة والمحادثات التي لا تحتوي على إجابات قياسية وتتميز بتنوع الإجابات. في الممارسة الهندسية، تحتاج معايير التقييم والتوجيهات (Prompt) الخاصة بـ LLM-as-a-Judge إلى معايرة وتكرار من خلال بيانات التقييم البشري لضمان اتساقها مع تقييمات البشر.

9.1.3 التقييم البشري ومؤشرات الأعمال: إغلاق الحلقة نحو تجربة المستخدم الحقيقية

مهما كانت المؤشرات غير المباشرة (offline) شاملة، فهي لا تستطيع سوى تقريب تجربة المستخدم الحقيقية. لإغلاق حلقة تقييم القدرات نحو الأعمال، يلزم إدخال وسيلتين هما التقييم البشري والتجارب المباشرة.

على صعيد التقييم البشري، الشائع هو المقارنة الثنائية (Pairwise): حيث يقوم المقيّمون - دون معرفة هوية النموذج - باختيار تفضيلي أو تقييم لإجابتي A وB بناءً على أبعاد مثل helpful / honest / harmless، مما ينتج بيانات تفضيل عالية الجودة، تُستخدم من جهة للتقييم المباشر، ومن جهة أخرى لتوفير بيانات لتدريب نماذج المكافأة في RLHF / RLAIF. أما على صعيد الأعمال، فمن خلال اختبارات AB المباشرة، تُقارن تأثيرات النماذج المختلفة، والتوجيهات (Prompt)، وإصدارات تكوين الاستراتيجيات على المؤشرات الرئيسية مثل معدل نجاح المهام، ورضا المستخدم (CSAT)، ومعدل إغلاق التذاكر، مع دعم ذلك بإعادة تشغيل سجلات محادثات المستخدمين والتدقيق البشري بالعينة، لمراقبة الأداء الحقيقي للنموذج بعد الإطلاق بشكل مستمر. وتُوجه مخرجات هذه الطبقة من التقييم بدورها الاتجاهات الرئيسية وتعديلات الأوزان في منصة تقييم القدرات، مشكلةً بذلك حلقة مغلقة: "المؤشرات غير المباشرة — التقييم البشري — المؤشرات المباشرة".

9.2 محاذاة القيم والتدريب (Value Alignment & Training)

بعد امتلاك قدرات أساسية قوية، ولكي يصبح النموذج الكبير منتجًا "آمنًا وموثوقًا وقابلًا للتحكم"، لا بد أن يمر بعملية محاذاة القيم والتدريب. لم تعد هذه الطبقة تهتم بما إذا كان النموذج "يستطيع الإجابة" أم لا، بل تهتم بـ "ما إذا كانت الإجابة مفيدة وصادقة وغير ضارة" وكذلك "كيف ينبغي أن يتحدث في الأدوار والصناعات المختلفة". من منظور هندسي، تتكون عملية المحاذاة تقريبًا من ثلاث خطوات: أولاً، من خلال الوثائق والمعايير يتم تحديد تعريف أهداف المحاذاة (What to Align) بوضوح، وتفكيك المفيد (Helpful) والصادق (Honest) وغير الضار (Harmless) إلى معايير قابلة للتعليق والتدريب؛ ثانيًا، بناء بيانات تعليمات وبيانات أمان واسعة التغطية، تشمل المهام العادية والحالات الرمادية والإجابات غير المناسبة؛ وأخيرًا، من خلال SFT و RLHF / RLAIF ونمذجة استراتيجيات الرفض/إعادة التوجيه وغيرها من الأساليب، يتم "كتابة" هذه التفضيلات والقواعد في سلوك النموذج، مدعومة بإدارة الحوار upstream ومحرك السياسات، لتحقيق محاذاة أمان شاملة. فيما يلي نشرح من زوايا السيناريو والمبدأ والنموذج الثلاث.

السيناريوهات
- سيناريو المساعد العام للمستخدم النهائي (C-end): مساعدات الدردشة واسترجاع المعلومات الموجهة لعامة المستخدمين، تحتاج إلى الحفاظ على "الود والمساعدة وعدم تجاوز الحدود" عبر مجموعة واسعة من المواضيع: يجب أن تكون الإجابات احترافية ومركزة على المهمة، مع الاعتراف بالقيود بصراحة عند عدم اليقين، ورفض أو توجيه الطلبات غير المناسبة بشكل ليّن.
- سيناريو المساعد الصناعي المتخصص: في مجالات مثل الطب والقانون والمالية والتعليم، بالإضافة إلى الأمان الأساسي، يجب إضافة معايير صناعية: مثلًا يجب على المساعد الطبي التأكيد مرارًا على "طبيعة غير تشخيصية + تحذير من المخاطر + التوصية بزيارة الطبيب"، ويجب على المساعد القانوني تجنب تقديم نصائح للتحايل على القانون، ويجب على المساعد المالي الامتثال لمتطلبات الإفصاح عن الامتثال للاستثمار، ويجب على المساعد التعليمي مراعاة حماية القُصّر والمحتوى المناسب للعمر.
- سيناريو طبقة المحاذاة القابلة للتكوين للأعمال (B-end): غالبًا ما ترغب الشركات في تضمين متطلبات صناعتها ونبرة علامتها التجارية وسياساتها الداخلية فوق خط الأساس العام للأمان، لذا تحتاج إلى طبقة محاذاة قابلة للتكوين، تتيح للعملاء تكوين عتبات الأمان والفئات الحساسة وأسلوب الحديث بأنفسهم، دون الحاجة إلى إعادة تدريب النموذج الكبير الأساسي.
المبادئ يمكن فهم محاذاة القيم على أنها "تقييد فضاء سلوك النموذج بقيم البشر والمنظمات"، وتشمل مبادئها الأساسية:
- تعريف أهداف المحاذاة (What to Align)
  - مفيد (Helpful): يجب أن تكون الإجابات عالية الجودة واحترافية وواضحة الهيكل ومركزة على هدف المهمة، دون تشتت مفرط أو دردشة جانبية.
  - صادق (Honest): تجنب الاختلاق قدر الإمكان، والاعتراف بعدم اليقين بنشاط عند نقص المعرفة أو عدم وضوح الفهم، وتقديم نطاق تقديري أو اقتراح قنوات للتحقق.
  - غير ضار (Harmless): الامتثال للقانون وسياسات المنصة، وتجنب توليد محتوى يحض على الكراهية أو التمييز أو تشجيع إيذاء النفس أو إرشادات الجرائم، واحترام كرامة المستخدم وحدوده. تُكتب هذه الأهداف في أدلة التعليق ووثائق السياسات، وتصبح معيارًا موحدًا لبناء البيانات اللاحقة ونمذجة المكافآت والتقييم.
- بناء بيانات تدريب المحاذاة
  - بيانات التعليمات (Instruction): تصميم تعليمات مهام وإجابات مثالية واسعة التغطية، تشمل سيناريوهات متعددة مثل الأسئلة والأجوبة والكتابة والتلخيص والبرمجة والتخطيط، لتعليم النموذج السلوك الأمثل في "الطلبات العادية".
  - بيانات الأمان (Safety): بناء عينات مقارنة "إجابة جيدة مقابل إجابة غير مناسبة"، مع التركيز بشكل خاص على المناطق الرمادية (gray zone)، مثل المعلومات العلمية مقابل الخطوات التنفيذية، والدعم العاطفي مقابل تشجيع إيذاء النفس، والنقاش القانوني مقابل التحريض على الكراهية، لتزويد النموذج بأمثلة حدودية دقيقة.
- أساليب تدريب المحاذاة
  - SFT (Supervised Fine-Tuning): الضبط الدقيق المُوجَّه على بيانات حوار/تعليمات عالية الجودة، وهو الخطوة الأولى لتشكيل السلوك الأساسي والنبرة الأساسية للنموذج.
  - RLHF / RLAIF: بناء بيانات تفضيلات من خلال تقييم البشر أو النماذج، وتدريب نموذج مكافآت، ثم إجراء تحسين السياسات، لجعل النموذج يميل أثناء التوليد إلى الإجابات "المُفضَّلة" (الأكثر فائدة وأمانًا وصدقًا).
  - نمذجة استراتيجيات الرفض/إعادة التوجيه: بالنسبة للطلبات عالية المخاطر أو غير المناسبة، تدريب النموذج ليس فقط على الرفض، بل أيضًا على تقديم تفسير معقول وتوجيه المستخدم إلى بدائل آمنة (مثل توفير موارد المساعدة، وتشجيع استشارة المتخصصين، إلخ).
النماذج في تصميم النظام، تتجلى محاذاة القيم عادةً كمزيج من "تدريب المحاذاة الأساسي + حواجز السياسات العليا":
- نموذج المحاذاة SFT + RLHF / RLAIF: مرحلة SFT تجعل النموذج يتعلم الأنماط الأساسية للإجابات المثالية؛ ومرحلة RLHF / RLAIF "تشدّد" السلوك أكثر من خلال تعلم التفضيلات، مما يجعله أقرب إلى تفضيلات البشر ومعايير الأمان. في بُعد الأمان، يمكن بناء رأس مكافآت أو مصنف خاص بالضرر، لاستخدامه في فرض عقوبات أثناء تحسين السياسات.
- Constitutional AI / Policy-based Alignment: من خلال كتابة مجموعة من "الدستور (Constitution)" أو وثيقة السياسات أولاً، ثم جعل النموذج يقوم بالنقد الذاتي وإعادة الكتابة وفقًا لهذه القواعد، مما يولد كمية كبيرة من "بيانات التصحيح ذاتية الإشراف"، لتعزيز استيعاب النموذج للقواعد مع تقليل التكلفة البشرية.
- إدارة الحوار بالتنسيق مع اكتشاف النية: في خط الإنتاج، يتم نقل جزء من منطق الأمان/المحاذاة إلى طبقة إدارة الحوار، من خلال التعرف على النية وملء الفتحات وتوجيه المهام لتحديد ما إذا كان الطلب سيُمرر إلى النموذج الكبير، أو يحتاج إلى تصفية أمان إضافية أو ردود نمطية. بهذه الطريقة يتشكل تأمين مزدوج من "محاذاة النموذج + حواجز السياسات".
- منصة المحاذاة الداخلية وتكوين الأدوار: بناء منصة محاذاة داخلية، توفر أدوات التعليق/التقييم وإدارة إصدارات السياسات وخطوط التدريب؛ مع دعم تكوين أهداف محاذاة وأنماط حديث متمايزة لأدوار مختلفة (خدمة العملاء، الاستشارات الطبية، الإرشاد التعليمي، إلخ)، مما يجعل نفس النموذج الأساسي يُظهر شخصيات مختلفة تمامًا لكنها متسقة وقابلة للتحكم في منتجات مختلفة.

9.2.1 أهداف المحاذاة وبيانات التدريب: تحويل القيم إلى إشارات قابلة للتعلم

الخطوة الأولى في محاذاة القيم هي ترجمة "القيم المجردة" إلى إشارات يمكن للنموذج تعلمها، وهذا لا ينفصل عن تعريف أهداف المحاذاة وبناء بيانات التدريب.

على مستوى أهداف المحاذاة، عادةً ما يُخرج الفريق مجموعة من وثائق معايير السلوك التفصيلية، لتفكيك Helpful / Honest / Harmless إلى بنود محددة، مثل: حظر تقديم الخطوات التفصيلية لأنواع معينة من العمليات عالية المخاطر، وضرورة إرفاق إخلاء مسؤولية وتحذير من المخاطر للنصائح الطبية/القانونية، والحفاظ على الحياد وتقديم وجهات نظر متعددة عند التعامل مع المواضيع المثيرة للجدل. ثم، في مرحلة بيانات التعليمات، تُبنى مهام متنوعة وإجابات مثالية حول هذه المؤشرات، تغطي سيناريوهات الدردشة والكتابة والبرمجة والأسئلة والأجوبة، مع دمج خلفيات متعددة اللغات والثقافات؛ وفي مرحلة بيانات الأمان، تُبنى أمثلة مقارنة "إجابة جيدة / سيئة" للمحتوى الضار والمجالات عالية المخاطر والمناطق الرمادية، لتوفير مواد تدريبية لتعلم التفضيلات اللاحق والمصنفات الأمنية. بهذه الطريقة، تُترجم أهداف القيم إلى توزيع بيانات فعلي، وتصبح إشارات يمكن للنموذج إدراكها مباشرة أثناء التدريب.

9.2.2 SFT و RLHF / RLAIF واستراتيجيات الرفض: تشكيل سلوك النموذج

بعد تحديد أهداف المحاذاة والبيانات، الخطوة التالية هي كتابة هذه الأهداف في سلوك النموذج من خلال عملية تدريب متعددة المراحل.

في مرحلة SFT، يخضع النموذج لضبط دقيق مُوجَّه على بيانات عروض بشرية عالية الجودة، وهذا يشبه "التعلم بأسلوب الكتاب المدرسي": فهو يحدد نبرة النموذج وهيكله ونماذج حل المشكلات القياسية في الغالبية العظمى من الطلبات العادية. بعد ذلك، من خلال RLHF / RLAIF يتم تحسين التفضيلات: أولاً باستخدام التعليقات البشرية أو تسميات التفضيلات التي ينتجها LLM أكبر لتدريب نموذج المكافآت، ثم استخدام خوارزميات تحسين السياسات (مثل PPO وغيرها) لضبط النموذج بحيث يميل في التوليد إلى الحصول على مكافآت أعلى. بهذه الطريقة، لا "يعرف النموذج كيف تبدو الإجابة الصحيحة" فحسب، بل يعرف أيضًا "أي نوع من الإجابات أكثر توافقًا مع تفضيلات البشر ومتطلبات الأمان". على هذا الأساس، تُنمذج أيضًا استراتيجيات الرفض وإعادة التوجيه المختلفة: بالنسبة للأسئلة المخالفة للقانون بشكل واضح، أو عالية المخاطر جدًا، أو غير المناسبة لأن يجيب عليها الذكاء الاصطناعي، يجب أن يتعلم النموذج تقديم رفض واضح مع تفسير، وتوفير مسارات بديلة آمنة (مثل خطوط المساعدة، الاستشارات المتخصصة، إلخ)، بدلاً من الصمت البسيط أو التهرب العشوائي.

9.2.3 طبقة السياسات ومنصة المحاذاة: جعل المحاذاة قابلة للتكوين والتطور

حتى إذا خضع النموذج الأساسي لتدريب محاذاة كافٍ، فلا تزال هناك حاجة في النظام الفعلي إلى طبقة سياسات ومنصة محاذاة لتحقيق قابلية تحكم وتطور أدق.

تحتوي طبقة السياسات عادةً على التعرف على النية وتقييم المخاطر ومنطق التوجيه: عندما يصل إدخال المستخدم إلى النظام، يحكم نموذج خفيف الوزن أولاً على نيته ومجاله ومستوى مخاطره، ثم يُقرر ما إذا كان سيتم استدعاء النموذج الكبير مباشرة، أو يحتاج إلى تصفية أمان إضافية، أو يقع ضمن الردود النمطية أو التحويل إلى قناة بشرية. بالنسبة للصناعات والعملاء المختلفين، يمكن لطبقة السياسات تحميل تكوينات Policy مختلفة، لتحقيق تخصيص الفئات الحساسة وأسلوب الرفض ونبرة العلامة التجارية. وفي الوقت نفسه، تدير منصة المحاذاة الداخلية جميع أصول المحاذاة: أدوات التعليق/التقييم، إصدارات نماذج المكافآت، سجلات تغييرات السياسات، نتائج A/B عبر الإنترنت، إلخ، مما يُمكّن الفريق من التكرار السريع والإصدار التدريجي لاستراتيجيات المحاذاة دون الحاجة إلى إعادة تدريب النموذج الأساسي بشكل متكرر، وبالتالي الحفاظ على تحكم مستمر في سلوك النموذج.

9.3 سلامة المحتوى والامتثال (Content Safety & Compliance)

مع دمج النماذج الكبيرة في البحث، والحوار، وإنشاء المحتوى، ومنصات التواصل الاجتماعي، وحتى الأنظمة الداخلية للمؤسسات، تحولت سلامة المحتوى والامتثال من "ميزة إضافية" إلى "شرط أساسي للدخول". تركز هذه الطبقة على: ما إذا كان النموذج ينتج محتوى غير قانوني أو ضار عند توليد النصوص، والصور، والصوت والفيديو؛ وما إذا كان النظام يمتثل للقوانين واللوائح المحلية والقطاعية عند معالجة بيانات المستخدم؛ وما إذا كان يمكن تقديم سلسلة أدلة واضحة وقابلة للتتبع عند مواجهة التدقيق والرقابة التنظيمية. لتحقيق ذلك، نحتاج إلى بناء نظام تقني وحوكمة متكامل يغطي مراجعة المحتوى متعدد الوسائط، والامتثال الإقليمي والقطاعي، والخصوصية المحلية وحماية البيانات، وتغليفه في أشكال منتجات مثل خدمة سلامة المحتوى SaaS، ومنصة الامتثال المؤسسي، وبوابة الأمان القطاعية. فيما يلي نستعرضها من ثلاثة زوايا: السيناريوهات، والمبادئ، والنماذج.

السيناريوهات
- سيناريو مراجعة وتصفية المحتوى متعدد الوسائط: في منتجات الحوار، ومنصات UGC، والمجتمعات والتطبيقات الاجتماعية، تقوم النماذج الكبيرة بتوليد أو استقبال كميات كبيرة من النصوص، والصور، ومحتوى الصوت والفيديو، مما يتطلب قدرة مراجعة متعددة الوسائط موحدة للتعرف الفوري على المخرجات عالية المخاطر وحظرها، مثل تلك التي تتضمن الخصوصية الشخصية، أو إرشادات الجرائم، أو التحريض على الكراهية، أو العنف المتطرف، أو المواد الإباحية والمحتوى غير المناسب للقاصرين.
- سيناريو قيود الامتثال والتوطين: تختلف القوانين واللوائح بين الدول والمناطق فيما يتعلق بحماية البيانات، وحماية القاصرين، ومراقبة المحتوى؛ كما أن للقطاعات المختلفة (الطبية، والمالية، والتعليمية، والإعلانية، إلخ) معايير امتثال تفصيلية خاصة بها. لذلك يجب أن يدعم النظام تحميل قوالب سياسات مختلفة حسب المنطقة والقطاع للامتثال للمتطلبات التنظيمية المحلية.
- سيناريو خصوصية المستخدم وحماية البيانات: أثناء تدريب النموذج وتقديم الخدمات عبر الإنترنت، يجب معالجة كميات كبيرة من محادثات المستخدمين وبيانات الأعمال. كيفية تحقيق إخفاء هوية البيانات، وإزالة الحساسية، والحد الأدنى من جمع البيانات، مع حماية الخصوصية من خلال الوسائل التقنية والمؤسسية في مرحلتي التدريب والاستدلال، يعد ركيزة أخرى لنظام سلامة المحتوى والامتثال، خاصة في القطاعات عالية الحساسية مثل المالية والطبية.
المبادئ يمكن تقسيم المبادئ الأساسية لسلامة المحتوى والامتثال إلى ثلاثة مستويات: السياسة، والتصفية، والخصوصية:
- نظام سياسات الأمان (Policy Engine)
  - تحويل القوانين واللوائح وقواعد المنصة والمعايير القطاعية إلى سياسات قابلة للتنفيذ، ومن خلال محرك القواعد مقترنًا بتقييم النموذج، يتم تصنيف المحتوى حسب المخاطر (آمن / منطقة رمادية / عالي الخطورة).
  - دعم اختيار قوالب سياسات مختلفة حسب السيناريو والعميل، مثل تكوين فئات حساسية وعتبات مختلفة للمنتجات المخصصة للمراهقين، أو المجتمعات المهنية، أو المؤسسات متعددة الجنسيات.
- التصفية متعددة المستويات: قبل الحدث – أثناء الحدث – بعد الحدث
  - قبل الحدث: اعتراض وإعادة كتابة Prompt المستخدم (Prompt Shielding)، لمنع النوايا غير القانونية أو شديدة الحساسية بشكل واضح قبل دخولها إلى النموذج الكبير، أو توجيهها إلى صياغة أكثر أمانًا.
  - أثناء الحدث: أثناء توليد النموذج للمخرجات، استخدام نماذج تصنيف الأمان والقواعد للمراجعة الفورية للمحتوى (Real-time Safety Filter)، وقطع أو استبدال أو تشفير المحتوى عالي المخاطر أو تشغيل الرفض التلقائي.
  - بعد الحدث: إجراء تدقيق بالعينة ومراجعة بشرية لسجلات الحوار والتوليد، وتحليل المشكلات المكتشفة لتتبع المصدر، ومن ثم تحديث السياسات والنماذج، وتوفير سجلات قابلة للتتبع للجهات التنظيمية الخارجية.
- تقنيات حماية الخصوصية وحوكمة البيانات
  - قبل تخزين البيانات وتدريبها، إجراء إخفاء الهوية وإزالة الحساسية لبيانات محادثات المستخدمين، وإزالة أو استبدال الحقول الحساسة مثل الاسم، ورقم الهوية، ورقم الهاتف، والعنوان، واتباع مبدأ الحد الأدنى من الجمع للاحتفاظ بالمعلومات الضرورية فقط.
  - في بعض السيناريوهات، استخدام الخصوصية التفاضلية (DP) للحد من تأثير العينة الواحدة على معاملات النموذج، أو من خلال التعلم الفيدرالي (FL) لإبقاء التدريب في نطاق البيانات المحلية، وتجنب رفع البيانات الخام إلى السحابة.
  - استخدام آليات التحكم في الوصول مثل RBAC / ABAC لتقييد من يمكنه الوصول إلى أي مستوى من السجلات والبيانات الحساسة، مع سجلات تدقيق تضمن إمكانية تتبع مسارات الوصول.
النماذج من منظور تصميم المنتج والنظام، تتطور سلامة المحتوى والامتثال في النهاية إلى سلسلة من "خدمات ومنصات الأمان" القابلة لإعادة الاستخدام:
- خدمة سلامة المحتوى SaaS: تغليف قدرات مراجعة النصوص / الصور / الصوت والفيديو في API موحد، يربط التطبيقات الأمامية؛ المدخل هو المحتوى، والمخرج هو نوع المخاطر، ومستوى التصنيف، وتوصية المعالجة (سماح، حظر، مراجعة بشرية)، مما يساعد المطورين على دمج وحدات الأمان بسرعة.
- منصة الامتثال المؤسسي الداخلية: توفير تكوين مركزي لسياسات الامتثال، وتقارير التدقيق، وقدرات الإنذار بالمخاطر للمؤسسات الكبيرة، تربط أنظمة الأعمال الداخلية وفرق المراجعة البشرية، مما يمكّن كل خط عمل من تنفيذ قواعد مخصصة تحت سياسة موحدة، وتلبية متطلبات التقارير التنظيمية الخارجية.
- بوابة الأمان المخصصة للقطاعات عالية المخاطر ونظام تدقيق السجلات: في القطاعات عالية المخاطر مثل المالية والطبية، يتم توجيه جميع استدعاءات النموذج الكبير من خلال بوابة أمان مخصصة، تقوم بالفحص الفوري وإزالة الحساسية لحركة المرور، والاحتفاظ بالسجلات الرئيسية محليًا أو في منطقة متوافقة، وتوفير قدرات تفصيلية لتدقيق الوصول وتتبع الحوادث، بما يلبي المتطلبات التنظيمية الصارمة.

9.3.1 المراجعة متعددة الوسائط ومحرك السياسات: تحويل القواعد إلى "كود قابل للتنفيذ"

يجب أن يكون نظام سلامة المحتوى الفعلي قادرًا أولاً على "فهم" المحتوى القادم من قنوات ووسائط مختلفة، ثم تطبيق السياسات على كل طلب واستجابة.

في جانب المراجعة متعددة الوسائط، يقوم النظام عادةً ببناء نماذج كشف متعددة للنصوص، والصور، والفيديو: تحدد نماذج النصوص الكلمات المفتاحية الحساسة، وسياق المحادثة، والتعابير الضمنية؛ بينما تكتشف نماذج الصور والفيديو العنف، والمواد الإباحية، والقاصرين، ورموز الكراهية، والمواد غير القانونية، وعند الضرورة تجمع بين OCR و ASR والخصائص المرئية للحكم المشترك. يربط محرك السياسات مخرجات هذه النماذج مع المتطلبات التنظيمية: على سبيل المثال، إذا كانت هناك قيود أكثر صرامة على القمار أو المحتوى السياسي في منطقة معينة، فيمكن رفع حساسية فئات الكشف ذات الصلة في قالب السياسة المقابل، أو فرض التحويل الإلزامي إلى المراجعة البشرية للمحتوى الذي يطابق هذه التصنيفات. من خلال تحويل القواعد المجردة إلى سلاسل قواعد، وعتبات، وإجراءات (سماح/حظر/مراجعة بشرية/تشفير)، يجعل Policy Engine متطلبات الامتثال "تعمل" فعليًا.

9.3.2 التصفية متعددة المستويات وتدقيق السجلات: بناء حلقة أمان مغلقة شاملة

من الصعب تغطية جميع المخاطر باعتراض أحادي المرحلة، لذلك تتبنى أنظمة سلامة المحتوى بشكل عام تصميم الخطوط الدفاعية الثلاثة: قبل الحدث – أثناء الحدث – بعد الحدث.

في مرحلة ما قبل الحدث، يقوم النظام بالكشف السريع عن مدخلات المستخدم، ويرفض أو يعيد كتابة الـ Prompts المخالفة أو شديدة الحساسية بشكل مباشر، ويوجه المستخدم لطرح الأسئلة بطريقة آمنة؛ وبالنسبة للمحاولات الحدودية والطلبات الغامضة، يمكنه أيضًا إضافة إخلاءات مسؤولية وتحذيرات المخاطر بشكل استباقي. في مرحلة أثناء الحدث، تمر مخرجات النموذج عبر مكون تصفية أمان فوري: يستخدم هذا المكون تصنيف النصوص ومطابقة القواعد لقص أو استبدال المخرجات عالية المخاطر أو تشغيل الرفض التلقائي، مما يضمن أن المحتوى المقدم للمستخدم يقع ضمن النطاق المقبول. في مرحلة ما بعد الحدث، من خلال تدقيق السجلات وآليات الفحص بالعينة، يقوم فريق الأمان أو نظام آلي موثوق بإعادة تشغيل وفحص الجلسات بشكل دوري، وتحليل الأخطاء الإيجابية والسلبية وأنماط المخاطر الجديدة، وتحديث السياسات وبيانات التدريب ونماذج الكشف بناءً على ذلك. وبهذا تتشكل حلقة أمان مغلقة متطورة باستمرار، بدلاً من "تكوين لمرة واحدة".

9.3.3 حماية الخصوصية وبوابة الأمان القطاعية: جعل أمان البيانات "قابلاً للإثبات"

في القطاعات عالية الحساسية، لا يكفي مجرد "عدم إخراج محتوى ضار"، بل يجب أيضًا إثبات أن "الاستخدام الداخلي لبيانات المستخدم آمن ومتوافق وقابل للتتبع بنفس القدر".

تبدأ حماية الخصوصية من لحظة دخول البيانات إلى النظام: في مرحلتي الجمع والتخزين، يتم إجراء إخفاء الهوية وإزالة الحساسية قدر الإمكان، لضمان أنه حتى في حالة تسرب السجلات يصعب ربطها مباشرة بأفراد محددين؛ وفي مرحلة التدريب، يتم تقليل تأثير بيانات المستخدم الفردي على النموذج النهائي ومخاطر التسرب من خلال الخصوصية التفاضلية، أو استراتيجيات أخذ العينات، أو التعلم الفيدرالي. بالنسبة لحركة استدلال النموذج، يتم التحكم الموحد في الوصول من خلال بوابة الأمان: يجب أن تمر جميع الطلبات والاستجابات عبر فحص المحتوى، والتحقق من الصلاحيات، وتسجيل التدقيق في البوابة، وعند الضرورة تطبيق سياسات وصول وطرق عرض بيانات مختلفة حسب خط العمل ودور المستخدم. في النهاية، تترسب هذه السجلات وسجلات تغيير السياسات لتشكل "سلسلة أدلة" قابلة للعرض للتدقيق الداخلي والجهات التنظيمية الخارجية، مما يجعل المؤسسة ليس فقط متوافقة فعليًا، بل أيضًا "قادرة على إثبات امتثالها" شكليًا.

10. الذكاء الاصطناعي للعلوم（AI4Science）

عندما ينتقل التعلم العميق والنماذج الكبيرة من "الإعلانات الموصى بها وفهم اللغة الطبيعية" إلى المشكلات العلمية نفسها، لم يعد الهدف مجرد التنبؤ بمؤشر أو إجراء تصنيف، بل المشاركة الحقيقية في اكتشاف القوانين، وتصميم التجارب، وتسريع المحاكاة والاستدلال. يسعى AI4Science إلى دمج "التعرف على الأنماط الإحصائية" مع "القوانين الفيزيائية / القواعد الكيميائية الحيوية / البنى الرياضية"، مما يجعل النموذج بمثابة "مساعد علمي قابل للبرمجة" في مجالات تصميم الجزيئات، وهندسة البروتينات، واكتشاف المواد، والمحاكاة الفيزيائية، والاستدلال الرياضي.

في الممارسة الهندسية، ترتبط هذه الطبقة من جهة بـ "البنية التحتية العلمية التقليدية" مثل برمجيات الكيمياء الكمومية، والديناميكا الجزيئية (MD)، ومحاكيات CFD/FEA، ومُثبتي النظريات الآليين، وقواعد البيانات literature، والمختبرات الآلية (Robotic Lab)، ومن جهة أخرى ترتبط بسير العمل البحثي الحقيقي لشركات الأدوية، وشركات المواد، وشركات الطاقة، والمؤسسات البحثية. فيما يلي نتوسع من ثلاثة زوايا: السيناريوهات، والمبادئ، والنماذج، مع مزيد من التفصيل في عدة اتجاهات رئيسية.

السيناريوهات
- تصميم الجزيئات والأدوية: انطلاقًا من كم هائل من الجزيئات الصغيرة / الأجزاء، التنبؤ بالخصائص و ADMET، وتصميم أدوية مرشحة تستهدف أهدافًا محددة، وتقليص مساحة التجارب من خلال الفحص الافتراضي والتحسين متعدد الأهداف.
- نمذجة البروتينات والبنى البيولوجية: التنبؤ بالبنية ثلاثية الأبعاد للبروتينات ومعقداتها، والمساعدة في تصميم الأجسام المضادة والإنزيمات والأدوية البروتينية، وتقييم تأثير الطفرات على الوظيفة والاستقرار.
- المحاكاة الفيزيائية والتصميم الهندسي: استخدام نماذج بديلة عميقة لتسريع المحاكاة عالية التكلفة مثل CFD / FEA / الديناميكا الجزيئية، وتوفير أدوات تقييم وتحسين سريعة لمجالات الطيران والسيارات والطاقة وغيرها.
- اكتشاف المواد وتصميم البلورات: إجراء فحص افتراضي وتصميم عكسي في المساحات الكيميائية / المادية الواسعة، لتسريع البحث والتطوير للمواد الرئيسية مثل البطاريات والخلايا الكهروضوئية والمحفزات والسبائك.
- الاستدلال الرياضي والرمزي: إجراء إثبات النظريات الآلي والحساب الرمزي وحل المعادلات في الأنظمة الشكلية، وتعزيز قدرة النماذج الكبيرة على الاستدلال الدقيق في المسائل الرياضية والاشتقاقات الهندسية.
- سير العمل العلمي والتجارب الآلية: الربط بين literature وقواعد البيانات ومنصات التجارب الآلية، وبناء "مختبرات ذاتية القيادة (Self‑Driving Lab)"، حيث يشارك النموذج في تصميم التجارب وتنفيذها وتحليل نتائجها.
المبادئ
- التمثيل المهيكل ونمذجة الرسوم البيانية: استخدام هياكل مثل الرسوم البيانية (Graph)، والرسوم البيانية البلورية (Crystal Graph)، والرسوم البيانية الجزيئية لتمثيل الكائنات المعقدة، ونمذجة العلاقات الهندسية والطوبولوجية على شبكات الرسوم البيانية العصبية أو الشبكات المتكافئة E(3).
- الانحياز الاستقرائي الفيزيائي / الكيميائي: دمج الأوليات الفيزيائية في بنية النموذج ودالة الخسارة من خلال قوانين الحفظ، والتناظر (الانتقال / الدوران / الانعكاس)، وقيود PDE (PINN)، ودوال الطاقة الكامنة.
- التوليد والتصميم العكسي: استخدام طرق النمذجة التوليدية مثل VAE و GAN و Diffusion و RL، لدعم استنتاج البنية من "الخصائص / القيود المستهدفة"، وتحقيق التصميم العكسي للجزيئات / المواد / الهياكل.
- النماذج الوكيلة والاقتران متعدد المقاييس: استخدام نماذج وكيلة عميقة لتقريب المحاكاة المكلفة للكيمياء الكمومية / الوسائط المستمرة / الميكانيكا الإنشائية، وربط النماذج المجهرية - المتوسطة - العيانية لتحقيق نمذجة متعددة المقاييس.
- تعزيز الأدوات وسير عمل Agent: دمج LLM مع المحاكيات والحاسبات الرمزية ومُثبتي النظريات الآليين وأنظمة استرجاع literature والروبوتات التجريبية، لبناء Agent قادر على التخطيط التلقائي وتنفيذ المهام العلمية.
النماذج
- نماذج تمثيل الجزيئات والمواد: شبكات متكافئة E(3) وشبكات رسوم بيانية مثل SchNet و DimeNet و PhysNet و CGCNN و MEGNet و ALIGNN، ونماذج لغة جزيئية مثل ChemBERTa و MolBERT و MoleculeSTM.
- نماذج علم الأحياء البنيوي: AlphaFold / AlphaFold2 / AlphaFold3 و RoseTTAFold و OpenFold و ProteinMPNN و ESM‑IF وسلسلة ESM لنماذج لغة البروتين ونماذج توليد البنية.
- المحاكاة الفيزيائية وتعلم المؤثرات: PINN و DeepONet و Fourier Neural Operator (FNO) وعائلة Neural Operator، ونماذج تعلم أسطح الطاقة الكامنة والمؤثرات مثل DeepMD و NequIP.
- نماذج الاستدلال الرياضي والرمزي: نماذج متخصصة في الرياضيات / الإثبات مثل Minerva و Gödel و GPT‑f و Lean‑Dojo، بالإضافة إلى أنظمة معززة بالأدوات تجمع بين LLM و SymPy/Mathematica/Lean/Coq.
- Agent العلمي وأنظمة سير العمل: "مساعدو AI العلميون" ومنصات التجارب ذاتية القيادة المغلفة لمجالات الأدوية والمواد والفيزياء والكيمياء، التي تجمع بين الاسترجاع وتوليد الكود واستدعاء المحاكاة وواجهات التحكم التجريبي.

بدءًا من هذه الطبقة، تتشابك الحوسبة العلمية التقليدية بعمق مع التعلم العميق والنماذج الكبيرة: يجب احترام القيود الصارمة للفيزياء / الكيمياء / البيولوجيا / الرياضيات، مع الاستفادة من القدرة التقريبية القوية المعتمدة على البيانات لتحسين الكفاءة، والهدف النهائي هو جعل AI "شريكًا" في البحث العلمي، وليس مجرد صندوق أسود للتنبؤ.

10.1 التصميم الجزيئي واكتشاف الأدوية (Molecular Modeling & Drug Discovery)

في عملية اكتشاف الأدوية التقليدية، قد يستغرق الانتقال من اكتشاف الهدف إلى التجارب السريرية أكثر من 10 سنوات وبتكلفة تصل إلى مليارات الدولارات، حيث يُستهلك جزء كبير من الوقت والمال في المراحل المبكرة من التصميم الجزيئي والتنبؤ بالخصائص والفحص الافتراضي. يهدف التصميم الجزيئي واكتشاف الأدوية المعتمد على الذكاء الاصطناعي إلى تسريع هذه العملية باستخدام نهج قائم على البيانات + النمذجة التوليدية: بدءًا من الهيكل أو الوصف النصي، والتنبؤ بالخصائص الجزيئية وADMET، وتصميم مركبات مرشحة تستهدف أهدافًا محددة، وتقليل عبء التجارب الرطبة بشكل كبير من خلال التحسين متعدد الأهداف والفحص الافتراضي.

يرتبط هذا الاتجاه من جهة ببرمجيات الكيمياء الكمومية (DFT، ab initio)، وتجارب النشاط البيولوجي، وHTS (High‑Throughput Screening) كمصادر للبيانات، ومن جهة أخرى بمنصات Small Molecule Design الداخلية لشركات الأدوية، وSaaS للتنبؤ بالخصائص، وأدوات تصميم المواد والكيماويات. فيما يلي نستعرض الأبعاد الثلاثة: السيناريوهات والمبادئ والنماذج.

السيناريوهات
- الفحص الافتراضي المبكر واكتشاف Hits: مواجهة مكتبات جزيئية افتراضية تتراوح من ملايين إلى مليارات المركبات، والتنبؤ السريع بالنشاط / ADMET باستخدام الذكاء الاصطناعي، وترتيب الجزيئات المرشحة، وغربلة عدد قليل من Hits عالية القيمة للدخول في مرحلة التجارب.
- تقييم الخصائص الجزيئية وADMET: في مرحلة تحسين المركب القائد (Lead Optimization)، التنبؤ المستمر بمؤشرات مثل الذوبانية والسمية والاستقرار الأيضي والتوافر الحيوي الفموي، لتوفير مرجع لتقييم الحركية الدوائية والسلامة.
- التوليد الجزيئي الموجه بالهدف: بالنظر إلى معلومات هدف البروتين (خصائص الجيب، الربيطات المعروفة) أو قيود الخصائص المستهدفة، توليد جزيئات صغيرة مرشحة تلقائيًا ذات تنوع هيكلي ونشاط عالٍ وقابلية للتصنيع.
- تصميم جزيئات المواد والكيماويات: للسيناريوهات غير الدوائية، مثل الطلاء والمذيبات والإلكتروليتات والمواد الفعالة سطحياً، تصميم جزيئات تركيبات تلبي خصائص فيزيائية محددة (اللزوجة، القطبية، الطاقة السطحية، إلخ).
المبادئ
- التمثيل الجزيئي والتنبؤ بالخصائص:
  - التمثيل الهيكلي: تشمل التمثيلات الشائعة تسلسلات SMILES، والرسوم البيانية الجزيئية (العقد تمثل الذرات، والحواف تمثل الروابط)، والإحداثيات ثلاثية الأبعاد والخصائص الكمومية؛ تحتاج النماذج إلى استخراج معلومات دلالية وهندسية قابلة للتعميم من هذه التمثيلات.
  - التنبؤ بالخصائص: من خلال GNN (GCN، GAT، MPNN) أو الشبكات المتكافئة ثلاثية الأبعاد (SchNet، DimeNet، PhysNet، إلخ)، التعلم من الرسوم البيانية الجزيئية أو الهياكل ثلاثية الأبعاد للتنبؤ بالخصائص الكمومية مثل الطاقة وعزم ثنائي القطب ومستويات طاقة المدارات، وكذلك خصائص ADMET مثل الذوبانية وLogP والسمية والاستقرار الأيضي.
  - تعلم التمثيل والتدريب المسبق: إجراء التنبؤ المقنع أو التعلم التبايني أو التدريب المسبق التوليدي الذاتي على مكتبات جزيئية واسعة النطاق (مثل ZINC وChEMBL وPubChem)، للحصول على تمثيلات جزيئية عامة قابلة للنقل، وتوفير ميزات لمهام QSAR / ADMET اللاحقة.
- التوليد الهيكلي والتحسين الجزيئي:
  - النمذجة التوليدية: استخدام نماذج توليدية مثل VAE وGAN وFlow وDiffusion لأخذ عينات من جزيئات جديدة في فضاء SMILES أو الرسوم البيانية الجزيئية، مع ضمان الصلاحية الكيميائية للهياكل (التكافؤ، هياكل الحلقات، إلخ) والتنوع.
  - التوليد الشرطي: إدخال متجهات شرطية (النشاط المستهدف، الخصائص الفيزيوكيميائية، القطع الهيكلية، وصف جيب الهدف، إلخ)، لتوليد جزيئات مرشحة في ظل قيود معينة، وتحقيق تصميم موجه بالخصائص أو تصميم قائم على إكمال القطع.
  - التحسين متعدد الأهداف وRL: من خلال التعلم المعزز (مثل MolDQN، إلخ) لإجراء عمليات "تحرير" في الفضاء الجزيئي (إضافة ذرات، تغيير روابط، استبدال قطع)، وبالتالي الموازنة بين أهداف متعددة مثل النشاط والسمية وقابلية التصنيع وتجنب براءات الاختراع.
- نمذجة التفاعل بين البروتين والجزيء الصغير:
  - مواقع الارتباط ودوال التسجيل: من خلال الالتفاف ثلاثي الأبعاد / شبكات الرسوم البيانية / نمذجة الرسم البياني التفاعلي لنمذجة العلاقة المكانية بين جيب البروتين والربيطة، والتنبؤ بمواقع الارتباط وألفة الارتباط (Binding Affinity).
  - الالتحام والتنبؤ بوضعية الارتباط (Binding Pose): دمج بحث الامتثالية في Docking مع النماذج العميقة، واستخدام دوال تسجيل عميقة أو توليد بنمط Diffusion للتنبؤ بالامتثالية المستقرة، مما يزيد من دقة الالتحام ويقلل من التكلفة الحسابية.
النماذج
- نماذج التمثيل الجزيئي:
  - GNN والشبكات ثلاثية الأبعاد: DimeNet / DimeNet++ وSchNet وPhysNet وغيرها من النماذج المتكافئة ثلاثية الأبعاد التي تأخذ في الاعتبار الزوايا / المسافات، وGCN/GAT/MPNN وغيرها من شبكات الرسوم البيانية العصبية العامة، المناسبة للتنبؤ بالخصائص وQSAR.
  - Transformer القائم على SMILES: معاملة الجزيئات على أنها "جمل لغة كيميائية"، واستخدام Transformer للنمذجة اللغوية التوليدية الذاتية أو المقنعة، لتوفير تمثيل تسلسلي للتوليد والتنبؤ بالخصائص.
- نماذج التوليد والتحسين:
  - نماذج توليد الرسوم البيانية: GraphVAE وJunction Tree VAE وGraphAF وغيرها لتوليد الجزيئات في فضاء الرسوم البيانية / القطع، مع التركيز على الصلاحية الهيكلية وقابلية التفسير (البناء على مستوى القطع).
  - نماذج الانتشار: Diffusion for Molecules لتوليد جزيئات أو امتثالية جديدة من خلال إضافة / إزالة الضوضاء في فضاء الرسوم البيانية أو الهياكل ثلاثية الأبعاد، ويمكن دمجها مع المتجهات الشرطية لتحقيق توليد مخصص.
  - التحسين بالتعلم المعزز: MolDQN وغيرها من الطرق القائمة على RL، التي تعتبر التحسين الجزيئي كمشكلة قرار تسلسلي في فضاء حالة "التحرير الجزيئي"، باستخدام دالة مكافأة لتشفير مؤشرات متعددة الأهداف.
- النماذج الجزيئية الكبيرة والاتجاه متعدد الوسائط:
  - نماذج اللغة الجزيئية: ChemBERTa وMolBERT وغيرها المدربة مسبقًا على مجموعات كبيرة من SMILES، تدعم الانتقال بدون أمثلة أو بأمثلة قليلة إلى المهام اللاحقة.
  - النماذج الجزيئية متعددة الوسائط: MoleculeSTM وغيرها التي تدمج الهيكل (الرسوم البيانية / ثلاثي الأبعاد)، والوصف النصي (طرق التصنيع، ملخصات الأدبيات)، والخصائص الجزيئية، لتحقيق الاسترجاع عبر الوسائط والتنبؤ المشترك.
- أشكال المنتجات والتطبيقات:
  - منصات الفحص المبكر للأدوية الموجهة لشركات الأدوية ومنصات Small Molecule Design الداخلية، التي توفر قدرات متكاملة للفحص الافتراضي والتوليد الجزيئي والتنبؤ بـ ADMET.
  - SaaS للتنبؤ بالخصائص موجه للباحثين: الاستعلام السريع عن الخصائص الجزيئية وADMET والتشابه الجزيئي من خلال واجهة ويب أو API.
  - أدوات تصميم على المستوى الجزيئي موجهة لتصميم المواد والكيماويات، للتطوير المخصص لأنظمة الجزيئات مثل الطلاء والمذيبات والإلكتروليتات.

بدءًا من هذا الاتجاه الفرعي، تتحول عملية تصميم الأدوية من "خبير + تجارب عالية الإنتاجية" إلى حلقة مغلقة من "خبير + نموذج + تجارب آلية"، حيث لا يقتصر دور الذكاء الاصطناعي على إعطاء الدرجات، بل يشارك تدريجيًا في الحلقة الكاملة من "اقتراح الأفكار" إلى "توليد المرشحات" ثم إلى "الفحص والتحسين".

10.1.1 التمثيل الجزيئي والتنبؤ بالخصائص / ADMET

في مجال البحث والتطوير الدوائي والمواد، هناك قدرة أساسية هي: بالنظر إلى جزيء ما، التنبؤ بسرعة ودقة بخصائصه وسلوكه، بما في ذلك الخصائص الكيميائية الكمومية (الطاقة، المدارات، عزم ثنائي القطب)، والخصائص الفيزيوكيميائية (الذوبانية، LogP)، ومؤشرات ADMET المتعلقة بالحركية الدوائية / السمية. جوهر هذه المسألة هو كيفية التعلم من أشكال مختلفة من التمثيل الجزيئي تمثيلات تتوافق مع القوانين الكيميائية وتتمتع بقدرة على التعميم.

على مستوى التمثيل الجزيئي، تشمل التمثيلات الشائعة:
- سلاسل SMILES / SELFIES وغيرها: معاملة الجزيء كتسلسل، وهي مناسبة بشكل طبيعي لنمذجة اللغة باستخدام RNN / Transformer.
- تمثيل الرسم البياني الجزيئي: العقد تمثل الذرات، والحواف تمثل الروابط، وتحمل العقد والحواف ميزات مثل النوع والتكافؤ والعطرية؛ مناسبة لنمذجة الجوار والطوبولوجيا باستخدام GNN وMPNN وغيرها.
- التمثيل الهندسي ثلاثي الأبعاد: معلومات الإحداثيات ثلاثية الأبعاد وزوايا الروابط والزوايا ثنائية السطح المستمدة من الكيمياء الكمومية أو تحسين مجالات القوة، مما يوفر أساسًا لشبكات E(3)-المتكافئة لالتقاط الهيكل المكاني.
على مستوى التنبؤ بالخصائص وADMET، تشمل المهام المستهدفة:
- التنبؤ بالخصائص الكمومية للجزيئات الصغيرة: الطاقة، عزم ثنائي القطب، مستويات طاقة HOMO/LUMO، إلخ، لتحل محل حسابات DFT / ab initio المكلفة.
- QSAR / التنبؤ بالنشاط: إعطاء النشاط (IC50، Ki) والانتقائية لمركب تجاه هدف معين، لاستخدامها في فحص المرشحات المحتملة.
- مؤشرات ADMET ذات الصلة: الذوبانية، النفاذية، السمية، الاستقرار الأيضي، تثبيط CYP، إلخ، وهي مؤشرات أساسية لتقييم قابلية الدواء للتطوير.

يتمثل المسار النموذجي للنموذج في: استخدام DimeNet / SchNet / PhysNet / GNN لاستخراج تمثيلات عالية الأبعاد على الهياكل الجزيئية، ثم التنبؤ بعدة خصائص في وقت واحد من خلال التعلم متعدد المهام؛ وإجراء تدريب مسبق على بيانات عامة أو داخلية واسعة النطاق لتعزيز قدرة النمذجة في سيناريوهات البيانات المحدودة. وتُقدم الخدمة خارجيًا على شكل SaaS للتنبؤ بـ ADMET أو API لمنصة داخلية، لتزويد فريق المشروع بقدرة "تجربة افتراضية" سريعة.

10.1.2 التوليد الهيكلي والتحسين الجزيئي: من SMILES / Graph إلى الدواء المرشح

بعد امتلاك نماذج موثوقة للتمثيل الجزيئي والتنبؤ بالخصائص، فإن الهدف الأبعد هو توليد جزيئات "أفضل" بشكل فعال: لم يعد الأمر مجرد تقييم للمركبات المعطاة، بل تصميم جزيئات مرشحة جديدة مباشرة حول الهدف وقيود الخصائص. يُطلق على هذا الاتجاه عادةً اسم التوليد الجزيئي والتحسين الجزيئي.

في جانب التوليد الهيكلي، تتركز الأبحاث والممارسات الهندسية حول ثلاث مسارات رئيسية:

التوليد التسلسلي القائم على SMILES معاملة الجزيئات كسلاسل، واستخدام VAE أو GAN أو Transformer التوليدي الذاتي لأخذ عينات من هياكل جديدة في فضاء SMILES؛ وضمان الصلاحية الكيميائية من خلال القيود النحوية (مثل SELFIES) أو المعالجة اللاحقة.
التوليد القائم على الرسوم البيانية / القطع نماذج مثل GraphVAE وJunction Tree VAE وGraphAF تقوم ببناء الهياكل مباشرة على مستوى الرسوم البيانية الجزيئية أو القطع الأساسية (Fragment / Motif)، وهي أقرب إلى التفكير في التصنيع الكيميائي، وتساعد في التحكم في الحلقات والمجموعات الوظيفية والهياكل الأساسية.
التوليد القائم على الانتشار والتوليد ثلاثي الأبعاد طرق مثل Diffusion for Molecules تقوم بالانتشار وإزالة الضوضاء في فضاء الرسوم البيانية أو الإحداثيات ثلاثية الأبعاد، ويمكنها في نفس الوقت مراعاة الامتثالية المكانية، وهي مناسبة لتوليد الربيطات أو وحدات المواد الحساسة للشكل ثلاثي الأبعاد.

في جانب التحسين الجزيئي، يكمن المفتاح في إدخال الأهداف والقيود:

التوليد الشرطي: إدخال النشاط المستهدف أو الخصائص الفيزيوكيميائية أو نقاط ارتكاز القطع كمتجهات شرطية في النموذج، مما يجعله يميل نحو تلبية هذه الشروط أثناء التوليد.
التعلم المعزز والتحسين متعدد الأهداف: استخدام نموذج التنبؤ بالخصائص "كبيئة"، واستخدام RL لاتخاذ قرارات تسلسلية في الفضاء الجزيئي (مثل MolDQN)، وتعيين مكافآت وعقوبات على مؤشرات متعددة الأبعاد مثل النشاط والسمية وقابلية التصنيع ومخاطر براءات الاختراع، لتحقيق موازنة متعددة الأهداف.
قابلية التصنيع والمعلومات الكيميائية المسبقة: دمج نماذج التنبؤ بطرق التصنيع ومؤشرات تعقيد التصنيع (مثل SA score) في عملية التوليد والتحسين، لتجنب إنتاج هياكل صعبة التصنيع أو غير مستقرة.

فيما يتعلق بالتحويل إلى منتج، غالبًا ما تُدمج هذه النماذج في "منصة تصميم الأدوية بالذكاء الاصطناعي" الداخلية لشركات الأدوية: بالنظر إلى الهدف والهياكل القائدة المعروفة واتجاه التحسين، تقوم المنصة تلقائيًا باقتراح عدة دفعات من الجزيئات المرشحة، ثم يقوم فريق المشروع بالفحص والتكرار تدريجيًا مع مراعاة التجارب وبراءات الاختراع والاعتبارات التجارية، لتحقيق تحسين حلقي مغلق "نموذج–تجربة–نموذج".

10.2 نمذجة البروتين والبنية الحيوية (Protein & Structural Biology)

في علوم الحياة، يُعتبر مبدأ "البنية تحدد الوظيفة" مبدأً شبه عقائدي: فكيفية انطواء البروتين إلى بنية ثلاثية الأبعاد، وكيفية تجميعه مع جزيئات أخرى لتشكيل معقدات، يحدد بشكل مباشر أداءه الوظيفي في الخلية. تعتمد طرق تحليل البنية التقليدية على وسائل تجريبية مثل علم البلورات بالأشعة السينية (X‑ray) والرنين المغناطيسي النووي (NMR) والمجهر الإلكتروني فائق التبريد (cryo‑EM)، وهي ذات دورات طويلة وتكاليف مرتفعة وتعاني من فجوات كبيرة تتمثل في "صعوبة التبلور وصعوبة التحليل". وقد دفعت نماذج التعلم العميق، وعلى رأسها AlphaFold، القدرة على "الانتقال من التسلسل إلى البنية مباشرة" خطوة كبيرة إلى الأمام، مما جعل الحصول على بنى عالية الجودة على مستوى الجينوم الكامل أمرًا ممكنًا.

يرتبط هذا الاتجاه من جهة بقواعد بيانات التسلسل والبنية مثل UniProt / PDB ومشاريع التجارب الأوميكسية وعلم البنية الحيوية (Structural Biology)، ومن جهة أخرى بمنصات تصميم وتحليل البنى في قطاعات الصناعة مثل المستحضرات الصيدلانية الحيوية والبيولوجيا التركيبية وهندسة الإنزيمات. وفيما يلي نستعرضه من زوايا السيناريوهات والمبادئ والنماذج، مع تفصيل إضافي للاتجاهات الفرعية الرئيسية.

السيناريوهات
- التعليق التوضيحي وفحص بنية الأهداف: التنبؤ ببنى عدد كبير من البروتينات على المستوى الجينومي، للمساعدة في اكتشاف الأهداف والتعليق الوظيفي وتحليل المسارات؛ مع دمج معلومات الطفرات لتقييم آليات الإمراض المحتملة.
- تصميم الأجسام المضادة / الأدوية البروتينية: النمذجة الدقيقة والتصميم للمناطق الرئيسية مثل المنطقة المتغيرة للجسم المضاد (CDR) ونطاقات ارتباط المستقبلات، لتحسين الألفة (affinity) والنوعية (specificity) والمناعة (immunogenicity).
- تصميم الإنزيمات والحفز الحيوي: بالاعتماد على البنية ثلاثية الأبعاد للإنزيم وبيئة الموقع النشط، تصميم طفرات ومكتبات متغيرات لتحسين كفاءة الحفز ونطاق الركيزة والاستقرارية.
- دراسة المعقدات والتفاعلات: التنبؤ ببنى معقدات بروتين–بروتين وبروتين–حمض نووي وبروتين–جزيء صغير، وتحليل أنماط التفاعل على السطح البيني، مما يوفر أساسًا لتصميم الأدوية ونمذجة مسارات الإشارة.
- تحليل تأثير الطفرات ومقاومة الأدوية: تقييم تأثير الطفرات الطبيعية أو الاصطناعية على استقرارية البنية ووظيفتها وارتباط الربيطات، وتحليل الأساس البنيوي للطفرات المسببة لمقاومة الأدوية.
المبادئ
- التنبؤ ببنية البروتين:
  - التسلسل → البنية: انطلاقًا من تسلسل الأحماض الأمينية (تسلسل مفرد أو متضمن لمحاذاة متعددة التسلسلات MSA)، نمذجة القيود الهندسية بين الأزواج البقايا (المسافات، الزوايا، خرائط التلامس)، ثم توليد البنية ثلاثية الأبعاد كاملة الذرات عبر وحدة إعادة بناء هندسية.
  - إشارات التطور المشترك: استخدام أنماط الطفرات المشتركة (co‑evolution) بين التسلسلات المتماثلة لاستنتاج علاقات التلامس المحتملة بين البقايا، مما يوفر قيودًا مسبقة قوية لعملية الانطواء.
  - تنقيح البنية وتقدير عدم اليقين: إجراء تنقيح محلي (relax, repack) على البنى المتوقعة، وإخراج درجات ثقة (مثل pLDDT وPAE) لتوجيه اختيار "المناطق الموثوقة" في التطبيقات اللاحقة.
- نمذجة المعقدات والتجميع الجزيئي:
  - النمذجة المشتركة متعددة السلاسل: أخذ عدة سلاسل بروتينية أو بروتين + حمض نووي كمدخلات، مع إدخال تعريف السلسلة وقيود السطح البيني، لإخراج بنية المعقد الكاملة مباشرة.
  - التنبؤ بالأسطح البينية والتجميع: بالاعتماد على بنى الوحدات الأحادية المعروفة، استخدام نماذج الرسوم البيانية أو نماذج الانتشار للتنبؤ بأكثر تكوينات الأسطح البينية وطرق التجميع احتمالًا.
- تصميم البروتين والتنبؤ بتأثير الطفرات:
  - الانطواء العكسي (Inverse Folding): بالنظر إلى هيكل عظمي ثلاثي الأبعاد أو قيود طوبولوجية، توليد تسلسلات أحماض أمينية قادرة على الانطواء بثبات إلى تلك البنية، محققًا تصميم بروتين من الصفر (de novo).
  - نمذجة تأثير الطفرات: دمج نماذج لغة البروتين مع النماذج البنيوية للتنبؤ بتأثير طفرات محددة على الاستقرارية (ΔΔG) أو النشاط أو ألفة الارتباط، للمساعدة في التطور الموجه وفحص المتغيرات.
النماذج
- التنبؤ بالبنية:
  - AlphaFold / AlphaFold2 / AlphaFold3: تعتمد على آليات الانتباه والوحدات الهندسية كنواة، وتتنبأ ببنى بروتينية عالية الدقة من MSA وهياكل القوالب وخصائص التسلسل، مع إخراج تقديرات عدم اليقين.
  - RoseTTAFold وOpenFold: تعتمد تمثيلات متعددة المسارات (sequence / pair / structure) وآليات انتباه متعددة المقاييس، وتوفر تطبيقات أساسية مفتوحة المصدر وللتطبيق الصناعي.
- نمذجة المعقدات والأسطح البينية:
  - AlphaFold‑Multimer: نمذجة مباشرة لبنى معقدات بروتين–بروتين في سيناريوهات متعددة السلاسل، مع مراعاة انطواء الوحدات الأحادية والتفاعلات على السطح البيني.
  - RFdiffusion: يعتمد على نماذج الانتشار لتوليد أو تحسين الهياكل العظمية للبروتين وأسطح المعقدات البينية في الفضاء ثلاثي الأبعاد، مما يحقق تصميم تجميعات معقدة وأجسام متناظرة.
  - طرق مثل DiffDock: في أنظمة بروتين–جزيء صغير، تستخدم الانتشار أو دوال تسجيل عميقة للتنبؤ بوضعية الارتباط (Binding Pose) وأنماط الارتباط.
- نماذج التصميم والطفرات:
  - ProteinMPNN: توليد تسلسلات متوافقة مع بنية معطاة، تُستخدم لتثبيت الهياكل العظمية وتصميم الأسطح البينية.
  - سلسلة ESM‑IF وESMFold / ESM‑2: نماذج لغة مدربة مسبقًا على نطاق واسع من تسلسلات البروتين، تمتلك القدرة على استنتاج البنية والوظيفة وتأثير الطفرات من التسلسل.
- المنتجات والتطبيقات:
  - خدمات التنبؤ ببنية البروتين وقواعد البيانات على السحابة العامة (مثل AlphaFold DB)، لتوفير تعليقات بنيوية واسعة النطاق وواجهات تحميل للبحث العلمي.
  - منصات تصميم البنى الداخلية في شركات المستحضرات الصيدلانية الحيوية: تدمج وحدات التنبؤ ببنية البروتين وتصميم الأجسام المضادة وهندسة الإنزيمات والالتحام بروتين–ربيط.
  - منصات SaaS في التقنية الحيوية: توفر أدوات للتنبؤ بمواقع الارتباط وتقييم الديناميكا الحرارية للأسطح البينية وألفة الارتباط والمناعة، لخدمة تطوير أدوية الأجسام المضادة والمستحضرات الحيوية.

بدءًا من هذا الاتجاه الفرعي، لا يقتصر دور الذكاء الاصطناعي على "تفسير" بنى البروتين الموجودة طبيعيًا، بل يمتد إلى "ابتكار" بنى بروتينية ومعقدات جديدة كليًا، مما ينقل علم البنية الحيوية من "عصر القياس السلبي" إلى "عصر التصميم النشط".

10.2.1 التنبؤ ببنية البروتين وتجميع المعقدات

يُعد التنبؤ ببنية البروتين أحد أكثر الاختراقات تمثيلًا في تقاطع علم البنية الحيوية مع الذكاء الاصطناعي. المسألة الجوهرية فيه هي: هل يمكننا، انطلاقًا من التسلسل، وبدون اعتماد أو باعتماد ضئيل على البيانات التجريبية، التنبؤ ببنية ثلاثية الأبعاد تقترب من دقة التجارب؟ وفي التطبيقات الواقعية، غالبًا ما تكون بنية الوحدة الأحادية مجرد نقطة انطلاق، والأكثر أهمية هو كيفية تجمع البروتين مع جزيئات أخرى لتشكيل المعقدات.

في التنبؤ ببنية الوحدة الأحادية، يشمل المسار النموذجي:

ترميز التسلسل / MSA: استخراج خصائص التسلسل واستخراج إشارات التطور المشترك من خلال محاذاة متعددة التسلسلات.
استنتاج القيود الهندسية: التنبؤ بتوزيعات المسافات بين أزواج البقايا واحتمالات التلامس والتوجهات النسبية، لتشكيل حقل هندسي من "قياسات زائفة".
بناء البنية والتنقيح التكراري: بناء البنية ثلاثية الأبعاد تحت القيود الهندسية باستخدام وحدات بنيوية (مثل الكتل غير المتغيرة بالدوران والانتقال، وتحديث الإحداثيات الداخلية)، مع تكرار عملية التحسين (refinement) عدة مرات لتقليل المخالفات الهندسية.
عدم اليقين وتقييم الجودة: إخراج مؤشرات مثل ثقة كل بقايا (pLDDT) وتقدير خطأ أزواج البقايا (PAE)، لتوفير مرجع للنمذجة والفحص اللاحقين.

في التنبؤ بالمعقدات والتجميع، تتوسع المسألة إلى "كيفية تنظيم وتفاعل السلاسل المتعددة في الفضاء":

بالنسبة لمعقدات بروتين–بروتين، عادةً ما تُستخدم استراتيجيات نمذجة متعددة السلاسل متخصصة (مثل AlphaFold‑Multimer) لإخراج بنية التجميع مباشرة بناءً على مدخلات متعددة السلاسل.
بالنسبة لأنظمة بروتين–حمض نووي / بروتين–جزيء صغير، يتمثل أحد المسارات في التنبؤ ببنية كل مكون أولاً، ثم التنبؤ بطريقة التجميع من خلال الالتحام ودوال تسجيل الأسطح البينية؛ ويتمثل مسار آخر في استخدام نماذج الانتشار أو النمذجة المشتركة لتوليد تكوينات المعقد مباشرة في الفضاء ثلاثي الأبعاد.
في سيناريوهات التجميعات الكبيرة ومتعددة الوحدات الفرعية، يلزم أيضًا دمج قيود التناظر وخرائط الكثافة من المجهر الإلكتروني منخفضة الدقة (EM) ومعلومات أخرى، لإجراء تجميع هرمي ومتعدد المقاييس.

في الممارسة المنتجية، غالبًا ما تُغلَّف التنبؤ بالبنية والتجميع كخدمات سحابية أو سلاسل أدوات محلية، لتوفير معلومات بنيوية أساسية للتعليق الوظيفي للبروتين ونمذجة شبكات التفاعل والتحقق من أهداف الأدوية.

10.2.2 تصميم البروتين والتنبؤ بتأثير الطفرات: من البنية إلى الضبط الوظيفي

بعد إتقان التخطيط من "التسلسل → البنية"، تأتي الخطوة التالية وهي المسألة العكسية: كيف يمكن، في ظل متطلبات بنيوية أو وظيفية معطاة، تصميم تسلسلات بروتينية وخطط طفرات مناسبة؟ هذا هو جوهر تصميم البروتين والتنبؤ بتأثير الطفرات.

في تصميم البروتين، تشمل المهام الرئيسية:

الانطواء العكسي (Inverse Folding): بالنظر إلى هيكل عظمي مستهدف (backbone) أو بنية طوبولوجية كلية، توليد تسلسلات أحماض أمينية قادرة على الانطواء بثبات إلى تلك البنية، ويمكن تحقيق هذه العملية من خلال نماذج توليد شرطية بالبنية مثل ProteinMPNN وESM‑IF.
التصميم الموجه وظيفيًا: مع الحفاظ على استقرارية البنية الكلية، إجراء تصميم موجه للمواقع النشطة وجيوب الارتباط ومناطق الأسطح البينية، لتحسين الألفة والنوعية وكفاءة الحفز.
قيود قابلية التصنيع والمناعة: أثناء عملية تصميم التسلسل، إدخال قيود مثل قابلية التعبير والتعديلات ما بعد الترجمة ومخاطر المناعة، لضمان قابلية تطبيق التسلسلات المرشحة في تطوير المستحضرات الحيوية.

في التنبؤ بتأثير الطفرات، ينصب التركيز على:

تغير الاستقرارية (ΔΔG): بالنظر إلى بنية النوع البري وموقع الطفرة، التنبؤ بتأثير الطفرات الأحادية أو المتعددة النقاط على استقرارية الانطواء، واستخدام ذلك في التطور الموجه وتحليل طفرات مقاومة الأدوية.
تغير النشاط والألفة: دمج النماذج البنيوية مع نماذج لغة البروتين، لتقييم تأثير الطفرات على النشاط الإنزيمي وألفة الربيطات وتنظيم مسارات الإشارة.
تصميم مكتبات المتغيرات واسعة النطاق: قبل تجارب الفحص داخل الجسم الحي أو خارجه، استخدام النماذج لفحص مسبق لفضاء الطفرات الهائل، والاحتفاظ بالمتغيرات عالية الإمكانات، مما يقلل من تكاليف التجارب.

على مستوى الهندسة والمنتج، غالبًا ما يُدمج تصميم البروتين والتنبؤ بتأثير الطفرات "كوحدة تصميم وتحسين بنيوي" داخل شركات المستحضرات الصيدلانية الحيوية / البيولوجيا التركيبية: انطلاقًا من بنية الهيكل العظمي المرشحة، يتم اقتراح جولات متعددة من خطط تصميم الطفرات ومكتبات المتغيرات تلقائيًا، لتشكيل حلقة مغلقة قائمة على البيانات مع تجارب الفحص عالية الإنتاجية.

10.3 المحاكاة الفيزيائية والحوسبة المُسرَّعة (Physics Simulation & Surrogate Modeling)

في مجالات الطيران والفضاء، والسيارات، والهندسة المدنية، والطاقة، والصناعات الكيميائية، تُعد المحاكاة عالية الدقة هي الركيزة الأساسية للتصميم والتحقق. ومع ذلك، فإن CFD (ديناميكا الموائع الحسابية)، وFEA (تحليل العناصر المحدودة)، والديناميكا الجزيئية (MD)، ومختلف حلول PDE غالبًا ما تكون مكلفة حسابيًا، مما يصعّب دعم المسح الواسع للمعلمات، أو التحكم في الوقت الفعلي، أو التحسين عبر الإنترنت. تسعى المحاكاة الفيزيائية والنمذجة البديلة المدعومة بالذكاء الاصطناعي إلى استخدام الشبكات العميقة لتقريب الحلول العددية أو المؤثرات نفسها، لتحقيق تسريع بعدة مراتب مع ضمان الاتساق الفيزيائي وقابلية التفسير.

يرتبط هذا الاتجاه من جهة ببرمجيات المحاكاة التقليدية (ANSYS، Fluent، COMSOL، والحلول المطورة ذاتيًا)، والقياسات التجريبية وبيانات المستشعرات، ومن جهة أخرى بمنصات التصميم الهندسي، والتصميم الديناميكي الهوائي للمركبات ذاتية القيادة والفضاء، وأنظمة محاكاة وتحسين العمليات الكيميائية. فيما يلي نتناول هذا الموضوع من ثلاث زوايا: السيناريوهات، والمبادئ، والنماذج.

السيناريوهات
- تسريع المحاكاة الهندسية: في ظل هندسة وظروف تشغيل معطاة، استخدام النماذج البديلة العميقة للتنبؤ السريع بحقول الضغط، والسرعة، والحرارة، وتوزيع الإجهاد/الانفعال، وغيرها، لدعم جولات التصميم التكرارية والتحسين.
- محاكاة العمليات المعقدة وتحسينها: في الصناعات العملية مثل الكيميائية والطاقة، استخدام ML لتقريب النماذج الآلية أو نماذج العمليات الصندوقية السوداء، لتحقيق تقييم سريع وتحكم في الوقت الفعلي.
- المحاكاة على المستوى الجزيئي/المادي: استخدام أسطح الطاقة الكامنة للتعلم الآلي (Neural Network Potential) لتحل محل حسابات ab initio عالية التكلفة للطاقة الكامنة والقوى، لتسريع الديناميكا الجزيئية ومحاكاة سلوك الأطوار المادية.
- الاقتران متعدد المقاييس والمجالات: ربط النماذج الميكروسكوبية والميزوسكوبية والماكروسكوبية معًا عبر النماذج البديلة العميقة، لبناء سلسلة محاكاة وتحسين متعددة المقاييس من البداية إلى النهاية.
المبادئ
- النماذج البديلة/الوكيلة (Surrogate Models):
  - تعلم تعيين "المعلمات المدخلة → الحقل/المؤشرات المخرجة" من بيانات المحاكاة العددية أو التجريبية، كتقريب للحلول عالية الدقة.
  - في فضاء المعلمات عالي الأبعاد، الدمج بين التعلم النشط والتحسين البايزي لاختيار نقاط العينة الأكثر إفادة تلقائيًا لإجراء محاكاة أو تجارب عالية الدقة، مما يحسن جودة النموذج البديل باستمرار.
- الشبكات العصبية المستندة إلى الفيزياء (PINN):
  - كتابة PDE والشروط الابتدائية/الحدية وقوانين الحفظ الفيزيائي في دالة الخسارة، واستخدام تقنيات التفاضل التلقائي لحل الحقول الفيزيائية في الفضاء المستمر.
  - تدعم المسائل المباشرة (حل حقول الحالة) والمسائل العكسية (استنتاج الحدود المصدرية، ومعلمات المواد، إلخ من الملاحظات المتفرقة)، وهي مناسبة بشكل خاص للهندسة المعقدة والشروط الحدية التي يصعب على الطرق العددية التقليدية معالجتها.
- تعلم المؤثرات وNeural Operator:
  - ليس فقط توفيق "الحل تحت شروط محددة"، بل تعلم التعيين من دالة إلى دالة (المؤثر)، مثل "الشروط الحدية/الحدود المصدرية → حقل الحل بأكمله".
  - تشمل الطرق الممثلة Fourier Neural Operator (FNO)، وDeepONet، وغيرها، والتي تحسن القدرة على التعميم عبر كثافات الشبكات والأشكال الهندسية المختلفة من خلال التحويل في المجال الترددي أو بنى الشبكات المحددة.
- النمذجة متعددة المقاييس:
  - تدريب المعلمات الفعالة أو العلاقات التكوينية على المستوى الميزوسكوبي/الماكروسكوبي باستخدام بيانات المحاكاة الميكروسكوبية، حيث يتولى النموذج البديل العميق دور "طبقة الربط بين المقاييس".
  - بالنسبة لمشكلات المواد المعقدة، والاقتران بين المائع والجسم الصلب، والتدفقات متعددة الأطوار، تُستخدم النماذج العميقة لنقل المعلومات بين المقاييس والوحدات الفيزيائية المختلفة.
النماذج
- الشبكات العصبية الفيزيائية العامة:
  - سلسلة PINN: تحل عن طريق تقليل بقايا PDE على نقاط عينات المجال الزمكاني، وهي مناسبة لمعادلات مثل Navier‑Stokes، وMaxwell، والميكانيكا المرنة.
  - عائلة DeepONet، وFNO، وNeural Operator: تتعلم تقريب "مستوى المؤثر" لحلول PDE مباشرة، للاستدلال السريع عبر ظروف تشغيل وهندسات متعددة.
- نماذج الطاقة الكامنة على المستوى الجزيئي/المادي:
  - DeepMD، وSchNet، وNequIP، وSpookyNet، وغيرها: تبني أسطح طاقة كامنة للتعلم الآلي عالية الدقة، مما يسرع بشكل كبير حسابات القوى والطاقة مع الحفاظ على دقة قريبة من ab initio.
  - الاقتران بمحركات MD التقليدية لتحقيق ديناميكا جزيئية عالية الدقة لأنظمة كبيرة وعلى نطاقات زمنية طويلة.
- النماذج البديلة لـ CFD/الميكانيكا الهيكلية:
  - شبكات Encoder‑Decoder مثل U‑Net / UNet++: تتنبأ بحقول التدفق أو الحرارة من الهندسة/الشروط الحدية على شبكات منتظمة.
  - الشبكات العصبية البيانية على Mesh: تقوم بتمرير الرسائل وتحديث العقد/العناصر على الشبكات غير المنتظمة، وهي مناسبة للهندسة المعقدة وسيناريوهات الاقتران متعدد المجالات الفيزيائية.
  - Neural Operator لـ CFD: تعميم تنبؤات حقول التدفق عبر أعداد رينولدز المختلفة، وظروف التدفق الداخل، والمعلمات الهندسية.
- المنتجات والتطبيقات:
  - وحدات التسريع بالذكاء الاصطناعي في برمجيات المحاكاة الصناعية: توفر تقديرات سريعة ووظائف تحليل الحساسية كطبقة خارجية للحلول التقليدية.
  - منصات محاكاة وتحسين العمليات الكيميائية/الطاقة: تجمع بين النماذج الآلية + النماذج البديلة + خوارزميات التحسين في أداة متكاملة لتحسين العمليات.
  - التصميم الديناميكي الهوائي للمركبات ذاتية القيادة/الفضاء: إجراء مسح واسع لمتغيرات التصميم وتحسين تلقائي للأشكال في تصميم الأشكال الديناميكية الهوائية.

10.3.1 النماذج البديلة والشبكات العصبية المستندة إلى الفيزياء (PINN)

النماذج البديلة (Surrogate Models) والشبكات العصبية المستندة إلى الفيزياء (PINN) هما مساران متكاملان لنقل المحاكاة الفيزيائية إلى الذكاء الاصطناعي: الأولى تنطلق من البيانات لتقريب تعيين المحاكاة، والثانية تنطلق من الفيزياء لبناء أهداف التعلم.

في سيناريو النماذج البديلة، يكون التدفق النموذجي كالتالي:

جمع مجموعة من بيانات العينات عبر المحاكاة العددية عالية الدقة أو التجارب (معلمات الإدخال، الشروط الحدية، الهندسة → الكميات الفيزيائية المخرجة).
تدريب شبكة عميقة (مثل MLP، أو الشبكات الالتفافية، أو GNN، أو Neural Operator) لتقريب دالة التعيين هذه.
في تحسين التصميم، أو مسح المعلمات، أو التحكم في الوقت الفعلي، استخدام النموذج البديل ليحل محل الحلول المكلفة للتقييم السريع.

في سيناريو PINN، لم يعد النموذج يعتمد بشكل أساسي على كميات كبيرة من التسميات الإشرافية، بل يبني دالة الخسارة من خلال تقليل بقايا PDE وانتهاكات الشروط الحدية:

عند نقاط العينات المكانية/الزمانية، تُخرج الشبكة العصبية الكميات الفيزيائية (مثل السرعة، والضغط، وحقول الإزاحة، إلخ)، ويحسب التفاضل التلقائي التدرجات والمشتقات.
تُعوض هذه المشتقات في PDE لتشكيل البقايا، وتشكل مع أخطاء الشروط الحدية والابتدائية دالة الخسارة الكلية.
من خلال التحسين، تُقرَّب بقايا PDE وأخطاء الشروط الحدية من الصفر قدر الإمكان، للحصول على حل تقريبي يحقق المعادلات الفيزيائية.

يمكن الجمع بين المسارين: عند توفر بيانات عالية الدقة جزئيًا، يُستخدم خطأ البيانات + البقايا الفيزيائية معًا لتقييد التدريب، مما يحسن الدقة وقدرة التعميم. في التطبيقات الهندسية، تعتبر PINN مناسبة بشكل خاص لمعالجة المسائل العكسية والنمذجة المدفوعة بالبيانات، مثل استنتاج معلمات المواد، أو الحدود المصدرية، أو مواضع العيوب من ملاحظات المستشعرات.

10.3.2 Neural Operator والنمذجة الفيزيائية متعددة المقاييس

يرتقي Neural Operator بالنمذجة الفيزيائية من مستوى تعيين "نقطة إلى نقطة/معلمات إلى حل" إلى مستوى "دالة إلى دالة": فهو يتعلم تقريب مؤثر موحد لـ "حل فئة معينة من PDE مع شروط حدودية"، بدلاً من حل محدد تحت ظروف تشغيل واحدة. وهذا يوفر إمكانيات جديدة للتعميم عبر ظروف التشغيل المتعددة، والهندسات المتعددة، ودقات الشبكات المختلفة.

في تعلم المؤثرات، يكون النهج النموذجي كالتالي:

أخذ الدوال (مثل الحدود المصدرية، والشروط الحدية، وحقول معلمات المواد، إلخ) كمدخلات، واستخدام شبكة (مثل FNO، وDeepONet) لإخراج دالة حقل الحل بأكمله.
من خلال التدريب على عينات من شبكات مختلفة، ومعلمات مختلفة، وهندسات مختلفة، يتعلم النموذج "الأنماط العامة" لحلول PDE.
عند النشر، يكفي إعطاء دالة إدخال جديدة (مثل شروط حدودية جديدة، أو هندسة جديدة) للاستدلال السريع والحصول على حقل حل تقريبي.

في سيناريو النمذجة متعددة المقاييس:

تدريب Neural Operator على كميات كبيرة من البيانات المنتجة على المستوى الميكروسكوبي (مثل الديناميكا الجزيئية، واللدونة البلورية)، لتعلم التعيين بين البنية الميكروسكوبية والاستجابة الماكروسكوبية.
في نماذج الأوساط المتصلة الماكروسكوبية، يُستخدم هذا التعيين كعلاقة تكوينية أو وحدة حساب للمعلمات الفعالة، لتحقيق الاقتران بين الميكرو والماكرو.
بالنسبة للأنظمة المعقدة مثل الاقتران بين المائع والجسم الصلب، والتدفقات متعددة الأطوار، والتدفقات التفاعلية، يمكن نمذجة الحقول الفيزيائية المختلفة بشكل منفصل وربطها عبر متغيرات واجهة مشتركة (مثل التدفقات، وقوى الواجهة، إلخ).

في الممارسة الهندسية، ينتقل Neural Operator تدريجيًا من النماذج البحثية الأولية إلى التطبيقات العملية، ليصبح توجهًا تقنيًا مهمًا في سيناريوهات CFD، والجيوفيزياء، ونمذجة المناخ وغيرها، كـ "مسرّع للحلول + جسر بين المقاييس المتعددة".

10.4 اكتشاف المواد وتصميم البلورات (Materials Science & Crystal Design)

في علم المواد، يتمثل أحد التناقضات الأساسية في أن فضاء التصميم يكاد يكون لا نهائيًا، بينما تكلفة التجارب والحسابات عالية الدقة باهظة للغاية. كيفية العثور بكفاءة على مواد مرشحة تلبي متطلبات أداء محددة ضمن الفضاء الهائل للتركيبات الكيميائية والبنى البلورية تُعد مسألة محورية في مجالات الطاقة الجديدة والإلكترونيات والمواد الإنشائية والمواد الوظيفية. إن اكتشاف المواد وتصميم البلورات المدفوع بالذكاء الاصطناعي، من خلال الشبكات العصبية البيانية والنماذج التوليدية والفحص الافتراضي عالي الإنتاجية، ينقل البحث والتطوير تدريجيًا من نموذج "التجربة والخطأ" إلى "المدفوع بالبيانات + التصميم العكسي".

يرتبط هذا الاتجاه من جهة بقواعد بيانات المواد مثل Materials Project و OQMD و AFLOW ونتائج حسابات DFT / MD، ومن جهة أخرى بمنصات بحث وتطوير المواد في سيناريوهات تطبيقية مثل البطاريات والخلايا الكهروضوئية والتحفيز وأشباه الموصلات والسبائك. فيما يلي نستعرض الموضوع من ثلاثة زوايا: السيناريوهات، والمبادئ، والنماذج.

السيناريوهات
- الفحص الموجه بالأداء للمواد: بالنظر إلى بنية بلورية أو صيغة كيميائية، يتم التنبؤ ببنية النطاق وفجوة النطاق وحركية حاملات الشحنة والخواص الحرارية/الكهربائية/المغناطيسية وغيرها، مما يوفر أساسًا لفحص المواد والتحسين التوليفي.
- بحث وتطوير مواد الطاقة الجديدة: استهداف أنظمة مثل إلكتروليتات البطاريات ومواد الأقطاب والموصلات الأيونية الصلبة وطبقات الامتصاص الكهروضوئية والمحفزات، والتنبؤ بالتوصيلية الأيونية والاستقرار والنافذة الكهروكيميائية والنشاط وغيرها.
- الفحص الافتراضي عالي الإنتاجية (HTVS): ضمن مكتبة مرشحة واسعة النطاق، يتم التقييم السريع باستخدام نماذج تعلم الآلة، وفرز المواد الواعدة، ثم التحقق والمعايرة بعدد محدود من حسابات DFT أو التجارب.
- التصميم العكسي للبنى البلورية والتركيبات: انطلاقًا من الخواص المستهدفة، البحث عكسيًا عن تركيبات البنى البلورية/المكونات التي تلبي قيود الأداء والعملية.
المبادئ
- تمثيل المواد والبلورات:
  - تمثيل البنية البلورية الدورية كرسم بياني بلوري (Crystal Graph): العقد تمثل الذرات، والحواف تمثل علاقات الجوار بين الذرات، مع دمج معاملات الشبكة البلورية ومعلومات المجموعة الفراغية.
  - بالنسبة للمواد غير المتبلورة أو المواد متعددة الأطوار المعقدة، يمكن تمثيل بنيتها المجهرية من خلال واصفات البيئة المحلية (مثل SOAP) أو خصائص Voronoi أو بنى بيانية متعددة المقاييس.
- التنبؤ بالخواص:
  - على نماذج GNN مثل CGCNN و MEGNet و ALIGNN، يتم إجراء التفاف/تمرير الرسائل على الرسم البياني البلوري للتنبؤ بالطاقة وفجوة النطاق ومعامل المرونة والتوصيل الحراري وغيرها.
  - استخدام تمثيلات مدمجة مثل Mat2Vec المبنية على الأدبيات والصيغ الكيميائية، لتحقيق التعلم بالنقل والتقدير بدون أمثلة (zero-shot) في سيناريوهات البيانات المحدودة.
- الفحص الافتراضي عالي الإنتاجية:
  - بناء مكتبة مرشحة (من خلال التعداد التوليفي، وتوليد البنى، والقواعد التجريبية، إلخ) → استخدام نماذج تعلم الآلة للتنبؤ السريع بالخواص → فرز أفضل المرشحين (Top-K) لإجراء حسابات DFT أو التحقق التجريبي → تحديث النموذج واستراتيجية الفحص، وتشكيل حلقة تعلم نشط مغلقة.
- التوليد والتصميم العكسي:
  - استخدام نماذج الانتشار أو VAE أو نماذج GNN التوليدية لأخذ عينات من بُنى جديدة في فضاء البنى البلورية، مع إمكانية فرض قيود على المكونات والمجموعة الفراغية والكثافة وغيرها.
  - الجمع بين النماذج الوكيلة (Surrogate Models) والتحسين البايزي، للبحث عن تركيبات البنى/المكونات المناسبة انطلاقًا من الخواص المستهدفة، وتحقيق التصميم العكسي (inverse design).
النماذج
- التمثيل والتنبؤ:
  - CGCNN (Crystal Graph Convolutional Neural Network): إجراء التفاف على الرسم البياني البلوري، يُستخدم للتنبؤ بخواص المواد غير العضوية مثل الطاقة وفجوة النطاق.
  - MEGNet و ALIGNN: دمج بنية الرسم البياني مع معلومات الحواف/الزوايا، مما يوفر تعميمًا ودقة أفضل عبر عائلات مواد متعددة.
  - Mat2Vec + نماذج تعلم آلة خفيفة: من خلال تحويل الصيغ الكيميائية ومعلومات العناصر إلى متجهات، يتم تدريب نماذج صغيرة بسرعة للتنبؤ بخواص محددة.
- التوليد والتصميم العكسي:
  - Diffusion for Crystals: إجراء الانتشار/إزالة الضوضاء في الفضاء عالي الأبعاد المكون من معاملات الشبكة البلورية ومواضع الذرات، لتوليد بُنى بلورية تلبي قيودًا معينة.
  - النماذج التوليدية القائمة على GNN: من خلال الإضافة/التعديل التدريجي للذرات والروابط أو معالجة الشبكة البلورية، لتحقيق البحث عن البنى من التهيئة العشوائية إلى المنطقة القريبة من الخواص المستهدفة.
  - Surrogate + Bayesian Optimization: استخدام نماذج تعلم الآلة كصندوق أسود تقريبي لعلاقة "البنية → الخاصية"، وإجراء التحسين البايزي عليه للعثور على البنية أو التركيبة المثلى.
- منصات البيانات وسلاسل الأدوات:
  - Materials Project و OQMD و AFLOW: توفر كميات هائلة من بيانات البنى وحسابات DFT، وهي أساس تدريب وتقييم نماذج تعلم الآلة للمواد.
  - قواعد البيانات والنماذج الداخلية للمؤسسات: دمج البيانات التجريبية ومعلومات العمليات الخاصة بالشركة، لبناء منصة تصميم مواد بالذكاء الاصطناعي متخصصة في المجال.
- المنتجات والتطبيقات:
  - منصة تسريع بحث وتطوير مواد الطاقة الجديدة: توفير قدرات متكاملة للتنبؤ بالخواص والفحص الافتراضي عالي الإنتاجية (HTVS) والتصميم العكسي (inverse design) لفرق البطاريات والتحفيز الكهربائي والخلايا الكهروضوئية وغيرها.
  - برمجيات الفحص الافتراضي و SaaS: توفير أدوات فحص رقمية للسبائك وأشباه الموصلات والسيراميك الوظيفي وغيرها، مما يقلل من تكاليف التجربة والخطأ المبكرة.
  - أدوات تصميم الذكاء الاصطناعي الداخلية لشركات المواد: التكامل مع أنظمة إدارة معلومات المختبرات (LIMS) وبيانات خطوط الإنتاج، لتشكيل حلقة مغلقة من "النموذج → التجربة → الإنتاج".

10.4.1 التنبؤ بخواص المواد والفحص الافتراضي عالي الإنتاجية (HTVS)

في سير عمل بحث وتطوير المواد، يُعد التنبؤ السريع والموثوق بالخواص قدرة أساسية: بالنظر إلى بنية أو تركيب مرشح، هل يمكن الحكم تقريبًا على ما إذا كان يستحق الاستكشاف المتعمق دون إجراء حسابات DFT أو تجارب مكلفة؟ نماذج التنبؤ بالخواص القائمة على GNN وقواعد بيانات المواد تتيح إمكانية الفحص الافتراضي عالي الإنتاجية.

على مستوى التنبؤ بالخواص:

استخدام تمثيل الرسم البياني البلوري للبنى الدورية، وتعلم التفاعلات بين الذرات ومجاوراتها من خلال نماذج مثل CGCNN و MEGNet و ALIGNN.
إجراء تدريب أحادي المهمة أو متعدد المهام لمهام مختلفة (الطاقة، فجوة النطاق، ثوابت المرونة، التوصيل الحراري، التوصيل الكهربائي، المغناطيسية، إلخ)، والوصول إلى أداء تنبؤي يقترب من دقة DFT على مجموعات بيانات مثل Materials Project.
في السيناريوهات الصناعية، غالبًا ما يتم الدمج مع البيانات التجريبية الداخلية لإعادة التدريب أو التكيف المجالي، لتحسين الملاءمة لعائلات مواد محددة وظروف عملياتية معينة.

في سيناريو الفحص الافتراضي عالي الإنتاجية (HTVS)، يكون التدفق النموذجي كالتالي:

بناء مكتبة مرشحة واسعة النطاق (التعداد التوليفي، أو توليد البنى، أو التوسع من قواعد البيانات الموجودة).
استخدام نماذج تعلم الآلة للتنبؤ السريع بالخواص المستهدفة والخواص المساعدة لكل مرشح (مؤشرات الاستقرار والسلامة والتكلفة وغيرها).
الفرز والترتيب وفقًا للخواص المستهدفة والقيود المتعددة، واختيار أفضل المرشحين (Top-K) لإجراء حسابات DFT عالية الدقة أو التحقق التجريبي.
تغذية نتائج التحقق مرة أخرى إلى النموذج، وتحديث المعاملات وتقديرات عدم اليقين، وتشكيل حلقة تعلم نشط مغلقة من "الفحص – التحقق – إعادة الفحص".

لقد دخل سير العمل هذا بالفعل مرحلة الاستخدام العملي في مجالات متعددة مثل مواد البطاريات وطبقات الامتصاص الكهروضوئية والمحفزات والمواد الإنشائية، وأصبح "محرك فحص أمامي" لفرق بحث وتطوير المواد.

10.4.2 توليد البلورات والتصميم العكسي: من الخواص المستهدفة إلى البنى المرشحة

بعد امتلاك قدرات موثوقة في التنبؤ بالخواص والفحص الافتراضي عالي الإنتاجية (HTVS)، يتمثل الهدف الأسمى في اقتراح بُنى بلورية وتركيبات مرشحة جديدة انطلاقًا مباشرًا من الخواص والقيود المستهدفة، أي التصميم العكسي للمواد وتوليدها.

في توليد البلورات، تشمل المسائل الرئيسية:

كيفية توليد شبكات بلورية وترتيبات ذرية معقولة فيزيائيًا في ظل القيود الدورية؟
كيفية فرض قيود على المكونات والتماثل والكثافة بشكل صريح أو ضمني أثناء عملية التوليد؟
كيفية ضمان بقاء البنى المولدة مستقرة بعد عملية استرخاء بسيطة؟

لتحقيق ذلك، تعتمد الأبحاث والممارسات الهندسية غالبًا على:

Diffusion for Crystals: إضافة/إزالة الضوضاء في الفضاء المشترك لمعاملات الشبكة البلورية + مواضع الذرات، لتحقيق توليد تدريجي من التهيئة العشوائية إلى عينات بنيوية، مع إمكانية دمج الخواص المستهدفة وقيود المكونات في عملية الضوضاء أو متجه الشرط.
النماذج التوليدية القائمة على GNN: إضافة الذرات وعلاقات الاتصال تدريجيًا على بنية الرسم البياني، أو تعديل البنى الموجودة، لتوليد بُنى مرشحة تلبي القيود.

في التصميم العكسي، يتم عادةً الدمج مع النماذج الوكيلة وطرق التحسين:

اعتبار نموذج التنبؤ بالخواص كدالة صندوق أسود لعلاقة "البنية → الخاصية".
من خلال التحسين البايزي أو الخوارزميات التطورية أو التعلم المعزز (RL)، يتم الاستكشاف في فضاء البنى، بحيث تقترب الخواص المتوقعة تدريجيًا من القيم المستهدفة، مع تلبية قيود الاستقرار والسلامة والتكلفة في نفس الوقت.
إجراء حسابات DFT أو التحقق التجريبي على البنى المرشحة التي تم العثور عليها، واستخدام النتائج لتحديث النموذج الوكيل واستراتيجية البحث.

في التطبيقات الهندسية، غالبًا ما يتم دمج وحدة التصميم العكسي في منصة الذكاء الاصطناعي للمواد، مما يوفر للباحثين واجهة تفاعلية من نمط "تحديد الخواص المستهدفة → يقترح النظام تلقائيًا البنى المرشحة"، مما يعزز بشكل كبير كفاءة استكشاف المواد الجديدة.

10.5 الرياضيات والاستدلال الرمزي (Mathematics & Symbolic Reasoning)

الرياضيات لغة عالية الصورية وقابلة للتحقق بدقة، مما يمنحها خاصيتين في عصر الذكاء الاصطناعي: "صعوبة بالغة" و"عائد محتمل هائل". فمن ناحية، تفرض البراهين المعقدة للنظريات والاستدلال عالي المستوى متطلبات شديدة على قدرات النماذج؛ ومن ناحية أخرى، يمكن التحقق من نتائج الاستدلال الرياضي والحساب الرمزي بدقة، مما يجعلها مناسبة بطبيعتها للتعاون مع الأدوات البرمجية. يتمثل هدف الذكاء الاصطناعي في مجال الرياضيات والاستدلال الرمزي في بناء نماذج قادرة على إجراء استدلال وحساب موثوقين داخل الأنظمة الصورية، ودمجها في تطبيقات التعليم والبحث العلمي والهندسة.

يرتبط هذا المجال من جهة بنظم الإثبات التفاعلي مثل Lean / Coq / Isabelle، وأنظمة الجبر الحاسوبي (CAS) مثل SymPy / Mathematica / Maple، بالإضافة إلى مستودعات المسائل الرياضية الضخمة والمتون الأدبية؛ ويرتبط من جهة أخرى بمنتجات تعليم الرياضيات، وأدوات البحث المساعدة، واحتياجات اشتقاق الصيغ وتحليل المخاطر في مجالات الهندسة والتمويل. فيما يلي نستعرض هذا المجال من ثلاثة زوايا: السيناريوهات، والمبادئ، والنماذج.

السيناريوهات
- الإثبات الآلي والمساعدة على الإثبات: تقديم براهين تلقائية للنظريات داخل الأنظمة الصورية، أو إنشاء مسودات براهين قابلة للقراءة يراجعها البشر وينقحونها.
- معالجة التعابير والحساب الرمزي: تبسيط التعابير آليًا، والاشتقاق، والتكامل، ونشر المتسلسلات، والتحويلات، وحل المعادلات، مما يوفر أدوات رمزية للنمذجة الهندسية وتحليل المخاطر المالية.
- فهم المسائل الرياضية وتوليد خطوات الحل: استخلاص تمثيل منظم من المسائل المقدمة بلغة طبيعية أو صور، وإنتاج خطوات حل دقيقة وقابلة للتحقق، لخدمة سيناريوهات التعليم والتدريب.
- تعزيز قدرات الاستدلال الرياضي: تحسين الاستدلال متعدد الخطوات والدقة في مجالات الحساب والجبر والهندسة والتوافيق وغيرها من خلال الضبط الدقيق الموجه للرياضيات وتعزيز النماذج بالأدوات.
المبادئ
- الأنظمة الصورية والبحث:
  - في أنظمة مثل Lean / Coq / Isabelle، تُصاغ الكائنات الرياضية والنظريات كحدود وأنواع، وتقابل عملية الإثبات بناء شجرة إثبات تحت قيود القواعد.
  - يمكن النظر إلى البحث عن البراهين على أنه "إيجاد مسار يحقق القيود في فضاء حالة واسع جدًا"، وهو مناسب لتطبيق أساليب التعلم المعزز، و MCTS (البحث الشجري بطريقة مونت كارلو)، وشبكات السياسات/القيم.
- التعاون العصبي – الرمزي:
  - يتولى LLM استخلاص بنية المسألة واستراتيجية الحل من المدخلات غير المهيكلة أو باللغة الطبيعية، وترجمتها إلى تعبيرات رمزية (مثل كود SymPy، أو سكربتات إثبات Lean).
  - تتولى أنظمة الجبر الحاسوبي ونظم الإثبات تنفيذ الحسابات الرمزية الدقيقة والتحقق الصوري، مع تدقيق وتصحيح مخرجات LLM.
- تحسين قدرة الاستدلال الرياضي:
  - من خلال التدريب المسبق أو الضبط الدقيق على نصوص رياضية ومستودعات مسائل ضخمة (مثل Minerva وGödel)، يتم تحسين فهم النموذج للغة الرياضيات وإتقانه لأسلوب الاستدلال.
  - اعتماد إطار Tool‑Augmented LLM، حيث تُستخدم الحلول الرمزية ومكتبات الحساب العددي وأدوات الرسم ونظم الإثبات كأدوات خارجية، ليتعلم النموذج "استدعاء الأدوات" بدلًا من "حفظ النتائج" في الاستدلال المعقد.
النماذج
- الإثبات الآلي للنظريات:
  - مبرهنات بأسلوب AlphaZero: تعتبر عملية الإثبات كلعبة، وتستخدم شبكات السياسات والقيم لتوجيه البحث، وبناء البرهان الصوري خطوة بخطوة.
  - GPT‑f وLean‑Dojo وغيرها: تُدرب على متون ضخمة من النظريات والبراهين الصورية، لتوليد البراهين تلقائيًا في أنظمة مثل Lean.
- نماذج الرياضيات الكبيرة وتعزيز الأدوات:
  - Minerva وGödel وغيرهما: نماذج كبيرة مضبوطة بدقة على متون تشمل كتب الرياضيات والأوراق البحثية ومستودعات المسائل، وتظهر أداءً أقوى في مسائل البراهين والمسابقات والاستدلال عالي المستوى.
  - LLM + SymPy / Mathematica / Lean / Coq: يتولى LLM تحليل المسائل وتخطيط الاستراتيجيات، بينما تستدعى أدوات الحساب الرمزي والإثبات للعمليات الدقيقة والتحقق.
- المنتجات والتطبيقات:
  - "مساعد التدريس/حل المسائل الرياضية" في المنتجات التعليمية، لتقديم شرح مخصص ومسارات حل متعددة.
  - أدوات بحث مساعدة: مساعدة الباحثين في بناء التخمينات، وتوليد مسودات البراهين، والبحث عن النظريات والمساعدات ذات الصلة، لتسريع الاستكشاف النظري.
  - اشتقاق الصيغ وتحليل نماذج المخاطر في مجالات الهندسة والتمويل: صياغة النماذج المعقدة رياضيًا، وإجراء تحليل الحساسية الرمزي والتدقيق في الامتثال.

10.5.1 الإثبات الآلي للنظريات والاستدلال الصوري

الإثبات الآلي للنظريات (ATP) والإثبات التفاعلي للنظريات (ITP) هما مجال مهم عند تقاطع الرياضيات وعلوم الحاسوب. يتمثل الهدف الأساسي لدخول الذكاء الاصطناعي في هذا المجال في بناء أو المساعدة في بناء البراهين تلقائيًا داخل الأنظمة الصورية، مما يقلل العبء على البشر في التفاصيل منخفضة المستوى، ويتيح لهم التركيز أكثر على الأفكار عالية المستوى.

في الأنظمة الصورية:

تُرمّز النظريات كأنواع أهداف (goal) يجب بناؤها، ويقابل الإثبات بناء حد (term) يكون نوعه مطابقًا لنوع الهدف.
تتكون عملية الإثبات من سلسلة من التكتيكات (tactics) أو خطوات الاستدلال، حيث تتقدم كل خطوة وفق قواعد منطقية صارمة.

يمكن للذكاء الاصطناعي أن يؤدي أدوارًا متعددة في هذا السياق:

اختيار التكتيكات واقتراح المعاملات: في حالة الإثبات الحالية، التنبؤ بالتكتيك التالي ومعاملاته لتقليل المحاولات اليدوية والتراجع.
استرجاع المساعدات والنظريات: البحث في المكتبات الضخمة عن المساعدات/النظريات الأكثر صلة بالهدف الحالي، لتقليص فضاء البحث.
توليد البرهان من البداية إلى النهاية: في ضوء النظرية والسياق المعطى، توليد سكربت إثبات كامل أو جزئي مباشرة، ثم التحقق من صحته بواسطة نظام الإثبات.

من خلال أعمال مثل المبرهنات بأسلوب AlphaZero، وGPT‑f، وLean‑Dojo، التي تدرب شبكات السياسات والقيم أو نماذج اللغة على متون صورية ضخمة، أصبح بالإمكان إتمام نسبة كبيرة من البراهين تلقائيًا على أنظمة مثل Lean وCoq. ومن المتوقع أن تتطور هذه القدرات في اتجاه المنتجات لتصبح "مساعد تحقق صوري"، يُستخدم في التحقق من البرمجيات/الأجهزة، وتحليل بروتوكولات التشفير، وتصميم الأنظمة عالية الموثوقية.

10.5.2 الحساب الرمزي وحل المسائل الرياضية: LLM + CAS

بالمقارنة مع إثبات النظريات، فإن الحساب الرمزي وحل المسائل الرياضية أقرب إلى السيناريوهات الهندسية والتعليمية. الهدف منه هو: الانطلاق من مسألة باللغة الطبيعية، وبناء تعبير رمزي تلقائيًا، وتنفيذ الحساب، وإنتاج خطوات حل قابلة للتفسير.

يكون سير العمل النموذجي للتعاون العصبي – الرمزي في هذا الاتجاه كما يلي:

فهم المسألة والتجريد: يحلل LLM المسألة المقدمة باللغة الطبيعية أو الصور إلى تعبير رياضي منظم (معادلات، قيود، دوال هدف، إلخ).
توليد التعبير الرمزي: ترجمة النتيجة المجردة إلى كود CAS (مثل تعابير SymPy، أو أوامر Mathematica).
**استدعاء ****CAS** للتنفيذ: استخدام CAS لإجراء عمليات جبرية دقيقة، واشتقاق، وتكامل، وحل أنظمة معادلات، وحساب النهايات، إلخ.
تفسير النتيجة وتوليد الخطوات: بناءً على نتائج CAS الحسابية، يولد LLM خطوات حل وتفسيرات تتوافق مع الأسلوب البشري.

يتمتع هذا النمط بعدة مزايا رئيسية:

ضمان صحة الحساب من خلال CAS، وتجنب "أخطاء المحاذاة" والتراكم الخاطئ الذي قد يقع فيه LLM في العمليات الحسابية الطويلة.
توفير فهم وتعبير باللغة الطبيعية من خلال LLM، مما يخفض عتبة استخدام CAS، ويتيح للمستخدمين غير المتخصصين استدعاء أدوات رمزية قوية.
في السيناريوهات التعليمية، يمكن التحكم في مستوى التفصيل وأسلوب الشرح، لإنتاج شروحات مناسبة لمراحل التعلم المختلفة.

في السيناريوهات الهندسية/المالية، يمكن توسيع هذه القدرة لتشمل صياغة وتحليل النماذج المعقدة: استخلاص بنية النموذج تلقائيًا من المستندات والكود البرمجي، وبناء تمثيل رمزي، وإجراء تحليل الحساسية، وتحليل الحالات الحدية، وتحديد المخاطر.

10.6 سير العمل العلمي وأتمتة المختبرات (Scientific Workflow & Lab Automation)

تركز معظم الاتجاهات الفرعية السابقة على "القدرات المنفردة": التنبؤ بخاصية، أو توليد بنية، أو إثبات نظرية. ولكن في البحث العلمي والتطوير الصناعي الحقيقي، يكمن الأهم في كيفية ربط هذه القدرات في سير عمل متكامل، ودمجها مع الأدبيات وقواعد البيانات ومنصات المحاكاة وأجهزة المختبرات الآلية. يهدف اتجاه سير العمل العلمي وأتمتة المختبرات إلى بناء نظام متكامل من Agent + أدوات + روبوتات موجّه نحو السيناريوهات العلمية، مما يطوّر الذكاء الاصطناعي من "القدرة على الحساب" إلى "القدرة على إجراء التجارب وإجراء البحوث".

يرتبط هذا الاتجاه من جهة بقواعد بيانات الأوراق العلمية وبراءات الاختراع (مثل PubMed وarXiv)، ومستودعات البيانات العلمية، ورسوم المعرفة البيانية المجالية، ومنصات المحاكاة؛ ومن جهة أخرى بالمختبرات الآلية (Robotic Lab)، وأجهزة الفحص عالي الإنتاجية (High-Throughput Screening)، وأنظمة إدارة سير العمل البحثي. فيما يلي نستعرضه من ثلاث زوايا: السيناريوهات، والمبادئ، والنماذج.

السيناريوهات
- التنقيب في الأدبيات العلمية وبناء قواعد المعرفة: استخراج المركبات الكيميائية والبروتينات والمواد وظروف التفاعل ونتائج التجارب وغيرها من المعلومات تلقائيًا من الكم الهائل من الأوراق العلمية، وبناء قواعد معرفة مهيكلة ورسوم معرفية بيانية.
- تصميم التجارب والمختبر ذاتي القيادة (Self‑Driving Lab): تحت إشراف خطة تجريبية يقترحها الذكاء الاصطناعي، تقوم منصة المختبر الروبوتية بتنفيذ التحضير والتفاعل والقياس وجمع البيانات تلقائيًا، محققةً تحسينًا "بحلقة مغلقة".
- إدارة البيانات العلمية وضمان قابلية إعادة الإنتاج: ترتيب بيانات المحاكاة والتجارب والبيانات الوصفية وسكربتات البرمجة تلقائيًا، وإنشاء سجلات تجريبية وتقارير موحدة، مما يعزز قابلية التتبع وإعادة الإنتاج.
- "مساعد الذكاء الاصطناعي التجريبي" المجالي: توفير دعم شامل لشركات الأدوية وشركات المواد والمؤسسات البحثية في البحث عن الأدبيات وتصميم الخطط وتخطيط التجارب وتحليل النتائج.
المبادئ
- التنقيب في الأدبيات والنماذج اللغوية المجالية (Domain LLM):
  - استخدام نماذج مدربة مسبقًا خاصة بالمجال مثل SciBERT وBioBERT وPubMedBERT للتعرف على الكيانات المسماة (NER)، واستخراج العلاقات، وتحليل المعادلات التفاعلية، واستخراج ظروف التجارب.
  - بناءً على ذلك، تدريب نماذج لغوية مجالية مثل Bio‑LM وChem‑LM وMaterials‑LM لتحسين قدرتها على فهم واستنتاج المصطلحات المتخصصة والجمل التجريبية والافتراضات الضمنية.
- تصميم التجارب والمختبر ذاتي القيادة:
  - اعتبار فضاء التجارب (الوصفة، درجة الحرارة، الوقت، ترتيب الإضافة، إلخ) كمتغيرات تحسين، حيث تقترح استراتيجيات LLM + RL أو التحسين البايزي (Bayesian Optimization) المجموعة التالية من ظروف التجارب.
  - تنفيذ الروبوتات والأجهزة التجريبية وفقًا للخطة، وجمع البيانات وإرسالها فوريًا، ثم تحديث النموذج للمعلمات وتقديرات عدم اليقين، مشكّلةً حلقة تعلم نشط مغلقة.
- تنسيق سير العمل والـ Agent:
  - ضمن إطار Agent & Tool Use، دمج أدوات البحث في الأدبيات وتوليد الأكواد واستدعاء المحاكاة وتحليل البيانات والتصور المرئي وإنشاء التقارير بشكل موحد.
  - يخطط الـ Agent تلقائيًا لتفكيك المهام وترتيب استدعاء الأدوات ودمج النتائج وفقًا لهدف المهمة (مثل "البحث عن وصفة إلكتروليت عالي التوصيل").
النماذج
- نماذج التنقيب في الأدبيات والمعرفة:
  - SciBERT وBioBERT وPubMedBERT وغيرها: نماذج مدربة مسبقًا على الأدبيات العلمية والطبية الحيوية، تُستخدم لاستخراج الكيانات/العلاقات والتصنيف والإجابة على الأسئلة.
  - Galactica والنماذج اللغوية المجالية المتخصصة: مدربة بشكل أساسي على المحتوى العلمي، تدعم توليد المراجعات ومسودات الأكواد واقتراحات تصميم التجارب وغيرها.
- نماذج تخطيط التجارب والتحكم:
  - LLM + RL / Bayesian Optimization: دمج المعرفة المسبقة بالمجال وعدم يقين النموذج وتكلفة التجارب لاستكشاف واستغلال فضاء التجارب بكفاءة.
  - Agent متكامل مع واجهة التحكم في المختبر الروبوتي: تحويل وصف التجربة باللغة الطبيعية إلى خطوات تجريبية مهيكلة وأوامر تحكم في الأجهزة.
- أنظمة الـ Agent العلمي وسير العمل:
  - بناءً على قدرات Agent & Tool Use في الفصل السابع، بناء "Agent متعدد الأدوات" موجه نحو السيناريوهات العلمية: قادر على البحث في الأدبيات، وتوليد الأكواد، واستدعاء المحاكاة، ومعالجة البيانات، ورسم المخططات، وكتابة مسودة التقرير.
- المنتجات والتطبيقات:
  - "مساعد الذكاء الاصطناعي التجريبي" ومنصات التجارب الآلية داخل شركات الأدوية والمواد: لتسريع تطوير الوصفات وتحسين العمليات وفحص المرشحين.
  - محركات البحث العلمي المجالية ورسوم المعرفة البيانية (Bio / Chem / Materials / Physics Knowledge Graph): تدعم البحث الدلالي والاستكشاف التفاعلي والاستدلال المعرفي.
  - منصات إدارة سير العمل البحثي: دمج تخطيط التجارب وتسجيل البيانات وإدارة الإصدارات والتصور المرئي وإنشاء التقارير تلقائيًا، مما يعزز كفاءة فرق البحث وقابلية إعادة إنتاج النتائج.

10.6.1 التنقيب في الأدبيات العلمية وبناء قواعد المعرفة المجالية

تظهر الغالبية العظمى من المعرفة العلمية أولاً في شكل أوراق وتقارير. لكي يشارك الذكاء الاصطناعي فعليًا في البحث العلمي، يجب أن يكون "قادرًا على قراءة الأوراق واستخلاص المعرفة المهيكلة منها". التنقيب في الأدبيات العلمية وبناء قواعد المعرفة هو بالضبط بناء بنية تحتية معرفية قابلة للاستعلام والاستدلال انطلاقًا من النصوص غير المهيكلة.

في هذا الاتجاه، تشمل المهام الأساسية:

التعرف على الكيانات والتوحيد القياسي: التعرف على الكيانات مثل المركبات والبروتينات والمواد والمتفاعلات والنواتج وأجهزة وظروف التجارب في الأدبيات، ومواءمتها مع قواعد البيانات القياسية (مثل ChEMBL وUniprot وMaterials Project).
استخراج العلاقات والأحداث: استخراج علاقات وأحداث مثل "من يتفاعل مع من وكيف" و"ما النتائج تحت أي ظروف" من النصوص، مثل معادلات التفاعل وعلاقات الوصفة-الأداء المقابلة.
بناء الرسوم المعرفية البيانية: تنظيم الكيانات والعلاقات في بنية بيانية، لدعم الاستعلامات المعقدة (مثل "جميع الطرق المبلغ عنها لتحسين أداء معين تحت ظروف معينة") والاستدلال المساري.

لتحقيق هذه الأهداف، يُستخدم عادةً:

نماذج مدربة مسبقًا مثل SciBERT وBioBERT وPubMedBERT للتعرف على الكيانات المسماة (NER) واستخراج العلاقات (RE) واستخراج الأحداث على مستوى الوثيقة.
بناءً على ذلك، بناء نماذج لغوية مجالية متخصصة (Bio‑LM وChem‑LM وMaterials‑LM) للإجابة على الأسئلة الأكثر تعقيدًا وتوليد المراجعات واستكمال المعرفة.

لا تقتصر فائدة قواعد المعرفة والرسوم المعرفية المجالية المبنية على توفير خدمات بحث وتوصية أكثر ذكاءً للباحثين فحسب، بل توفر أيضًا دعمًا من البيانات والمعرفة المسبقة لتصميم التجارب اللاحقة والتصميم العكسي للمواد/الأدوية.

10.6.2 المختبر ذاتي القيادة و Agent سير العمل العلمي: من "قراءة الأوراق" إلى "إجراء التجارب"

بعد امتلاك قدرات التنقيب في الأدبيات والنمذجة والتحسين، تتمثل الخطوة التالية في دمج هذه القدرات مع منصات التجارب الآلية، لبناء مختبر ذاتي القيادة (Self‑Driving Lab) و Agent سير العمل العلمي بالمعنى الحقيقي.

في المختبر ذاتي القيادة، تكون حلقة العمل المغلقة النموذجية كالتالي:

تحديد الهدف: يقدم الباحث هدفًا عامًا (مثل "تحسين توصيلية مادة معينة تحت ظروف محددة") والقيود (التكلفة، السلامة، قيود العملية، إلخ).
البحث في الأدبيات والمعرفة: يستدعي الـ Agent البحث في الأدبيات والرسوم المعرفية لفهم الأعمال الحالية والأنماط التجريبية، وتشكيل فرضيات أولية وفضاء لتصميم التجارب.
تخطيط التجارب واستراتيجية التحسين: بناءً على استراتيجيات LLM + RL / التحسين البايزي، اقتراح الدفعة الأولى من ظروف التجارب (الوصفة، درجة الحرارة، الوقت، البيئة، إلخ).
التنفيذ الروبوتي وجمع البيانات: تقوم منصة التجارب الآلية (Robotic Lab) بتنفيذ التجارب، وجمع النتائج فوريًا وإرسالها.
تحديث النموذج والجولة التالية من التصميم: يقوم النموذج الوكيل بتحديث المعلمات وتقديرات عدم اليقين بناءً على البيانات الجديدة، ثم يقترح الجولة التالية من ظروف التجارب الأكثر إفادة أو الأكثر إمكانات.

في Agent سير العمل العلمي بمعناه الأوسع، تمتد هذه الحلقة المغلقة إلى المحاكاة وتحليل البيانات وإنشاء التقارير:

يمكن للـ Agent توليد أكواد المحاكاة تلقائيًا أو استدعاء أدوات المحاكاة الحالية لإجراء تقييم مسبق لبعض ظروف التجارب؛
في مرحلة تحليل البيانات، إكمال تنظيف البيانات والتصور المرئي والاختبارات الإحصائية تلقائيًا؛
في مرحلة تلخيص المشروع، إنشاء سجلات تجريبية مهيكلة ومسودات تقارير، مرفقة بالمخططات والمراجع.

على صعيد شكل المنتج، غالبًا ما تتحقق هذه الأنظمة كمنصات: توفر واجهة موحدة و API، تربط بين مكتبات الأدبيات ومحركات المحاكاة وأجهزة التجارب، مما يسمح للعلماء والمهندسين بتحديد الأهداف على مستوى عالٍ باستخدام اللغة الطبيعية والواجهات المرئية، بينما يتولى Agent وسلسلة الأدوات التنسيق والتنفيذ التلقائي لباقي المراحل.

بدءًا من هذا الاتجاه الفرعي، يتحول دور الذكاء الاصطناعي في العلوم حقًا من "أداة تحليل غير متصلة" إلى "شريك بحثي متصل": ليس فقط قادرًا على قراءة الأوراق وكتابة الأكواد وحساب النماذج، بل أيضًا على إجراء تجارب واكتشافات حقيقية مع الروبوتات.

11. قدرات المنصة والهندسة (MLOps / البنية التحتية)

إن انتقال النماذج الكبيرة من المختبر إلى الإنتاج المؤسسي لا يعتمد فقط على "كون النموذج نفسه جيدًا بما فيه الكفاية"، بل يعتمد على منظومة منصة وهندسة مستقرة وقابلة للتوسع والتشغيل. يجب أن تغطي هذه المنظومة حلقات التدريب والضبط الدقيق، النشر وتحسين الاستدلال، إدارة البيانات والنماذج، المراقبة وإدارة التكاليف، الأمان والامتثال، بالإضافة إلى قدرات المنصة الوسيطة ودعم التطبيقات، لتربط النقاط التقنية المتفرقة في حلقة مغلقة قابلة للتشغيل المستدام.

من منظور الأعمال، غالبًا ما تحدد قدرات المنصة والهندسة ما إذا كانت المؤسسة قادرة على استخدام النماذج الكبيرة "على نطاق واسع، وبأمان، وبتكلفة منخفضة": فبنفس النموذج الأساسي،إذا لم يكن هناك نظام MLOps جيد، فمن المرجح أن يبقى التطبيق في مرحلة العروض التوضيحية والتجريب فقط؛ أما بمجرد توفر منصة متكاملة، تستطيع الشركة نسخ وتطوير تطبيقات عالية الجودة بسرعة عبر وحدات أعمال متعددة، ودول/مناطق متعددة، وسيناريوهات صناعية متعددة. سنناقش فيما يلي ستة محاور: منصة التدريب والضبط الدقيق للنماذج، النشر وتحسين الاستدلال، إدارة البيانات والنماذج، المراقبة وموثوقية التكاليف، البنية التحتية للأمان والامتثال، بالإضافة إلى قدرات التطبيقات العليا والمنصة الوسيطة.

11.1 التدريب والضبط الدقيق للنماذج (Training & Fine-tuning)

على مستوى النماذج الأساسية، لا تقوم معظم المؤسسات بتدريب نماذج بمئات المليارات من المعاملات من الصفر، بل تعتمد على نماذج أساسية مفتوحة المصدر أو تجارية لإجراء التدريب المسبق المستمر + الضبط الدقيق. السؤال الجوهري في هذه الطبقة هو: كيفية الاستفادة بكفاءة من القدرة الحاسوبية والبيانات "لتقريب" النموذج اللغوي الكبير العام إلى صناعة أو مؤسسة أو مهمة محددة، مع ضمان قابلية إدارة هندسة النماذج المتعددة والإصدارات المتعددة في آنٍ واحد.

من منظور هندسي، تتكون هذه الطبقة عادةً من ثلاثة أجزاء: التدريب المسبق والتدريب المسبق المستمر، ونماذج الضبط الدقيق وسلاسل الأدوات، والبنية التحتية للتدريب الموزع واسع النطاق.

السيناريوهات
- تطوير النماذج الأساسية العامة: تقوم شركات الحوسبة السحابية / الشركات الكبرى بتطوير نماذج أساسية لغوية / متعددة الوسائط عامة للاستخدام في واجهات برمجة التطبيقات الخارجية والمشاركة الداخلية عبر الأعمال المتعددة.
- النماذج القطاعية والنماذج المخصصة: بناء نماذج أساسية قطاعية أو "نماذج لغوية كبيرة خاصة بالمؤسسة" حول مجالات محددة مثل المالية والطبية والقانونية والتصنيع والطاقة والألعاب وغيرها.
- تخصيص النماذج على مستوى المؤسسة: تخصيص نماذج مضبوطة دقيقًا أو أوزان LoRA حصرية لعميل رئيسي واحد (بنوك، تأمين، جهات حكومية، مجموعات تصنيع، إلخ) بناءً على بياناته الداخلية.
- سوق النماذج متعدد المستأجرين: توفر منصات SaaS / السحابة إمكانية الضبط الدقيق والاستضافة بنموذج "نموذج واحد لكل عميل" للعديد من العملاء الصغار والمتوسطين، حيث يحصل كل مستأجر على مجموعة أوزان أو طبقة تكييف خاصة به.
- منصات الضبط الدقيق بنقرة واحدة: منتجات مُدارة بالكامل تُتاح للفرق غير المتخصصة في الخوارزميات عبر "رفع البيانات → اختيار النموذج الأساسي → الضبط الدقيق التلقائي → النشر بنقرة واحدة".
المبادئ
- التدريب المسبق والتدريب المسبق المستمر:
  - إجراء تدريب مسبق واسع النطاق على كميات هائلة من النصوص العامة والأكواد والبيانات متعددة الوسائط، مما يمنح النموذج فهمًا لغويًا عامًا ومعرفة بالعالم وقدرات استدلال أساسية.
  - بالنسبة للقطاعات المحددة، يتم الاستمرار في التدريب المسبق فوق النموذج العام عبر التدريب المسبق التكيفي للمجال (DAPT)، لإدخال المصطلحات المتخصصة وأساليب الكتابة وتوزيع المعرفة الخاصة بالقطاع.
  - يتيح التدريب المسبق متعدد اللغات / متعدد الوسائط، من خلال الفضاء الدلالي المشترك والتدريب المشترك، قدرة النموذج على النقل عبر اللغات ودمج النصوص / الصور / الكلام / البيانات المهيكلة.
- نماذج الضبط الدقيق:
  - الضبط الدقيق الكامل للمعاملات: عندما يكون هناك اختلاف كبير بين توزيع المهمة المستهدفة والتوزيع المسبق للتدريب، مع توفر قدرة حاسوبية وبيانات كافية، يتم تحديث جميع المعاملات مباشرةً للحصول على أعلى أداء ممكن.
  - الضبط الدقيق الفعال للمعاملات (PEFT): عبر أساليب مثل Adapter و LoRA / QLoRA و Prefix / P-Tuning، يتم تدريب كمية صغيرة جدًا من "المعاملات الإضافية" فقط، مما يناسب سيناريوهات المهام المتعددة والعملاء المتعددين والتحديثات المتكررة.
  - الضبط الدقيق بالإرشادات وضبط المهام: استخدام أسلوب "الإرشادات + الأمثلة" لتعليم النموذج فهم أوصاف المهام باللغة الطبيعية؛ يمكن توجيهه لمهمة رأسية واحدة، أو تحميل مهام متعددة على نموذج موحد.
  - RLHF / RLAIF: تدريب نموذج مكافأة عبر التغذية الراجعة البشرية أو تغذية الذكاء الاصطناعي، ثم استخدام التعلم المعزز لمواءمة سلوك النموذج (اللباقة، الأمان، استراتيجية رفض الإجابة، القيم).
- التدريب الموزع والمنظومة الهندسية:
  - استخدام استراتيجيات مثل توازي البيانات، توازي النماذج، توازي خط الأنابيب، توازي الموترات لتقسيم النماذج فائقة الكبر والبيانات واسعة النطاق عبر عقد متعددة وبطاقات متعددة في المجموعة للتدريب التعاوني.
  - عبر تقنيات مثل ZeRO / FSDP لتقليل استهلاك ذاكرة الفيديو وزيادة إنتاجية التدريب، بالتزامن مع جدولة فعالة (Kubernetes + Slurm / Ray) لتحقيق تدريب مجموعات واسع النطاق.
  - الاعتماد على خطوط أنابيب بيانات موحدة (تحميل مجموعات البيانات، التنظيف، إزالة التكرار، التجزئة، التخزين المؤقت) وأطر الضبط الدقيق (Transformers Trainer، DeepSpeed، Lightning، إلخ) لتقليل إعادة اختراع العجلة.
النماذج / الأدوات
- سلسلة أدوات التدريب المسبق والتدريب المسبق المستمر:
  - أطر التدريب: PyTorch، TensorFlow، JAX.
  - تسريع التدريب واسع النطاق: DeepSpeed، Megatron-LM، Colossal-AI، Fairscale.
  - استراتيجيات التدريب الموزع: توازي البيانات (DP)، توازي النماذج (MP)، توازي خط الأنابيب (PP)، توازي الموترات؛ ZeRO / FSDP، Megatron (TP+PP)، DeepSpeed ZeRO.
  - جدولة وإدارة المجموعات: Kubernetes + Slurm / Ray / Horovod / TorchElastic.
  - خط أنابيب البيانات: Hugging Face Datasets، WebDataset، Petastorm، tf.data، Arrow؛ تخزين الكائنات (S3 / OSS / GCS) + ذاكرة تخزين مؤقت محلية؛ أدوات تنظيف البيانات وإزالة التكرار.
- أدوات الضبط الدقيق و PEFT:
  - أطر الضبط الدقيق: Hugging Face Transformers + Trainer / Accelerate، PyTorch Lightning، DeepSpeed، Colossal-AI.
  - مجموعة أدوات PEFT: PEFT (LoRA / QLoRA / Prefix Tuning / Prompt Tuning، إلخ)، LLaMA-Adapter وسلاسل أدوات LoRA المتنوعة.
  - بناء الإرشادات والبيانات: Self-Instruct، خط أنابيب بأسلوب Alpaca / Dolly، أدوات متنوعة لتعزيز البيانات وإعادة كتابة الحوارات.
- سلسلة أدوات RLHF / RLAIF:
  - TRL (Transformers Reinforcement Learning)، trlx، DeepSpeed-RLHF، خط أنابيب RLHF المطور ذاتيًا.
  - تدريب نماذج المكافأة، نماذج الترتيب / التسجيل، استراتيجيات رفض الإجابة وقوالب استراتيجيات المواءمة.

على مستوى شكل المنتج، تتجلى هذه الطبقة غالبًا في: منصة تطوير النماذج الأساسية، خدمات "التدريب المخصص + التخصيص" على مستوى المؤسسة، منصات الضبط الدقيق بنقرة واحدة وأسواق النماذج (Model Hub / Model Store)، مما يدعم المسار الإنتاجي من "النموذج العام" إلى "آلاف النماذج لآلاف الشركات".

11.1.1 التدريب المسبق والتدريب المسبق المستمر: من القدرة العامة إلى القاعدة القطاعية

التدريب المسبق هو "الهندسة الأساسية" لقدرات النماذج اللغوية الكبيرة الحديثة: من خلال التعلم الذاتي الإشراف على كميات هائلة من النصوص غير الموسومة والأكواد والبيانات متعددة الوسائط، يكتسب النموذج تدريجيًا قدرات نمذجة اللغة والمعرفة بالعالم والاستدلال الأساسي والتعلم التمثيلي. بناءً على ذلك، يتولى التدريب المسبق المستمر (خاصة التدريب المسبق التكيفي للمجال، DAPT) مهمة "سحب النموذج نحو مجال رأسي معين".

في مرحلة التدريب المسبق العام، تشمل نقاط التركيز الأساسية:

حجم corpus اللغة وتنوعه: مزج نصوص الويب والكتب والأكواد والحوارات والمحتوى متعدد اللغات والأزواج نص-صورة وغيرها من البيانات متعددة الوسائط، لتغطية أوسع نطاق ممكن من المعرفة وأشكال التعبير.
أهداف التدريب والمزج متعدد المهام: بالإضافة إلى نمذجة اللغة الانحدارية الذاتية الكلاسيكية، تُضاف أحيانًا أهداف مثل ملء الفراغات والتنبؤ بالجملة التالية والتعلم التقابلي ومحاذاة النص مع الصورة، لتعزيز المحاذاة الدلالية والفهم متعدد الوسائط للنموذج.
تعدد اللغات والمحاذاة: من خلال جداول مفردات مشتركة أو ترميز الوحدات الفرعية، والمحتوى الموازي عبر اللغات أو مهام المحاذاة، يتم نمذجة اللغات المختلفة في فضاء متجهي موحد، مما يحقق النقل والترجمة عبر اللغات.

في مرحلة التدريب المسبق المستمر القطاعي (DAPT)، يتحول التركيز إلى:

بناء corpus قطاعي: بناء محتوى متخصص من السجلات الطبية والإرشادات، والأحكام القضائية والنصوص القانونية، والتقارير المالية وبيانات التداول، ووثائق التصميم في التصنيع / الطاقة / الألعاب وغيرها من القنوات.
تكييف الأسلوب والمصطلحات: من خلال التدريب المسبق المستمر على كميات كبيرة من محتوى المجال، يكتسب النموذج بشكل طبيعي المصطلحات القطاعية والتعبيرات الثابتة وأساليب الكتابة المتخصصة والمعرفة الضمنية (مثل عادات التعبير السريري والصياغة القانونية).
حقن المعرفة الخاصة بالمؤسسة: بالنسبة للمؤسسات أو الهيئات الكبيرة، يمكن إضافة وثائق داخلية وقواعد معرفة وسجلات تذاكر العمل وغيرها بالإضافة إلى المحتوى العام والقطاعي، لتدريب "نموذج لغوي كبير خاص بالمؤسسة" ليكون قاعدة ذكاء موحدة.

في الممارسة الهندسية، يتم تنفيذ التدريب المسبق والتدريب المسبق المستمر بالتزامن مع أطر موزعة واسعة النطاق (Megatron-LM، DeepSpeed ZeRO، إلخ) وخطوط أنابيب بيانات فعالة (WebDataset / HF Datasets + تخزين الكائنات)، لتشكيل خط أنابيب تدريب مستقر وقابل لإعادة الاستخدام. بالنسبة لشركات الحوسبة السحابية أو الشركات الكبرى، غالبًا ما يتم تغليف خط الأنابيب هذا كمنصة داخلية، تدعم التدريب المسبق التزايدي الدوري والتطوير التكراري المتوازي لقواعد قطاعية متعددة.

11.1.2 نماذج الضبط الدقيق و RLHF: من "القدرة على الكلام" إلى "فهم الأعمال والالتزام بالحدود"

بعد امتلاك قاعدة تدريب مسبق قوية، يكمن مفتاح جعل النموذج "مفيدًا للأعمال" و"قابلًا للتحكم في سلوكه" في مرحلتي الضبط الدقيق والمواءمة. يشمل ذلك الضبط الدقيق الإشرافي التقليدي (SFT)، والضبط الدقيق بالإرشادات، والضبط الدقيق متعدد المهام، والتعلم المعزز القائم على التغذية الراجعة (RLHF / RLAIF).

على مستوى نماذج الضبط الدقيق، يمكن تقسيمها تقريبًا إلى:

الضبط الدقيق الكامل للمعاملات (Full Fine-tuning) في السيناريوهات التي يكون فيها توزيع المهمة مختلفًا جدًا عن التوزيع المسبق للتدريب، أو عندما تكون هناك متطلبات صارمة للأداء الأقصى مع توفر قدرة حاسوبية كافية (مثل نماذج لغات برمجة محددة، أو نماذج حوار بلغة / قطاع معين)، يمكن للتحديث المباشر لجميع المعاملات أن يحقق أقصى حد للأداء. لكنه عالي التكلفة ومعقد في إدارة الإصدارات، وعادةً ما يُستخدم فقط على عدد قليل من النماذج الأساسية.
الضبط الدقيق الفعال للمعاملات (PEFT) عبر أساليب مثل Adapter و LoRA / QLoRA و Prefix / P-Tuning، يتم تدريب "كتل صغيرة من المعاملات الإضافية" المُدرجة أو الزيادات منخفضة الرتبة للأوزان فقط، مع بقاء أوزان النموذج الكبير الأصلية مجمدة. يحقق ذلك ثلاث مزايا هندسية:
1. يمكن للمهام المتعددة / العملاء المتعددين مشاركة نفس القاعدة، مع تبديل أوزان Adapter / LoRA المختلفة فقط.
2. تقليل كبير في متطلبات ذاكرة الفيديو والقدرة الحاسوبية، مما يدعم إكمال الضبط الدقيق في مجموعات GPU صغيرة أو متوسطة أو بيئات الآلة الواحدة.
3. تحديثات متكررة وتراجع بسيط، مما يسهل التجريب السريع والتجارب A/B.
الضبط الدقيق بالإرشادات وضبط المهام
1. الضبط الدقيق بالإرشادات (Instruction Tuning): عبر عينات من "إرشادات باللغة الطبيعية + مدخلات + مخرجات متوقعة"، يتعلم النموذج فهم صيغ التعليمات البشرية مثل "ساعدني في…" و"يرجى شرح…"، متحررًا بذلك من قوالب المهام المحددة.
2. الضبط الدقيق للمهمة الواحدة: مثل الضبط الدقيق فقط لمهام خدمة العملاء، أو إكمال الأكواد، أو الاستشارات القانونية، لتعظيم الأداء على تلك المهمة.
3. الضبط الدقيق متعدد المهام: تحميل مهام متعددة على نموذج موحد في آنٍ واحد (الإجابة على الأسئلة، التلخيص، الترجمة، الأكواد، توليد أسباب التوصية، إلخ)، مما يعزز عمومية النموذج وكفاءة استخدام الموارد.

على مستوى مواءمة السلوك والسلامة، يلعب RLHF / RLAIF دورًا محوريًا:

تدريب نموذج المكافأة (Reward Model): جمع تفضيلات البشر أو الذكاء الاصطناعي على إجابات مرشحة متعددة من النموذج (ترتيب / تسجيل)، وتدريب نموذج مكافأة يمكنه تقييم "جودة الإجابة".
تحسين النموذج الأساسي عبر التعلم المعزز (مثل PPO): تحت إشراف نموذج المكافأة، يتم ضبط معاملات النموذج عبر التعلم المعزز لجعله أكثر توافقًا مع تفضيلات البشر وقيم المنصة، على سبيل المثال:
أكثر لباقة وحيادية واحترافية؛
رفض أو إعادة صياغة آمنة للطلبات الخطيرة أو المخالفة أو المتعلقة بالخصوصية؛
الإفصاح عن عدم اليقين عند وجود شك، بدلًا من اختلاق الحقائق.
RLAIF والمواءمة الذاتية الإشراف: في بعض السيناريوهات، يتم استخدام نموذج أساسي قوي كمُقدِّم تغذية راجعة، أو الدمج بين القواعد والتقييم الآلي، لإجراء مواءمة شبه تلقائية لعملية الضبط الدقيق، مما يقلل من تكلفة التوسيم البشري.

على مستوى سلسلة الأدوات، شكّلت أطر مثل Hugging Face Transformers + PEFT و TRL / trlx و DeepSpeed-RLHF بشكل أساسي سير عمل صناعي قياسي من SFT → تدريب RM → RLHF. على مستوى تعريف المنتج، تتجسد هذه الطبقة نموذجيًا في: خدمات تخصيص / تدريب النماذج، منصات الضبط الدقيق بنقرة واحدة، أسواق النماذج متعددة المستأجرين، ومنصات هندسة النماذج اللغوية الكبيرة الخاصة بالقطاعات / المؤسسات.

11.2 نشر النماذج والاستدلال (Serving & Optimization)

بعد تدريب النماذج الكبيرة، تصبح كيفية تقديم خدمة الاستدلال بتوافر عالٍ وزمن انتقال منخفض وقابلية للتوسع وبتكلفة مخفضة هي الركيزة الثانية لمنظومة هندسة الذكاء الاصطناعي. تتصل طبقة النشر والاستدلال من جهة بمجموعات القدرة الحاسوبية مثل GPU / NPU، ومن الجهة الأخرى ببوابات API وتطبيقات المؤسسات ومنصات الخدمات الخارجية، وتشمل مسؤولياتها الأساسية: تصميم بنية النشر، استراتيجيات توجيه النماذج، تحسين أداء الاستدلال واستغلال العتاد.

بشكل عام، تعالج هذه الطبقة ثلاث مسائل: ما البنية المناسبة لتقديم الخدمة خارجيًا، كيف نجعل الاستدلال أسرع وأرخص، كيف نحافظ على التوافر العالي وقابلية الحوكمة في بيئات متعددة النماذج والمناطق والمستأجرين.

السيناريوهات
- منصة الذكاء الاصطناعي الداخلية / ناقل خدمات النماذج: توفر API موحدًا للنماذج الكبيرة لجميع خطوط الأعمال، مع إخفاء تفاصيل النماذج والعتاد الأساسي.
- واجهات API السحابية العامة: تقدم واجهات استدلال موحدة للمطورين الخارجيين وشركاء المنظومة، مع دعم اختيار نماذج متعددة وإدارة الإصدارات.
- الأعمال عبر الإنترنت ذات QPS المرتفع: مساعد خدمة العملاء، البحث، التوصيات، المساعدات المكتبية وغيرها من السيناريوهات شديدة الحساسية لزمن الانتقال والاستقرار.
- التوليد دون اتصال منخفض التكلفة: نصوص الإعلانات/الألعاب، توليد قواعد المعرفة، إعادة هيكلة الأكواد بكميات كبيرة وغيرها من مهام المعالجة المجمعة التي تركز على الإنتاجية والتكلفة أكثر من زمن الاستجابة.
- النشر متعدد المناطق والعناقيد: توفير وصول قريب للمستخدمين في مناطق متعددة أو عالمية، مع دعم السحابة المتعددة أو السحابة الهجينة.
المبادئ
- بنية النشر وتوجيه النماذج:
  - خدمة النموذج الواحد: في المراحل المبكرة أو السيناريوهات البسيطة، يتم تقديم خدمة موحدة عبر نموذج رئيسي واحد، البنية بسيطة لكن يصعب معها الموازنة بين زمن الانتقال والتكلفة.
  - الخدمة متعددة النماذج والتوجيه: توزيع نماذج بأحجام أو تخصصات مختلفة بناءً على أبعاد مثل نوع المهمة، متطلبات زمن الانتقال، قيود التكلفة، مستوى المستخدم، مع توجيه الطلبات عبر قواعد أو Meta‑model (بما في ذلك اختبار A/B، استراتيجيات Bandit/اللصوص المتعددين، إلخ).
  - **عزل المستأجرين المتعددين وإدارة ****SLA** **: في سيناريوهات العملاء المتعددين، ضمان العزل في الأداء والأمان بين المستأجرين المختلفين من خلال حصص الموارد، حدود QPS، المصادقة على الوصول وتصنيف SLA.
  - التوسع المرن والتوافر العالي: استخدام البنية التحتية مثل Kubernetes / Service Mesh لتحقيق التوسع والانكماش التلقائي، النشر متعدد النسخ، النشر التدريجي (Canary)، النشر الأزرق-الأخضر والتعافي من الكوارث عبر المناطق.
- تحسين أداء الاستدلال:
  - ضغط النماذج وتسريعها: تقليل حجم الحساب واستهلاك ذاكرة الفيديو عبر التكميم (INT8 / INT4 / NF4 / GPTQ / AWQ)، والتقليم/التناثر (Pruning/Sparsity)، وتقطير المعرفة وغيرها.
  - التحسين على مستوى النظام: استخدام KV Cache لتخزين مفاتيح وقيم الانتباه مؤقتًا لتسريع المحادثات الطويلة والاستدلال المتواصل؛ موازنة الإنتاجية وزمن الانتقال عبر المعالجة المجمعة (Batching)، وتوليد الرموز المتوازي (Parallel Token Generation)، والإخراج المتدفق (Streaming)؛ تقليل الوصول للذاكرة وعبء تشغيل النوى (Kernel Launch Overhead) عبر دمج العمليات (Operator Fusion) وتحسين الرسم البياني (Graph Optimization).
  - استغلال العتاد غير المتجانس: بناء بيئات تشغيل (Runtime) واستراتيجيات جدولة متكيفة مع مختلف أنواع العتاد مثل GPU، CPU، NPU، FPGA، ASIC، ورفع الكفاءة الإجمالية في سيناريوهات البطاقة الواحدة متعددة البطاقات والآلة الواحدة متعددة الآلات عبر الوصلات عالية السرعة مثل NVLink / RDMA.
- الهندسة والتشغيل:
  - استخدام أطر استدلال متخصصة مثل vLLM وTGI وTriton لتقليل تكلفة التطوير الذاتي بشكل كبير.
  - النشر عبر المنصات والتحسين على مستوى العمليات باستخدام مترجمات وبيئات تشغيل مثل ONNX Runtime وTensorRT وTVM وOpenVINO.
  - بناء طبقة موحدة لعناقيد الاستدلال عبر الإنترنت وجدولة الحركة باستخدام Kubernetes وRay وService Mesh وبوابات API.
النماذج
- أطر التقديم وخدمات الاستدلال:
  - vLLM، TGI (Text Generation Inference)، Triton Inference Server.
  - Ray Serve، KServe، TorchServe، SageMaker Endpoint، Vertex AI Endpoint وغيرها.
- العناقيد والجدولة:
  - Kubernetes (K8s)، Kubeflow، Ray، Slurm.
  - Service Mesh: Istio / Linkerd (تدعم الإصدارات التدريجية، تحديد المعدل، قطع الدائرة (Circuit Breaking)، التراجع (Fallback) وغيرها من حوكمة الحركة).
- بوابات API والمصادقة:
  - Kong، NGINX / APISIX / Envoy.
  - IAM / Keycloak / Auth0، بوابات API السحابية، OAuth2 / OIDC وغيرها.
- ضغط النماذج ومكتبات الأداء:
  - التكميم: NVIDIA TensorRT‑LLM / TensorRT، Intel Neural Compressor، OpenVINO (PTQ / QAT)، BitsAndBytes، GPTQ، AWQ، AutoGPTQ.
  - التقليم/التناثر: PyTorch Sparse، TensorFlow Model Optimization Toolkit، SparseML، Neural Magic.
  - التقطير: حلول مرجعية مثل DistilBERT / TinyBERT، أو خط أنابيب تقطير يعتمد على Hugging Face Trainer + خسارة تقطير مخصصة (Custom Distillation Loss).
- محركات الاستدلال / بيئات التشغيل وتحسين الرسم البياني:
  - ONNX Runtime، TensorRT، OpenVINO Runtime، TVM، MNN، NCNN.
  - محركات استدلال مخصصة للنماذج الكبيرة: Sglang، vLLM، FasterTransformer، TGI، LMDeploy، DeepSpeed‑Inference.
  - الترجمة وتحسين الرسم البياني: TVM، XLA (JAX/TF)، TensorRT Graph Optimizer، TorchDynamo / TorchInductor، MLIR، Glow، ONNX Graph Optimizer، Intel NNCF وغيرها.
- العتاد والدعم غير المتجانس:
  - GPU: CUDA / cuDNN / cuBLAS، ROCm (AMD).
  - CPU: oneDNN (MKL‑DNN)، OpenBLAS، Eigen.
  - NPU / مسرعات مخصصة: Ascend CANN، Habana Gaudi، Graphcore IPU وغيرها من حزم SDK.

على صعيد المنتج، تظهر هذه الطبقة غالبًا في شكل منصة ذكاء اصطناعي مؤسسية / ناقل خدمات النماذج، و API سحابي خارجي، بوابة **استدلال موحدة، عناقيد استدلال عبر الإنترنت عالية **QPS**، منصة**معالجة مجمعة** منخفضة التكلفة، وحلول تحسين**استغلال القدرة الحاسوبية**، وهي تمثل "نظام التشغيل" في وقت التشغيل الذي يدعم التطبيق الواسع النطاق لقدرات النماذج الكبيرة.

11.2.1 بنية النشر وتوجيه النماذج: من النموذج الواحد إلى شبكة الخدمات متعددة النماذج

في المراحل التجريبية المبكرة، تختار العديد من الفرق نموذجًا "كبيرًا وشاملًا" كنقطة دخول وحيدة لتقديم الخدمة: تمر جميع الطلبات عبر نفس النموذج. هذا النمط بسيط في البنية ومنخفض في تكلفة الصيانة، ويناسب سيناريوهات POC وحركة المرور المنخفضة. ولكن مع توسع الأعمال وارتفاع ضغط التكلفة، تنكشف عيوب بنية النموذج الواحد بسرعة:

متطلبات زمن الانتقال/التكلفة/الجودة تختلف بين المهام المختلفة، واستخدام نفس النموذج الكبير لمعالجة جميع الطلبات يؤدي إلى هدر القدرة الحاسوبية.
توجيه قدرات مختلفة لصناعات وعملاء مختلفين، مثل النماذج الخاصة بالصناعة وأوزان الضبط الدقيق الحصرية للعملاء، يصعب إدارتها بشكل موحد في وضع "النموذج الواحد".
سيناريوهات مثل النشر التدريجي (Canary)، اختبار A/B، والتعافي من الكوارث عبر المناطق تتطلب جدولة مرنة بين إصدارات نماذج متعددة.

لذلك، غالبًا ما تتطور بنية خدمات النماذج الكبيرة الناضجة إلى بنية الخدمة متعددة النماذج والتوجيه الذكي:

مجموعة النماذج المتعددة وسجل النماذج: صيانة نماذج بأحجام متعددة (small / base / large / ultra)، وتخصصات متعددة (عام / أكواد / متعدد الوسائط / خاص بالصناعة)، وإصدارات متعددة (v1 / v1.1 / مخصص للعميل، إلخ) في آنٍ واحد، مع تسجيلها وإدارتها بشكل موحد في طبقة الخدمة.
استراتيجيات التوجيه:
التوجيه بالقواعد: اختيار صريح يعتمد على معاملات الطلب (نوع المهمة، مستوى المستخدم، تفضيلات زمن الانتقال/التكلفة، إلخ) وقواعد العمل (إلزام صناعة أو منطقة معينة باستخدام نموذج محدد).
محدد النموذج ( Meta ‑model): استخدام نموذج خفيف الوزن لاختيار النموذج الأمثل تلقائيًا بناءً على محتوى الإدخال، النتائج التاريخية، والمؤشرات اللحظية (مثل نموذج صغير سريع مقابل نموذج كبير بطيء).
توجيه A/B / Bandit: إجراء تجارب عبر الإنترنت بين النماذج القديمة والجديدة أو الإعدادات المختلفة، والتقارب تلقائيًا نحو الحل الأفضل بناءً على مؤشرات مثل CTR، رضا المستخدم، ومعدل نجاح المهمة.
عزل المستأجرين المتعددين وإدارة الحصص:
إضافة تحكم في الحصص، حدود QPS، مصادقة الوصول وتصنيف SLA على مستوى المستأجر فوق توجيه النماذج، لضمان عزل الموارد والبيانات بين العملاء المختلفين.
استخدام العزل المنطقي + العزل الفيزيائي (عناقيد حصرية أو عقد مخصصة) لتلبية سيناريوهات الامتثال العالي مثل القطاع المالي/الطبي/الحكومي.
التوسع والانكماش المرن والتوافر العالي:
تحقيق التوسع والانكماش التلقائي حسب حركة المرور عبر Kubernetes HPA / VPA وCluster Autoscaler.
ضمان استقرار الخدمة عبر النشر متعدد النسخ، موازنة الحمل، النشر التدريجي، النشر الأزرق-الأخضر والتعافي من الكوارث متعدد المناطق.

من الناحية التقنية، غالبًا ما يُستخدم مزيج من **Kubernetes + Service Mesh (Istio / Linkerd) + **بوابة** API ** (Kong / APISIX / Envoy ) + أطر خدمة النماذج (vLLM / TGI / Triton / Ray Serve / KServe) لتشكيل منصة استدلال بشبكة خدمات تدعم النماذج المتعددة، المستأجرين المتعددين، وحوكمة الحركة والنشر التدريجي في آنٍ واحد.

11.2.2 تحسين أداء الاستدلال وتسريع العتاد: خفض "تكلفة الاستدلال لكل طلب" إلى الحد الأدنى

في سيناريوهات التسويق واسع النطاق للنماذج الكبيرة، غالبًا ما تكون تكلفة الاستدلال واحدة من أكبر النفقات المستمرة. كيفية ضغط تكلفة الطلب الواحد (Cost per Request / per Token) وزمن الانتقال من البداية إلى النهاية إلى نطاق مقبول مع ضمان التجربة، هو التحدي التقني الأساسي لطبقة النشر.

على جانب النموذج، تشمل الوسائل الشائعة:

التكميم (Quantization) عبر ضغط الأوزان والتفعيلات من FP16 / BF16 إلى صيغ بتات منخفضة مثل INT8 / INT4 / NF4، مما يقلل بشكل كبير من استهلاك ذاكرة الفيديو وعبء النطاق الترددي.
1. التكميم بعد التدريب (PTQ): مثل GPTQ وAWQ وBitsAndBytes وغيرها، لتكميم النماذج الموجودة دون اتصال.
2. التدريب المدرك للتكميم (QAT): مراعاة خطأ التكميم أثناء مرحلة التدريب/الضبط الدقيق لتحسين الدقة بعد التكميم.
التقليم والتناثر ( Pruning** & Sparsity)** عبر التقليم المنظم/غير المنظم لإزالة الأوزان أو القنوات غير المهمة، مما يجعل النموذج متناثرًا، مع الاستفادة من عمليات التناثر المدعومة عتاديًا (مثل تسريع المصفوفات المتفرقة من NVIDIA) لزيادة سرعة الاستدلال.
التقطير (Distillation) استخدام نموذج كبير كمعلم، وتقطير المعرفة إلى نموذج طالب أصغر أو نموذج متخصص بمهمة محددة، مما يقلل حجم المعاملات بشكل كبير مع الحفاظ على أداء قريب من المهمة الأصلية، ومناسب للأعمال عبر الإنترنت شديدة الحساسية لزمن الانتقال أو النشر على الحافة.

على جانب النظام وبيئة التشغيل (Runtime)، تشمل نقاط التحسين الرئيسية:

KV ** Cache وتحسين السياقات الطويلة**: تخزين مفاتيح وقيم الانتباه للرموز التاريخية مؤقتًا أثناء التوليد ذاتي الانحدار، لتجنب إعادة الحساب، وبالتالي تحسين كفاءة المحادثات الطويلة والطلبات متعددة الجولات؛ مع التحكم في استهلاك ذاكرة الفيديو عبر استراتيجيات الحساب المجزأ والتقليم الديناميكي.
المعالجة المجمعة**و**التوليد المتوازي: زيادة الإنتاجية الإجمالية دون زيادة كبيرة في زمن انتقال P95 عبر المعالجة المجمعة الديناميكية للطلبات المتعددة، والجدولة المجمعة، وتوليد الرموز المتوازي؛ مع تحسين تجربة التفاعل في الواجهة الأمامية عبر الإخراج المتدفق (Streaming).
دمج العمليات وتحسين الرسم البياني: استخدام المترجمات وبيئات التشغيل (مثل TensorRT وTVM وONNX Runtime وTorchInductor) لدمج العمليات، تحسين تخطيط الذاكرة، وترجمة الرسم البياني الثابت، لتقليل عبء تشغيل النوى (Kernel Launch) والوصول للذاكرة.
جدولة العتاد غير المتجانس: توزيع معقول بين موارد GPU وCPU وNPU وFPGA غير المتجانسة بناءً على الخصائص الحسابية ومتطلبات زمن الانتقال للمهام المختلفة: 5. طلبات المحادثة/البحث شديدة الحساسية لزمن الانتقال وذات التزامن العالي تُجدول أولاً إلى GPU / NPU. 6. مهام التوليد المجمع، التقييم دون اتصال، إعادة تشغيل السجلات وغيرها يمكن جدولتها إلى CPU أو GPU / NPU منخفضة التكلفة.

على صعيد الأدوات والأطر، شكّلت كل من TensorRT‑LLM وSgLang وvLLM وFasterTransformer وLMDeploy وDeepSpeed‑Inference وغيرها منظومة ناضجة نسبيًا لتسريع استدلال النماذج الكبيرة. على صعيد الأعمال، تتجسد هذه التحسينات في النهاية على شكل: عناقيد استدلال عبر الإنترنت عالية QPS ومنخفضة زمن الانتقال ، منصة توليد مجمعة منخفضة التكلفة، حلول تحسين استغلال القدرة الحاسوبية**** وأنظمة MaaS / API للفوترة ومحاسبة التكاليف.

11.3 تشغيل البيانات والنماذج (Data / Model Ops)

بمجرد دخول النماذج الكبيرة إلى بيئة الإنتاج، لم تعد أصولًا ثابتة "تُسلَّم مرة واحدة"، بل تتحول إلى أنظمة ديناميكية تحتاج إلى تكرار مستمر عبر خمسة أبعاد: البيانات، والنماذج، والإعدادات، والإصدارات، والتجارب. توفر طبقة تشغيل البيانات والنماذج (Data / Model Ops) النموذج الهندسي الذي يدور حول هذا الواقع: بدءًا من دولاب البيانات (Data Flywheel)، وإدارة دورة حياة النموذج، وصولًا إلى التجارب عبر الإنترنت والنشر الآلي، مما يوفر الأساس للتحسين المستدام والتطور المنضبط لقدرات النماذج.

ترتبط هذه الطبقة من جانب بمستودعات البيانات / بحيرات البيانات (Data Lake / Warehouse)، وأنظمة السجلات والتجميع، ومن الجانب الآخر بمنصات التدريب، وأنظمة التقييم، وبوابات الخدمات عبر الإنترنت، وهي بذلك تمثل المحور الذي يربط حلقة "البيانات – النموذج – تغذية الأعمال الراجعة" المغلقة.

السيناريوهات
- منصة بيانات مركزية مؤسسية + منصة موحدة لتدريب النماذج: ربط سلسلة كاملة من جمع البيانات، وتنظيفها، ووضع العلامات عليها، وإدارتها، وصولاً إلى التدريب / الضبط الدقيق، مما يدعم التكرار المستمر لنماذج متعددة.
- "آلية التحسين المستمر للأداء" لتطبيقات الذكاء الاصطناعي الموجهة للمستهلكين (C-end) أو الأعمال (B-end): الاعتماد على دولاب البيانات المدفوع بتغذية المستخدمين الراجعة وبيانات الاستخدام.
- منصة عمل لإدارة البيانات ووضع العلامات يشترك فيها فريقا وضع العلامات والخوارزميات: تدعم توزيع المهام، وفحص الجودة، والعودة إلى الإصدارات السابقة.
- منصة ModelOps على مستوى المجموعة: تسجيل وإدارة جميع إصدارات النماذج، ونتائج التقييم، وحالات النشر بشكل موحد.
- نظام التجارب عبر الإنترنت والتدرج الرمادي (Canary Release): دعم اختبارات A/B، والتشغيل التجريبي لنماذج متعددة بحركة مرور منخفضة، والتوسع التلقائي للنموذج الأفضل.
- خدمات استضافة النماذج: توفير قدرة إدارة النماذج "التحميل مرة واحدة، والنشر في بيئات متعددة، وإدارة إصدارات متعددة" للشركاء / العملاء.
المبادئ
- إدارة البيانات ودولاب البيانات (Data Flywheel):
  - جمع البيانات وحوكمتها: جمع العينات من سجلات الأعمال، ومحادثات المستخدمين، والبيانات العامة، وبيانات الشركاء، ثم إزالة التكرار، وتقليل الضوضاء، وإخفاء البيانات الحساسة، وتوحيد التنسيق، وتقييم الجودة.
  - وضع العلامات وحلقة التغذية الراجعة المغلقة: بناء بيانات عالية الجودة موسومة من خلال الجمع بين الخبراء والتعهيد الجماعي، مع آليات فحص الجودة؛ وإعادة تغذية تفاعلات المستخدمين (الإعجاب / عدم الإعجاب، التصحيح، المراجعة اليدوية) إلى مجموعة عينات التدريب.
  - دولاب البيانات (Data Flywheel): بعد تشغيل النموذج، يتم جمع بيانات الاستخدام الحقيقي باستمرار → اختيار عينات عالية القيمة منها (مثل أخطاء النموذج، المهام منخفضة الثقة، المهام عالية الربحية) → إعادة التدريب أو الضبط الدقيق → تحسين أداء النموذج → جولة استخدام جديدة، مما يشكل حلقة تغذية راجعة إيجابية.
- دورة حياة النموذج والنشر:
  - إدارة إصدارات النموذج: الاحتفاظ لكل نموذج برقم إصدار واضح (إصدار رئيسي وفرعي)، وإصدار بيانات التدريب، ومعلمات الإعداد، ونتائج التقييم، وتقارير الأمان، وسجل التغييرات.
  - CI/CD وخطوط الأنابيب الآلية: بعد اكتمال التدريب، يتم تشغيل التقييم وفحص الأمان تلقائيًا، ومن خلال اختبارات الانحدار وعتبات البوابات (Gating)، لا يُسمح بالنشر التدريجي أو الكامل إلا إذا لم تتراجع المؤشرات الرئيسية بشكل مفرط.
  - التجارب وتوزيع حركة المرور: استخدام أساليب التجارب عبر الإنترنت مثل اختبار A/B، واللصوص متعدد الأذرع (Multi-armed Bandit)، لمقارنة إصدارات النماذج المتعددة، واختيار الأفضل تلقائيًا بناءً على مؤشرات الأعمال الفورية (مثل معدل نجاح المهام، ومعدل حل التذاكر، ورضا المستخدمين).
النماذج / الأدوات
- بحيرات البيانات ومستودعات البيانات:
  - Delta Lake و Apache Hudi و Iceberg و Hive و BigQuery و Snowflake وغيرها، للتخزين والإدارة الموحدة للبيانات المنظمة وغير المنظمة واسعة النطاق.
- معالجة البيانات التدفقية:
  - Kafka و Pulsar و Flink و Spark Streaming وغيرها، لاستقبال السجلات الفورية، ومحادثات المستخدمين، وتدفقات الأحداث.
- إدارة الميزات والعينات:
  - Feast ومتاجر الميزات (Feature Store) الأخرى، ومستودعات العينات المطورة داخليًا، ومخازن البيانات الوصفية للتعلم الآلي (ML Metadata Store)، لتسجيل العينات والميزات وبيانات التدريب الوصفية.
- منصات وضع العلامات وفحص الجودة:
  - Label Studio، والمنصات الشبيهة بـ Scale، وأنظمة وضع العلامات المطورة داخليًا، التي تدعم وضع العلامات متعددة المهام، وفحص الجودة، وإدارة الأفراد.
- منصات MLOps / ModelOps:
  - MLflow و Kubeflow و SageMaker و Vertex AI و Azure ML و Weights & Biases وغيرها، لإدارة تجارب التدريب، والمعلمات، والمؤشرات، ومخرجات النموذج (Model Artifact).
- تسجيل النماذج وإدارة الإصدارات:
  - MLflow Model Registry و SageMaker Model Registry و W&B Artifacts وغيرها.
- أدوات CI/CD:
  - GitHub Actions و GitLab CI و Jenkins و Argo CD و Flux وغيرها، لبناء خطوط أنابيب التسليم المستمر للنماذج.

11.3.1 دولاب البيانات وحلقة التدريب المغلقة: جعل النموذج "أكثر ذكاءً مع الاستخدام"

في تطوير البرمجيات التقليدية، غالبًا ما تكون ترقيات الإصدارات مدفوعة بخطط التطوير؛ أما في عصر النماذج الكبيرة، فتصبح البيانات والتغذية الراجعة هما القوة الدافعة الرئيسية للتكرار. الهدف من دولاب البيانات هو تحويل "استخدام النموذج → تراكم البيانات → إعادة التدريب → ترقية النموذج" إلى حلقة مغلقة تتحرك تلقائيًا، مما يجعل النموذج أفضل فأفضل مع الاستخدام في الأعمال الفعلية.

تشمل الحلقات الأساسية:

جمع البيانات عبر الإنترنت وفرزها في تطبيقات مثل روبوتات المحادثة، وCopilot، والبحث والأسئلة والأجوبة، ومساعدي البرمجة، يمثل كل تفاعل مستخدم عينة تدريب عالية القيمة محتملة. من خلال أنظمة السجلات وتتبع الأحداث، يتم جمع الطلبات، وإجابات النموذج، وسلوك المستخدم (النقر، التبني من عدمه) بشكل منظم، مع إجراء إخفاء الخصوصية وقص الحقول عند طرف الجمع، لضمان عدم إدخال مخاطر امتثال إضافية.
استخراج العينات عالية القيمة فرز مجموعة صغيرة من العينات الأكثر قيمة للتدريب من بين السجلات الهائلة، على سبيل المثال:
1. الإجابات الخاطئة بشكل واضح أو التي لم تعجب المستخدم، لاستخدامها في إعادة التدريب "التصحيحي".
2. عينات الأسئلة الطويلة عالية الصعوبة ومهام سير العمل المعقدة، لتحسين قدرة النموذج على "الاستدلال طويل السلسلة / استدعاء الأدوات متعدد الخطوات".
3. حالات الأعمال النموذجية، والتذاكر عالية القيمة، لبناء قدرات خاصة بالصناعة / المؤسسة.
وضع العلامات ومراقبة الجودة وضع العلامات يدويًا أو شبه تلقائي على العينات المرشحة (بما في ذلك الإجابة المثالية، وترتيب التفضيل، وعلامات الأمان، إلخ)، وضمان جودة وضع العلامات من خلال وسائل متعددة مثل فحص الجودة متعدد الجولات، والمراجعة، والفحص العشوائي، لتوفير بيانات موثوقة لعمليات SFT أو RLHF اللاحقة.
إعادة التدريب المستمر والتقييم والنشر إضافة العينات الجديدة بشكل دوري إلى مجموعة التدريب، وإجراء عمليات إعادة تدريب مثل SFT / DAPT / RLHF، وتقييم "المؤشرات غير المتصلة + التأثير عبر الإنترنت" في آنٍ واحد من خلال مجموعات تقييم معيارية وتجارب A/B عبر الإنترنت، لضمان أن الإصدار الجديد يتفوق على الإصدار القديم إجمالاً، وتجنب "انحراف دولاب البيانات إلى الاتجاه الخاطئ".

في الشكل الناضج، يتم تغليف معظم عمليات دولاب البيانات تلقائيًا داخل منصة Data / Model Ops: بدءًا من جمع البيانات، وفرز العينات، وتوزيع مهام وضع العلامات، إلى تشغيل إعادة تدريب النموذج، وجمع نتائج التقييم، واتخاذ قرار النشر، مع تقليل العمليات اليدوية قدر الإمكان، مما يجعل تكرار النموذج عملية هندسية مستقرة وقابلة للتحكم.

11.3.2 دورة حياة النموذج وModelOps: من النموذج التجريبي إلى أصول الإنتاج

مع النمو الأسي في عدد النماذج وإصداراتها، وبدون إدارة صارمة لدورة الحياة، يمكن أن تظهر بسهولة مشكلات مثل "تشتت النماذج في كل مكان، وتضارب الإصدارات، وصعوبة التراجع". الهدف من ModelOps هو إدارة النماذج باعتبارها أصولًا هندسية من الدرجة الأولى، قابلة للتتبع والمقارنة والتراجع بشكل كامل طوال دورة حياتها.

تشمل النقاط الرئيسية:

الإصدارات وإدارة البيانات الوصفية تخصيص رقم إصدار واضح لكل نموذج (مثل industry-legal-base-v1.2.3)، وتسجيل:
1. إصدار بيانات التدريب ونطاقها الزمني؛
2. إعدادات التدريب (المعلمات الفائقة، إصدار سكريبت التدريب، توجيه الكود Commit المستخدم)؛
3. مؤشرات التقييم (المعايير العامة + المعايير الخاصة بالأعمال)؛
4. تقييم الأمان واستراتيجية المواءمة (مثل إصدار استراتيجية الرد على المواضيع الحساسة)؛
5. سجل تاريخي للتشغيل / الإيقاف / التراجع.
خطوط الأنابيب الآلية الشاملة (CI/CD للنماذج) تغليف عملية "اكتمال تدريب النموذج → التقييم التلقائي → فحص الأمان والتحيز → النشر التدريجي → النشر الكامل" في خط أنابيب CI/CD.
إذا لم تصل مؤشرات التقييم غير المتصلة إلى العتبة المحددة مسبقًا، يتم إيقاف النشر تلقائيًا.
إذا كان أداء تجربة A/B عبر الإنترنت ضعيفًا، يتم تقليل حركة المرور تلقائيًا أو التراجع إلى الإصدار السابق.
التعايش متعدد الإصدارات وجدولة حركة المرور في بيئة الإنتاج، غالبًا ما توجد إصدارات نماذج متعددة في نفس الوقت (مثل stable / canary / experimental)، ويتم مقارنتها عبر الإنترنت من خلال استراتيجيات توزيع حركة المرور (نسبة ثابتة، بُعد المستخدم، بُعد الميزة).
1. يركز اختبار A/B بشكل أكبر على الاستنتاجات الإحصائية المستقرة؛
2. يقوم اللص متعدد الأذرع (Multi-armed Bandit) بالموازنة تلقائيًا بين الاستكشاف والاستغلال، والتقارب بسرعة نحو الإصدار الأفضل أداءً.
دعم الامتثال والتدقيق بالنسبة لصناعات مثل المالية والطبية والحكومية، يجب الاحتفاظ بسجل قابل للتتبع لكل تغيير في إصدار النموذج: من قام بترقية النموذج من أي إصدار إلى أي إصدار، ومتى، وبناءً على أي بيانات، وتقييم الأثر بعد الترقية. يرتبط هذا الجزء عادةً بـ البنية التحتية للأمان والامتثال في القسم 11.5.

على صعيد التنفيذ الهندسي، توفر أدوات مثل MLflow / SageMaker / Vertex AI / W&B بالفعل قدرات ModelOps ناضجة نسبيًا، وستقوم معظم المؤسسات ببناء تغليف ثانوي فوقها يتوافق مع عملياتها الخاصة، لإنشاء مركز تسجيل نماذج داخلي موحد ومنصة نشر.

11.4 المراقبة والتكلفة والموثوقية (Monitoring, Cost & Reliability)

عندما تصبح النماذج الكبيرة بنية تحتية أساسية للأعمال، يصبح ضمان قابليتها للملاحظة والتنبيه والتوسع والتحكم في التكلفة مسؤولية أساسية لفرق SRE وهندسة المنصة. تجمع طبقة المراقبة والتكلفة والموثوقية بين أنظمة المراقبة التقليدية والمؤشرات الخاصة بالنماذج الكبيرة، لبناء عرض متعدد الأبعاد يخدم فرق العمليات والخوارزميات والإدارة.

ترتبط هذه الطبقة من جهة بأنظمة جمع المراقبة والسجلات وتتبع الروابط، ومن جهة أخرى بمؤشرات الأداء الرئيسية للأعمال ومنصات تحليل التكلفة، لتشكل الركيزة الأساسية لضمان أن تكون خدمات النماذج "مستقرة وسريعة واقتصادية".

السيناريوهات
- لوحات مراقبة تشغيلية لفرق العمليات/SRE: عرض موحد لاستخدام CPU/GPU وQPS وزمن الاستجابة ومعدل الأخطاء والتنبيهات وغيرها.
- منصات مراقبة البيانات وجودة النماذج لفرق الخوارزميات: مراقبة توزيع بيانات الإدخال وانحراف النموذج وفعالية هندسة التوجيه ونسبة نجاح RAG وغيرها.
- لوحات صحة الخدمة للإدارة: عرض مؤشرات الأداء الرئيسية للأعمال (معدل التحويل، الرضا، معدل إنجاز المهام) مرتبطة بمؤشرات النموذج.
- منصة تحليل تكاليف الذكاء الاصطناعي وتحسينها: تفصيل تكاليف القدرة الحاسوبية حسب النموذج والمشروع وخط العمل، مع دعم إدارة الميزانيات واستراتيجيات تحسين التكلفة.
- أنظمة الجدولة الذكية والتوسع المرن: التوسع أو التقلص تلقائيًا أو تبديل مواصفات النموذج وفقًا للحمل والميزانية.
- أنظمة فوترة ومحاسبة تكاليف MaaS/API الخارجية: دعم الفوترة حسب أبعاد مثل عدد الاستدعاءات وعدد الرموز واستخدام القدرة الحاسوبية.
المبادئ
- المراقبة وقابلية الملاحظة:
  - المراقبة متعددة الطبقات: من طبقة البنية التحتية (CPU/GPU/الذاكرة/الشبكة/التخزين) إلى طبقة الخدمة (QPS، زمن الاستجابة P50/P95/P99، معدل الأخطاء، إعادة المحاولة عند انتهاء المهلة)، ثم إلى طبقة النموذج (استخدام الرموز، توزيع طول السياق، طول الاستجابة، أنواع الأخطاء الشائعة).
  - السجلات وتتبع الروابط: تسجيل الطلبات/الاستجابات عبر سجلات منظمة (مع إخفاء البيانات الحساسة)، مع تضمين إصدار النموذج وقرارات التوجيه ومعلومات المستأجر؛ استخدام أدوات التتبع الموزع لتسجيل المسار الكامل للطلب من بوابة API → خدمة النموذج → الأنظمة اللاحقة.
  - التنبيه والتحليل: إعداد تنبيهات بالحدود العتبية وكشف الشذوذ وتحليل الاتجاهات، مع الربط بمؤشرات الأعمال والتكلفة والأحداث الأمنية لتحقيق تحديد سريع للموقع والاستعادة.
- التحكم في التكلفة والجدولة المرنة:
  - تحليل التكلفة: تفصيل تكاليف GPU/CPU/التخزين/النطاق الترددي حسب أبعاد النموذج والمشروع وخط العمل، وحساب متوسط التكلفة لكل طلب والتكلفة الهامشية لمختلف المهام/العملاء.
  - الجدولة المرنة: استخدام استراتيجية تقسيم أوقات الذروة والانخفاض، مع التوسع التلقائي في أوقات الذروة والتقلص في أوقات الانخفاض؛ نقل المهام الدفعية غير المتصلة إلى ساعات الليل أو فترات انخفاض الحمل.
  - التخفيض الاستراتيجي والتسريع حسب الطلب: التبديل تلقائيًا إلى نماذج أصغر أو سياق أقصر أو إعدادات استدلال أكثر تحفظًا عند نقص الموارد؛ استخدام نماذج أكبر أو سياق أطول تلقائيًا للطلبات عالية القيمة.
النماذج
- المراقبة والتصور:
  - حلول جمع المؤشرات والتصور مثل Prometheus + Grafana وVictoriaMetrics وThanos.
- أنظمة السجلات:
  - ELK (Elasticsearch + Logstash + Kibana) وEFK (Fluentd/Fluent Bit) وOpenSearch وغيرها.
- تتبع الروابط:
  - OpenTelemetry وJaeger وZipkin وغيرها.
- المراقبة الخاصة بالنماذج:
  - WhyLabs وArize AI وFiddler وEvidently AI وغيرها، لمراقبة انحراف البيانات/النموذج وتقييم جودة المخرجات.
- إحصاء التكاليف وتوزيعها:
  - K8s Metrics/Cost Exporter وKubecost، بالإضافة إلى أدوات إدارة التكلفة من مزودي الخدمات السحابية (AWS Cost Explorer/GCP Billing/Azure Cost Management).
- جدولة الموارد والتوسع المرن:
  - K8s HPA/VPA وCluster Autoscaler وVolcano وRay Cluster Autoscaler.
- تنسيق المهام:
  - Argo Workflows وAirflow وPrefect وDagster وغيرها.

11.4.1 المراقبة وقابلية الملاحظة: من البنية التحتية إلى سلوك النموذج

في أنظمة النماذج الكبيرة، لم تعد مؤشرات CPU/الذاكرة/QPS التقليدية كافية، بل يجب إضافة طبقة مراقبة "بمنظور النموذج" للتمكن من رؤية الحالة الصحية للنظام بوضوح. يتضمن نظام المراقبة الكامل عادةً:

مراقبة البنية التحتية وطبقة الخدمة عبر Prometheus/Grafana وVictoriaMetrics وغيرها لجمع وتصور:
1. استخدام CPU وGPU والذاكرة والقرص والشبكة على مستوى العقدة/Pod؛
2. QPS وزمن الاستجابة P50/P95/P99 ومعدل الأخطاء ونسبة إعادة المحاولة عند انتهاء المهلة وعدد الاتصالات على مستوى الخدمة؛
3. معدل استخدام الموارد على مستوى المجموعة والتنبيهات الاستباقية للسعة.
مراقبة مؤشرات طبقة النموذج بالنسبة لخدمات النماذج الكبيرة، بالإضافة إلى مؤشرات الأداء العادية، هناك حاجة إلى مراقبة متخصصة:
1. استهلاك الرموز لكل طلب (الإدخال/الإخراج)، توزيع طول السياق؛
2. طول الاستجابة ونسبة الاقتطاع، للتحقق من مشاكل الجودة الناتجة عن قيود السياق/طول الإخراج؛
3. إحصاء أنواع الأخطاء الشائعة (مثل الإدخال الطويل جدًا، انتهاء مهلة النموذج، فشل استدعاء الأدوات وغيرها).
السجلات وتتبع الروابط الموزعة
1. استخدام سجلات منظمة لتسجيل معاملات الطلب (بعد إخفاء البيانات الحساسة)، وإصدار النموذج، وقرارات التوجيه، ومعرف المستأجر، ورموز الإرجاع وغيرها من المعلومات.
2. الاستعانة بـ OpenTelemetry وJaeger وZipkin لتتبع مسار الطلب الكامل في بوابة API → خدمة النموذج → الأنظمة اللاحقة → روابط الاستدعاء الراجع، مما يسهل تحديد اختناقات زمن الاستجابة ونقاط الأعطال.
كشف الشذوذ والتنبيه الذكي بالإضافة إلى التنبيهات التقليدية بالحدود العتبية، يمكن إدخال مراقبة إحصائية بسيطة أو نماذج تعلم آلي للكشف عن الشذوذ في QPS وزمن الاستجابة ومعدل الأخطاء وتوزيع الرموز وغيرها، والتنبيه تلقائيًا عند حدوث تغيرات مفاجئة، مع ربطها باستراتيجيات الإصلاح الذاتي (مثل التوسع التلقائي، تحويل المرور، تخفيض الخدمة).

بالنسبة لفرق الخوارزميات، يمكن أيضًا في هذه الطبقة توصيل أدوات مثل WhyLabs وArize وEvidently AI لتتبع توزيع الإدخال وخصائص مخرجات النموذج وحالات الانحراف على المدى الطويل، مما يوفر إشارات لدورة البيانات وإعادة التدريب اللاحقة.

11.4.2 تحليل التكلفة والجدولة المرنة: إيجاد التوازن بين "التجربة" و"الميزانية"

أحد أبرز تحديات تشغيل خدمات النماذج الكبيرة هو ارتفاع التكلفة وتقلبها الكبير. في غياب تحليل دقيق للتكاليف وجدولة مرنة، يصبح من السهل عدم رؤية "أين تُحرق الأموال" عند نمو الأعمال، ويصعب إجراء التعديلات في الوقت المناسب. يشمل النظام الناضج للتكلفة وجدولة الموارد عادةً:

نسب التكلفة وتوزيعها باستخدام Kubecost وأدوات الفوترة من مزودي الخدمات السحابية وسجلات الحسابات المطورة ذاتيًا، يتم تفصيل تكاليف GPU/CPU/التخزين/النطاق الترددي حسب أبعاد النموذج والمشروع وخط العمل والمستأجر، لتمكين كل فريق وعميل من رؤية استهلاك الموارد الحقيقي والتكاليف المقابلة له.
تكلفة الوحدة للطلب وتحليل التكلفة الهامشية
1. حساب متوسط التكلفة لكل طلب لكل نموذج/مهمة (تكلفة لكل 1000 رمز/لكل طلب)، ومقارنة نسبة السعر إلى الأداء بين النماذج والإعدادات المختلفة.
2. تحليل التكلفة الهامشية لمختلف العملاء وسيناريوهات الأعمال المختلفة، مما يوفر أساسًا لاستراتيجيات التسعير (فوترة API) وتصنيف SLA وتجميع المنتجات.
التوسع والتقلص المرن واستغلال أوقات الذروة والانخفاض
1. عبر آليات مثل K8s HPA/VPA وCluster Autoscaler وRay Autoscaler لتحقيق التوسع والتقلص التلقائي، وضمان عدم انهيار الخدمة في أوقات الذروة وعدم بقاء الموارد معطلة في أوقات الانخفاض.
2. جدولة المهام غير المتصلة (مثل إنشاء المحتوى الدفعي، إعادة تشغيل السجلات، التقييم غير المتصل) في ساعات الليل أو خارج أوقات الذروة، لتحسين استخدام GPU الإجمالي وتنعيم منحنى التكلفة.
التخفيض الاستراتيجي والتسريع حسب الطلب
1. تشغيل استراتيجيات التخفيض تلقائيًا عند نقص الموارد أو تجاوز الميزانية: استخدام نماذج أصغر، تقصير السياق أو الإخراج، خفض درجة التوازي.
2. للطلبات عالية القيمة (مثل المستخدمين المميزين المدفوعين، العمليات التجارية الحيوية)، استخدام نماذج أكبر أو سياق أطول أو قدرات استدعاء أدوات أكثر ثراءً تلقائيًا، لتحقيق "توزيع القدرة الحاسوبية حسب القيمة".

في سيناريوهات API الخارجية، ترتبط هذه الطبقة ارتباطًا وثيقًا بنظام الفوترة، لتشكيل منصة فوترة ومحاسبة تكاليف MaaS/API: حيث تتم الفوترة وفقًا لاستخدام الرموز وعدد الاستدعاءات ومواصفات النموذج ونوع الطلب، مع توفير تحليل التكلفة والهامش الربحي لفرق العمليات والمبيعات.

11.5 البنية التحتية للأمان والصلاحيات والامتثال (Security, Access Control & Compliance Infra)

عندما تدخل قدرات النماذج اللغوية الكبيرة قطاعات عالية الحساسية مثل المالية والرعاية الصحية والشؤون الحكومية، يصبح الأمان والامتثال ليس "قيمة مضافة" بل شرطًا أساسيًا لدخول هذه السيناريوهات. تتولى طبقة البنية التحتية للأمان والصلاحيات والامتثال بناء خط دفاع على مستوى النظام يشمل التحكم في الوصول، وأمن البيانات، وحماية الخصوصية، والتدقيق الامتثالي، لضمان تشغيل خدمات النماذج بشكل موثوق ضمن الأطر القانونية والتنظيمية.

ترتبط هذه الطبقة من جهة بأنظمة المصادقة وإدارة الصلاحيات والمفاتيح والتشفير، ومن الجهة الأخرى بخدمات النماذج ومنصات السجلات والتدقيق، وهي العنصر الأساسي لتحويل "النموذج القابل للاستخدام" إلى "نموذج يمكن الوثوق به".

السيناريوهات
- منصات النماذج اللغوية الكبيرة المحلية في القطاعات عالية الامتثال مثل المالية والرعاية الصحية والحكومية: تتطلب بقاء البيانات داخل النطاق، وقابلية التدقيق، وقابلية التتبع.
- بوابة موحدة للتحكم في الوصول والتدقيق للذكاء الاصطناعي على مستوى المؤسسة: إجراء مصادقة موحدة وإدارة صلاحيات وتسجيل تدقيق لجميع استدعاءات النماذج.
- منصات SaaS / السحابة متعددة المستأجرين: تحتاج إلى توفير عزل أمني صارم ودعم امتثال للعملاء المختلفين على المستويين المنطقي والمادي.
- واجهات مفتوحة للشركاء والنظام البيئي: تتطلب تحكمًا دقيقًا في الصلاحيات وحدود الحصص لاستدعاءات API، مع استيفاء متطلبات الامتثال (مثل GDPR وغيرها).
المبادئ
- التحكم في الوصول وعزل المستأجرين:
  - استخدام API Key / Token / OAuth / SSO وغيرها من الوسائل للمصادقة على الهوية.
  - إدارة دقيقة للصلاحيات عبر أبعاد النموذج والوظائف ومعدل الاستدعاء ونطاق البيانات باستخدام RBAC (التحكم في الوصول القائم على الأدوار) و ABAC (التحكم في الوصول القائم على السمات).
  - تحقيق عزل البيانات والسجلات والإعدادات وأوزان النماذج في البيئات متعددة المستأجرين، لمنع الوصول العابر للمستأجرين وتسرب المعلومات.
- أمن البيانات وحماية الخصوصية:
  - استخدام تشفير النقل TLS والتشفير التخزيني وإدارة المفاتيح المركزية (KMS) لضمان أمان البيانات في مرحلتي النقل والتخزين.
  - تطبيق إخفاء البيانات الحساسة في السجلات واستراتيجيات تقليل البيانات، والاحتفاظ فقط بالمعلومات الضرورية للأعمال والتحسين، مع تدقيق سلوكيات الوصول.
  - إدخال تقنيات تعزيز الخصوصية (مثل إخفاء هوية البيانات، والخصوصية التفاضلية، والتعلم الفيدرالي) في السيناريوهات الضرورية لتقليل مخاطر الخصوصية بشكل أكبر.
- الامتثال والتدقيق:
  - توثيق كامل والموافقة على العمليات الحرجة مثل نشر النماذج، وتغييرات الإعدادات، وتغييرات الصلاحيات، وتعديلات استراتيجيات التوجيه.
  - تسجيل بيانات وصفية قابلة للتتبع لكل طلب: مصدر الطلب، وإصدار النموذج، وأسس القرار (مثل قاعدة المعرفة المستخدمة / حالة استدعاء الأدوات).
  - ضمان توافق تصميم النظام وتشغيله مع المتطلبات التنظيمية للقطاعات المالية والرعاية الصحية والحكومية، بالإضافة إلى معايير الامتثال المحلية والعابرة للحدود للبيانات.
النماذج
- المصادقة وإدارة الصلاحيات:
  - Keycloak، Auth0، Okta، IAM من مزودي السحابة المختلفين (AWS IAM / GCP IAM / Azure AD).
  - محركات السياسات مثل OPA (Open Policy Agent) + Rego Policy لإدارة وتنفيذ السياسات بشكل موحد.
- بوابة أمان API:
  - Kong، Apigee، Envoy، API Gateway من مزودي السحابة وغيرها.
- أمن البيانات والمفاتيح:
  - KMS (Key Management Service)، HashiCorp Vault.
  - نقاط نهاية TLS، الحوسبة السرية (Confidential Computing) وغيرها.

11.5.1 التحكم في الوصول وعزل المستأجرين: ضمان "من يمكنه الاستخدام، وما يمكنه استخدامه، وكم يمكنه استخدامه"

في منصات النماذج اللغوية الكبيرة التي تستخدمها خطوط أعمال متعددة وعملاء متعددون وأدوار متعددة، بدون تحكم دقيق في الوصول وعزل المستأجرين، قد تظهر بسهولة مشاكل خطيرة مثل إساءة استخدام الصلاحيات وتسرب البيانات والتنافس على الموارد. يتطلب نظام الوصول والعزل المتكامل التعاون في الأبعاد التالية:

**المصادقة و****الدخول الموحد (SSO)** عبر API Key / Token و OAuth2 / OIDC و SSO المؤسسي وغيرها من الوسائل، لإجراء مصادقة موحدة للموظفين الداخليين والشركاء الخارجيين والتطبيقات الخارجية. بالنسبة للمستخدمين المؤسسيين، يمكن التكامل مع أنظمة الهوية الحالية (مثل AD / LDAP / IAM المؤسسي) لتجنب ازدواجية أنظمة الحسابات.
التحكم الدقيق في الصلاحيات ( RBAC** / ** ABAC )
RBAC: تكوين النماذج والبيئات (اختبار / إنتاج) والعمليات (استدعاء / إعداد / نشر) والحصص التي يمكن الوصول إليها بشكل منفصل لأدوار مثل المسؤولين ومهندسي الخوارزميات والعمليات التجارية والمستخدمين العاديين والشركاء.
ABAC: على أساس الأدوار، إدخال سمات مثل معرف المستأجر ومعرف المشروع ونطاق البيانات والفترة الزمنية لتحقيق سياسات أكثر مرونة (مثل "السماح فقط للمستأجر الحكومي أ باستدعاء مجموعة النماذج المحلية داخل النطاق المحلي").
عزل المستأجرين المتعددين وإدارة الحصص
1. على المستوى المنطقي، عزل استدعاءات وبيانات وسجلات العملاء المختلفين عبر معرف المستأجر؛
2. على المستوى المادي، توفير مجموعات مخصصة أو عقد مخصصة للعملاء ذوي الامتثال العالي (مثل البنوك والحكومة) لتحقيق مستوى أعلى من العزل؛
3. تكوين حدود QPS وعدد الاتصالات المتزامنة وحصص token للمستأجرين المختلفين، لمنع "انهيار النظام بسبب اندفاع مستأجر واحد".
تدقيق الوصول وتقييم السياسات
1. تسجيل تدقيق للعمليات الحرجة (مثل إنشاء / حذف API Key، وتعديل الصلاحيات، وتعديل الحصص)؛
2. الاستعانة بمحركات سياسات مثل OPA / Rego لإجراء تقييم وتفسير موحدين للسياسات المعقدة قبل التنفيذ، مما يقلل من مخاطر "تشتت السياسات داخل الكود".

من خلال هذه الآلية، يمكن للمنصة فتح قدرات النماذج اللغوية الكبيرة للمستخدمين الداخليين والخارجيين مع ضمان أمان الموارد والبيانات، وتوفير البيانات الأساسية للتدقيق الامتثالي اللاحق وتحديد المسؤولية عند حدوث مشاكل.

11.5.2 أمن البيانات والخصوصية والتدقيق الامتثالي: جعل النموذج "سهل الاستخدام ومتوافقًا في آنٍ واحد"

غالبًا ما تتعامل النماذج اللغوية الكبيرة مع كميات كبيرة من البيانات الحساسة (محادثات المستخدمين، ووثائق الأعمال، وسجلات المعاملات، إلخ)، وإذا حدثت مشكلة في الأمان أو الامتثال، فقد تكون العواقب وخيمة للغاية. لذلك، هناك حاجة إلى "حماية متعددة الطبقات" عبر دورة حياة البيانات الكاملة وسلسلة استدعاء النموذج بأكملها.

أمان نقل البيانات وتخزينها
1. تفعيل تشفير TLS بشكل موحد لجميع الواجهات الخارجية والداخلية، لمنع التنصت أو التلاعب أثناء النقل؛
2. استخدام التشفير التخزيني الثابت للبيانات الحساسة، بالتعاون مع KMS من مزودي السحابة أو المبني ذاتيًا لإدارة دورة حياة المفاتيح؛
3. استخدام أدوات مثل Vault لإدارة المفاتيح وبيانات الاعتماد المطلوبة للوصول إلى قواعد البيانات ومخازن الكائنات وواجهات API الخارجية بشكل مركزي.
مبدأ التقليل وإخفاء البيانات الحساسة
1. جمع حقول البيانات الضرورية للأعمال فقط، وإزالة معلومات الهوية الشخصية (PII) والحقول الحساسة قدر الإمكان من السجلات وعينات التدريب؛
2. إجراء تجزئة أو إخفاء هوية للمعرفات التي يجب الاحتفاظ بها حتمًا، لتقليل مخاطر التسرب؛
3. في سيناريوهات RAG / قاعدة المعرفة، تطبيق تصنيف صلاحيات للوصول إلى الوثائق، لضمان عدم استرجاع النموذج للمعلومات من "وثائق لا ينبغي له الاطلاع عليها".
تقنيات تعزيز الخصوصية والقيود الطرفية
1. في السيناريوهات التي تحتاج إلى مشاركة النموذج دون مشاركة البيانات الأصلية، إدخال تقنيات مثل الخصوصية التفاضلية أو التعلم الفيدرالي، لتحقيق التوازن بين الخصوصية والفعالية؛
2. بالنسبة لسيناريوهات الشؤون الحكومية والمالية والرعاية الصحية، اعتماد نموذج "البيانات لا تغادر النطاق، والنموذج يُنزَّل أو يُنشَر محليًا"، لنشر قدرات التدريب / الاستدلال داخل نطاق الامتثال.
آلية الامتثال والتدقيق
1. تطبيق سير موافقة وتوثيق لعمليات نشر النماذج وتغيير الإعدادات وتعديل الصلاحيات، لتسهيل التتبع اللاحق؛
2. تسجيل معلومات وصفية لكل طلب مثل إصدار النموذج وطرف الاستدعاء وقرار التوجيه ونطاق الوصول إلى البيانات، للتمكن من إعادة التحليل عند ظهور نزاعات أو احتياجات تحقيق؛
3. إصدار تقارير امتثال دورية (مثل تدقيق الوصول إلى البيانات، وسجلات استخدام الصلاحيات، وتقارير الأحداث غير الطبيعية)، للتكامل مع الرقابة الداخلية ومتطلبات الجهات التنظيمية الخارجية.

تتعاون هذه القدرات مع منصات Data / Model Ops والمراقبة المذكورة في 11.3 و 11.4، لتشكل معًا بيئة تشغيل نماذج "قادرة على التطوير المستمر وآمنة ومتوافقة في آنٍ واحد".

11.6 التطبيقات العليا وقدرات المنصة الوسيطة (Application Enablers)

مع وجود بنية تحتية متكاملة تشمل التدريب والاستدلال والأمن والتشغيل، تبرز الحاجة إلى "طبقة قدرات" موجهة للأعمال والمطورين، تعمل على تجريد النماذج اللغوية الكبيرة إلى مكونات وخدمات أسهل استخدامًا وأقرب إلى دلالات الأعمال. تُعرف هذه الطبقة عادةً باسم منصة الذكاء الاصطناعي الوسيطة، أو طبقة تمكين التطبيقات، أو منصة Copilot، وتتمثل مهمتها في: تغليف النموذج الكبير + RAG + Agent + سير العمل في قدرات معيارية، مما يمكّن فرق الأعمال والشركاء في النظام البيئي من بناء تطبيقات الذكاء الاصطناعي بسرعة.

تربط هذه الطبقة من جهة واجهات النماذج البرمجية ومحركات RAG ومنسقي Agent، ومن جهة أخرى أنظمة الأعمال مثل CRM / ERP / OA / أنظمة التذاكر، مما يجعلها جسرًا حيويًا "من قدرات النموذج إلى سيناريوهات الأعمال".

السيناريوهات
- منصة الذكاء الاصطناعي الوسيطة / منصة Copilot المؤسسية: توفير قدرات ذكية موحدة (محادثة، RAG، Agent، إلخ) لأنظمة المؤسسة الداخلية مثل CRM و ERP و OA وخدمة العملاء والتسويق والبحث والتطوير.
- منصة تطوير التطبيقات للمطورين والشركاء: تمكين الأطراف الثالثة من بناء ونشر تطبيقات الذكاء الاصطناعي بسرعة عبر حزم SDK ومشاريع القوالب وأدوات التنسيق المرئي.
- الواجهة الخلفية للذكاء الاصطناعي في منتجات SaaS القطاعية: مثل منصات خدمة العملاء الذكية السحابية، ومنصات التسويق السحابية، ومنصات التعاون المكتبي السحابية، ومنصات إدارة البحث والتطوير السحابية، حيث يتم دمج قدرات الذكاء الاصطناعي في منظومة المنتجات القائمة.
- مساعدو السيناريوهات الرأسية: مثل مساعد البرمجة Copilot، ومساعد المبيعات، ومساعد العمليات، والمساعد القانوني، ومساعد الطبيب، حيث يتم تجميع الحلول السيناريوهية بسرعة من خلال قدرات المنصة الوسيطة.
المبادئ
- قدرات المحادثة والوكيل (Agent):
  - إدارة الجلسات والذاكرة: الحفاظ على حالة المحادثة متعددة الأدوار والذاكرة طويلة المدى، مع دعم تبديل المواضيع وضغط السياق والملفات الشخصية المخصصة.
  - استدعاء الأدوات (Tool Use) وتنسيق سير العمل: ربط النموذج بالأنظمة الخارجية (قواعد البيانات، البحث، واجهات الأعمال البرمجية، خدمات الطرف الثالث) عبر استدعاء الدوال أو آليات الإضافات؛ وفي المهام المعقدة، استخدام منسق سير العمل (Workflow / Orchestrator) لربط العمليات متعددة الخطوات.
  - التعاون متعدد الوكلاء (Multi-Agent): تقسيم المهام المعقدة إلى أدوار مختلفة (مثل المخطط والمنفذ والمراجع) لإنجاز تحليل المهام وتجميع النتائج بطريقة تعاونية.
- RAG وقواعد المعرفة:
  - تحليل المستندات ومعالجتها المسبقة: تحليل مستندات PDF و Word وصفحات الويب والصور الممسوحة ضوئيًا إلى نصوص، وتقطيعها وهيكلتها.
  - التضمين (Embedding) والاسترجاع: استخدام نماذج التضمين لتحويل النصوص والجداول والأكواد البرمجية وغيرها من المحتويات إلى متجهات، وبناء فهارس متجهة؛ والجمع بين البحث بالكلمات المفتاحية والبحث المتجهي لتحقيق استرجاع عالي.
  - الاسترجاع + التوليد (RAG) وسلسلة الأدلة: عند الاستدلال، يتم أولاً استرجاع المحتوى ذي الصلة من قاعدة المعرفة، ثم يقوم النموذج الكبير بالإجابة بناءً على نتائج الاسترجاع، مع إخراج المراجع وسلسلة الأدلة لتحسين الدقة وقابلية التفسير.
  - الرسم البياني المعرفي ودمج المعرفة المنظمة: دمج الرسوم البيانية المعرفية المجالية وجداول بيانات الأعمال وأنظمة القواعد مع LLM لتحسين القدرة على معالجة الاستعلامات المنظمة والقيود المعقدة.
- وصول المطورين والتطوير الثانوي:
  - حزم SDK متعددة اللغات وتصميم API: توفير حزم SDK بلغات Python / JS / Java / Go وغيرها، تغلف أنماط الاستدعاء وإعادة المحاولة ومعالجة العِوض (Idempotency).
  - القوالب والبناء منخفض/بدون كود: تمكين المطورين غير المتخصصين من بناء RAG / Agent / Workflow من خلال مشاريع القوالب الجاهزة وأدوات "تجميع المكعبات" المرئية.
  - الإضافات والبرمجيات الوسيطة: توفير إضافات أو برمجيات وسيطة للأنظمة التجارية الشائعة (CRM / ERP / OA / أنظمة التذاكر، إلخ) لتقليل تكاليف التكامل.
النماذج
- أطر المحادثة / Agent:
  - LangChain، LlamaIndex، Haystack، Semantic Kernel وغيرها.
  - طبقة تنسيق مطورة ذاتيًا: تتضمن عادةً محرك سير العمل (Workflow Engine)، وموجه الأدوات (Tool Router)، ووحدة إدارة الذاكرة.
- RAG والاسترجاع المتجهي:
  - قواعد البيانات المتجهة: FAISS، Milvus، Qdrant، Weaviate، Pinecone وغيرها.
  - تحليل المستندات: unstructured، Textract، pdfplumber، Apache Tika وغيرها.
- طبقة SDK / الوصول:
  - حزم SDK رسمية أو مطورة ذاتيًا، ومكتبات مكونات الواجهة الأمامية (مكونات الدردشة، إدارة قوالب التوجيه، عرض سجلات المحادثة).
  - برمجيات وسيطة / إضافات للتكامل مع أنظمة الأعمال (CRM / ERP / OA / أنظمة التذاكر، إلخ).

11.6.1 تنسيق المحادثة والوكيل (Agent): من "روبوت الأسئلة الشائعة" إلى "كيان التعاون في المهام"

مقارنة بروبوتات الأسئلة الشائعة (FAQ) المبكرة، تبدو التطبيقات الحديثة المدفوعة بالنماذج الكبيرة أشبه بـ "متعاون ذكي يستخدم الأدوات". الهدف من تنسيق المحادثة والوكيل هو ترقية النموذج الكبير من "مولد لغة" إلى وكيل ذكي قادر على استدعاء الأدوات وتنفيذ الخطط وتنسيق أدوار متعددة.

إدارة المحادثة وآليات الذاكرة
1. الحفاظ على سياق المحادثة وملف المستخدم والذاكرة طويلة المدى، وضمان الاتساق والترابط عبر التفاعلات متعددة الأدوار؛
2. استخدام التلخيص والذاكرة القائمة على الاسترجاع لضغط المحادثات الطويلة جدًا، تجنبًا "لانفجار" نافذة السياق؛
3. في التطبيقات المؤسسية، إدخال معلومات الهوية والصلاحيات في سياق المحادثة، بحيث تتوافق الإجابات والعمليات مع صلاحيات المستخدم في نظام الأعمال.
استدعاء الأدوات (Tool Use) وتنسيق سير العمل
1. تزويد النموذج بقائمة منظمة من الأدوات (مثل "الاستعلام عن طلب"، "إنشاء تذكرة"، "الاستعلام عن المخزون"، "استدعاء محرك بحث"، إلخ)، وتمكينه من استدعائها بشكل استباقي عند الحاجة عبر واجهة استدعاء الدوال؛
2. استخدام المنسق (Orchestrator) لتنسيق ترتيب استدعاءات الأدوات المتعددة وتدفق البيانات ومعالجة الأخطاء وفقًا للخطة التي يقترحها النموذج؛
3. نمذجة سير العمل للعمليات التجارية المعقدة (مثل سير الموافقات، وتسوية المصروفات، ومعالجة خدمات ما بعد البيع)، لتمكين Agent من لعب دور "منسق العمليات".
أنماط التعاون متعدد الوكلاء
1. تقسيم المهام المعقدة إلى أدوار متعددة: مثل "Agent تخطيط المهام"، "Agent استرجاع المعلومات"، "Agent التنفيذ"، "Agent فحص الجودة / المراجعة"؛
2. تحقيق التعاون بين الوكلاء عبر قنوات الرسائل أو الذاكرة المشتركة، لتعزيز متانة المهام المعقدة وقابليتها للتفسير؛
3. في البيئة المؤسسية، يمكن إدراج الأدوار البشرية في حلقة التعاون، مثل "صياغة AI – مراجعة بشرية – تعديل AI – تنفيذ النظام".

تعتمد هذه الطبقة عادةً على أطر جاهزة مثل LangChain و Semantic Kernel و LlamaIndex، مع خدمات تنسيق مطورة ذاتيًا، لتوحيد المحادثة والأدوات وسير العمل والصلاحيات والتدقيق ضمن "منصة Agent" واحدة.

11.6.2 RAG وقواعد المعرفة ومنصة المطورين: "توصيل المعرفة المؤسسية إلى عقل النموذج"

مهما بلغت قوة النموذج الكبير، لا يمكنه بطبيعة الحال إتقان المعرفة الخاصة بكل مؤسسة، ناهيك عن معرفة أحدث السياسات والمنتجات وقواعد الأعمال في الوقت الفعلي. RAG + قاعدة المعرفة + منصة المطورين هي المسار الرئيسي لدمج المعرفة المؤسسية والمعرفة القطاعية والبيانات الفورية في قدرات النموذج بطريقة هندسية منهجية.

تحليل المستندات وإدخال المعرفة
1. استخدام مكونات مثل unstructured و Textract و pdfplumber و Tika لتحليل مستندات PDF و Office وصفحات الويب والصور الممسوحة ضوئيًا إلى نصوص منظمة؛
2. "تقطيع" المحتوى حسب الفصول والعناوين والكتل الدلالية لتوفير حجم حبيبي مناسب للتضمين والاسترجاع اللاحقين؛
3. بالنسبة للمعلومات المنظمة كجداول البيانات وقواعد بيانات الأعمال ووثائق API، يتم بناء تعيينات المخططات (schema) وواجهات الوصول المناسبة.
التضمين والفهرسة وإعادة ترتيب الاسترجاع
1. استخدام نماذج Embedding لتحويل النصوص والأكواد البرمجية والمحتويات متعددة الوسائط إلى متجهات، وتخزينها في قواعد بيانات متجهة مثل FAISS و Milvus و Qdrant و Weaviate و Pinecone؛
2. الاحتفاظ في الوقت نفسه بفهارس الكلمات المفتاحية وقدرات تصفية البيانات الوصفية (مثل التصفية حسب المستأجر أو القسم أو نوع المستند)، لتكوين سير عمل عالي الدقة "تصفية قبل الاسترجاع + استرجاع دلالي + إعادة ترتيب"؛
3. عند الاستعلام، يتم تغذية نتائج الاسترجاع مع السؤال الأصلي إلى النموذج الكبير لتحقيق "التوليد المعزز بالاسترجاع (RAG)"، مع إرجاع المراجع وسلسلة الأدلة.
قوالب تطبيقات RAG والبناء منخفض/بدون كود
1. توفير قوالب RAG جاهزة للسيناريوهات الشائعة (الأسئلة والأجوبة المعرفية، تفسير السياسات، شرح المنتجات، مساعد المستندات الداخلية، إلخ)؛
2. بناء مساعد معرفي مخصص بسرعة من خلال واجهة تكوين مرئية (اختيار مصدر المعرفة، تحديد قواعد التقطيع، اختيار نموذج التضمين والنموذج الكبير)؛
3. إتاحة هذه القدرات للمطورين على شكل حزم SDK، لدعم تضمينها السريع في الويب أو تطبيقات الجوال أو تطبيقات سطح المكتب أو إضافات أنظمة الأعمال.
منصة المطورين والتكامل مع النظام البيئي
1. توفير حزم SDK بلغات Python / JS / Java / Go وغيرها، بالإضافة إلى مكونات الواجهة الأمامية (فقاعات الدردشة، منطقة مراجع المستندات، أزرار التغذية الراجعة، إلخ) لخفض عتبة التكامل؛
2. توفير إضافات أو برمجيات وسيطة لأنظمة الأعمال الرئيسية (CRM / ERP / OA / أنظمة التذاكر)، لتمكينها من الاتصال بقدرات الذكاء الاصطناعي "ببضع نقرات في الإعدادات"؛
3. فتح منصة تطوير التطبيقات للخارج، لتمكين شركاء النظام البيئي من بناء تطبيقاتهم القطاعية الخاصة بناءً على النموذج الأساسي وقدرات RAG و Agent، مما يشكل حلقة إيجابية من "المنصة – النظام البيئي – العميل النهائي".

تقوم هذه الطبقة في النهاية بتغليف قدرات النموذج والبنية التحتية المعقدة إلى "مكونات أعمال قابلة لإعادة الاستخدام والتجميع"، مما يساعد المؤسسات على تحويل النماذج الكبيرة فعليًا إلى أدوات إنتاجية تدفع عجلة ابتكار الأعمال، بعتبة دخول أقل وسرعة أكبر، مع ضمان الأمان والامتثال والتحكم في التكاليف.

قاموس قدرات الذكاء الاصطناعي ​

ما ستتعلمه في هذا الدرس ​

معلمات النماذج المذكورة في الدليل ​

1. المهام النصية (Text / NLP / LLM) ​

1.1 النمذجة اللغوية الأساسية والتمثيل ​

1.1.1 النمذجة اللغوية: تعلم اللغة من خلال "تخمين الكلمة التالية" ​

1.1.2 تمثيل الكلمات والجمل والمستندات: نقل الرموز المتقطعة إلى الفضاء الدلالي ​

1.2 تصنيف النصوص ومطابقة النصوص (Classification & Matching) ​

1.2.1 تصنيف النصوص: من "فهم المحتوى" إلى "توصيف المحتوى" ​

1.2.2 مطابقة النصوص: "العثور على الجملة الأنسب" لجملة ما ​

1.3 تصنيف التسلسل واستخراج المعلومات (Sequence Labeling & Information Extraction) ​

1.3.1 تصنيف التسلسل: وضع "تصنيفات" دلالية على كل token وعبارة ​

1.3.2 استخراج العلاقات والأحداث: ربط "النقاط" لتشكيل "خطوط" و"قصص" ​

1.4 إنشاء النصوص وتحريرها (Text Generation & Editing) ​

2. نمط الصورة (Image / Vision) ​

2.1 الرؤية منخفضة المستوى (Low‑Level Vision) ​

2.1.1 استعادة الصورة وتحسينها: من "قابلة للرؤية" إلى "واضحة المعالم" ​

2.1.2 السمات البنيوية والمعالجة المسبقة: بناء "السقالات" للفهم عالي المستوى ​

2.2 تصنيف الصور والتعرف عليها (Image Classification & Recognition) ​

2.2.1 تصنيف الصور: الإجابة عن "أي نوع من الصور هذه؟" ​

2.2.2 التعرف على الصور والتعرف على السمات: الإجابة عن "من هذا / أي مثيل هذا؟" ​

2.3 اكتشاف الكائنات (Object Detection) ​

2.3.1 الكشف أحادي المرحلة وثنائي المرحلة: مقايضة هيكلية بين الدقة والسرعة ​

2.3.2 القائم على المربعات الارتساء والخالي منها: من الإعداد اليدوي إلى التعلم من طرف إلى طرف ​

2.3.3 الأهداف الصغيرة وكشف الفيديو: نحو المتانة في السيناريوهات الواقعية ​

2.4 تجزئة الصور (Image Segmentation) ​

2.4.1 التجزئة الدلالية وتجزئة المثيلات: من "فئة البكسل" إلى "مثيل البكسل" ​

2.4.2 التجزئة العامة والتجزئة غير الموجهة: من التخصيص للمهمة إلى "Segment Anything" ​

2.5 اكتشاف النقاط الرئيسية والتعرف على الحركات (Keypoint Detection & Action Recognition) ​

2.5.1 اكتشاف النقاط الرئيسية وتقدير الوضعية: "رسم الهيكل العظمي" للأشخاص والأشياء ​

2.5.2 التعرف على الحركات وفهم السلوك: جعل "الهيكل العظمي" يتحرك ​

2.6 الكشف بالمفردات المفتوحة / العالم المفتوح / المجال المفتوح ​

2.6.1 الكشف بالمفردات المفتوحة: من رأس الفئات الثابت إلى فضاء الفئات المدفوع بالنص ​

2.6.2 الكشف بالعالم المفتوح: من "الفئات غير المرئية" إلى "المجهول القابل للتعلم" ​

2.6.3 الكشف بالمجال المفتوح / التوزيع المفتوح: المتانة عبر الأنماط والأجهزة والمشاهد ​

2.7 مهام الرؤية-اللغة (Vision–Language Tasks) ​

2.7.1 وصف الصور والإجابة البصرية عن الأسئلة: من "التحدث عن الصور" إلى "الاستدلال على الصور" ​

2.7.2 الاسترجاع عبر الأنماط والمحاذاة عبر الأنماط: البحث عن الصور بالنص والبحث عن النص بالصورة ​

2.8 التعرف البصري على الأحرف (OCR) ​

2.8.1 كشف النص والتعرف عليه: من البكسلات إلى نصوص قابلة للاستخدام ​

2.8.2 تحليل تخطيط المستندات وبنية الجداول: استعادة "شكل المستند" ​

2.8.3 الإجابة على أسئلة المستندات وDocVQA: من "قراءة المستند" إلى "سؤال المستند" ​

2.9 توليد الصور وتحريرها (Image Generation & Editing) ​

2.9.1 توليد الصور من النصوص (Text‑to‑Image): من جملة إلى لوحة ​

2.9.2 التحويل من صورة إلى صورة (Image‑to‑Image): الترجمة ونقل النمط وإعادة التلوين المحلي ​

2.9.3 التحرير الموجه بالنص: اللغة الطبيعية "كفرشاة رسم" ​

2.10 تقييم جودة الصورة (Image Quality Assessment, IQA) ​

2.10.1 أنواع التقييم: بمرجع، بدون مرجع، وبمرجع زائف ​

2.10.2 المؤشرات ونماذج التعلم: من PSNR إلى التنبؤ بالجودة الإدراكية ​

3. النمط ثلاثي الأبعاد / المكاني (3D / Spatial / XR) ​

3.1 الإدراك وإعادة البناء ثلاثي الأبعاد (3D Perception & Reconstruction) ​

3.1.1 معالجة السحب النقطية واكتشاف الأهداف ثلاثية الأبعاد ​

3.1.2 الهندسة متعددة المناظير وإعادة البناء ثلاثي الأبعاد: من الصور إلى الشبكة ​

3.1.3 حقول الإشعاع العصبي والعرض الحجمي: NeRF وGaussian والجيل الجديد من إعادة البناء ثلاثي الأبعاد ​

3.2 فهم المشهد ثلاثي الأبعاد والتحديد المكاني (3D Scene Understanding & SLAM) ​

3.2.1 التقسيم الدلالي ثلاثي الأبعاد وفهم المناطق القابلة للمرور ​

3.2.2 تقدير الوضعية و SLAM والتحديد المكاني بدمج متعدد المستشعرات ​

3.2.3 الخرائط الدلالية والملاحة وتجنب العوائق ​

3.3 التوليد والتحرير ثلاثي الأبعاد (3D Generation & Editing) ​

3.3.1 النص إلى ثلاثي الأبعاد ونماذج المشاهد الأولية ​

3.3.2 الصورة/الفيديو إلى ثلاثي الأبعاد وتحسين النماذج وتحريرها ​

3.3.3 الربط والتحريك والأصول ثلاثية الأبعاد الديناميكية ​

4. الصوت (Audio / Speech) ​

4.1 معالجة الصوت على مستوى الموجة: البدء من "السمع بوضوح" ​

4.1.1 المعالجة المسبقة واستخراج الميزات: "تمهيد المسرح" للمعالجة الخلفية ​

4.1.2 التحسين وإزالة الضوضاء: إصلاح "الصوت المشوش" إلى "صوت جاف" ​

4.1.3 فصل مصادر الصوت: تفكيك "المزيج الصوتي" ​

4.2 التعرف على الكلام وتقنيات المتحدث (ASR & Speaker) ​

4.2.1 التعرف التلقائي على الكلام (ASR): تحويل "الصوت" إلى "نص" ​

4.2.2 التعرف على المتحدث وفصله وتصنيفه: الإجابة على "من المتحدث" و"متى يتحدث" ​

4.2.3 الكشف عن الكلمات التنبيهية والكلمات المفتاحية: "الأذن" الموجهة للتفاعل والمراقبة ​

4.3 فهم الصوت والموسيقى (Audio Event & Music Understanding) ​

4.3.1 الأحداث الصوتية والمشاهد الصوتية البيئية: جعل الأجهزة "تفهم البيئة" ​

4.3.2 فهم الموسيقى والتوسيم: من "تسميات قوائم التشغيل" إلى "تحليل البنية" ​

4.4 توليد الصوت والكلام (TTS / VC / توليد الموسيقى) ​

4.4.1 تحويل النص إلى كلام (TTS): جعل الآلة "تتكلم بشكل طبيعي" ​

4.4.2 تحويل الصوت واستنساخ البصمة الصوتية: تغيير "من يتكلم" ​

4.4.3 توليد الموسيقى والمؤثرات الصوتية: من التعليمات إلى مشهد صوتي كامل ​

5. الفيديو (Video) ​

5.1 معالجة الفيديو التقليدية: من "قابل للتشغيل" إلى "جذاب وسهل الاستخدام" ​