Skip to content

الشبكات العصبية والتعلم العميق

مقدمة

الشبكات العصبية هي محرك ثورة الذكاء الاصطناعي. من فهم لغة ChatGPT إلى التعرف على الصور في القيادة الذاتية، الشبكات العصبية هي ما يعمل خلف الكواليس. إنها ليست سحرًا، بل إطار رياضي متقن - "تتعلم" من خلال كميات كبيرة من البيانات لرسم علاقة التعيين بين المدخلات والمخرجات. فهم مبادئها الأساسية يمكن أن يساعدك في استخدام وتصحيح أدوات الذكاء الاصطناعي بشكل أفضل.

ماذا ستتعلم من هذه المقالة؟

بعد إكمال هذا الفصل، ستكتسب:

  • المفاهيم الأساسية: فهم المبادئ الأساسية للعصبونات، الطبقات، الانتشار الأمامي، والانتشار العكسي
  • أنواع الشبكات: التعرف على خصائص وسيناريوهات استخدام البنى الرئيسية مثل CNN و RNN و Transformer
  • عملية التدريب: فهم كيف "تتعلم" النماذج من البيانات
  • التقنيات الرئيسية: إتقان مفاهيم عملية مثل فرط التخصيص، معدل التعلم، والتنظيم
  • التطور التاريخي: فهم مسار التطور من البيرسيبترون إلى نماذج اللغة الكبيرة
الفصلالمحتوىالمفاهيم الأساسية
الفصل 1من العصبون إلى الشبكةالبيرسيبترون، دوال التنشيط، الانتشار الأمامي
الفصل 2كيف تتعلم الشبكاتدوال الخسارة، الانحدار التدريجي، الانتشار العكسي
الفصل 3البنى الرئيسية للشبكاتCNN، RNN، Transformer
الفصل 4فن التدريبفرط التخصيص، التنظيم، ضبط المعاملات الفائقة
الفصل 5مسار التطور والآفاقمن البيرسيبترون إلى GPT

1. من العصبون إلى الشبكة

العصبون الواحد

أصغر وحدة في الشبكة العصبية هي العصبون (Neuron). إنه يحاكي طريقة عمل العصبون البيولوجي: يستقبل إشارات دخل متعددة، يجمعها موزونة، وينتج مخرجًا من خلال دالة تنشيط.

المدخل x1 ──→ ×w1 ──┐
المدخل x2 ──→ ×w2 ──┼──→ Σ(جمع موزون) + b(انحياز) ──→ f(دالة التنشيط) ──→ المخرج
المدخل x3 ──→ ×w3 ──┘

التعبير الرياضي: y = f(w₁x₁ + w₂x₂ + w₃x₃ + b)

How a Neuron Works
Adjust inputs and weights to see how the neuron output changes
Input × Weight
0.5
×
0.8
=0.40
-0.3
×
1.2
=-0.36
0.7
×
-0.5
=-0.35
Weighted sum + bias (0.1)
-0.21
Activation: Sigmoid
0.4477
0.1

دوال التنشيط: لماذا نحتاج إلى اللاخطية؟

بدون دالة تنشيط، أي عدد من طبقات العصبونات المتراكمة سيكون مكافئًا في النهاية لتحويل خطي واحد (ضرب مصفوفات). دوال التنشيط تقدم اللاخطية، مما يسمح للشبكة بتعلم أنماط معقدة.

دالة التنشيطالصيغةالخصائصسيناريوهات الاستخدام الشائعة
ReLUmax(0, x)بسيطة وفعالة، تدريب سريعالخيار الافتراضي للطبقات المخفية
Sigmoid1/(1+e⁻ˣ)مخرج بين 0 و 1طبقة المخرج للتصنيف الثنائي
Tanh(eˣ-e⁻ˣ)/(eˣ+e⁻ˣ)مخرج بين -1 و 1شائعة الاستخدام في RNN
Softmaxeˣᵢ/Σeˣⱼمخرج توزيع احتماليطبقة المخرج للتصنيف متعدد الفئات

من العصبون إلى الشبكة

تنظيم عدة عصبونات في طبقات، وربط عدة طبقات معًا، يشكل شبكة عصبية:

طبقة المدخلات          الطبقة المخفية 1        الطبقة المخفية 2        طبقة المخرجات
(الميزات)         (استخراج الميزات منخفضة المستوى)   (استخراج الميزات عالية المستوى)   (نتيجة التنبؤ)

 x1 ──→  [○ ○ ○ ○] ──→ [○ ○ ○] ──→  [○ ○]
 x2 ──→  [○ ○ ○ ○] ──→ [○ ○ ○] ──→  قط/كلب
 x3 ──→  [○ ○ ○ ○] ──→ [○ ○ ○]
المفهومالشرح
طبقة المدخلاتتستقبل البيانات الخام (بكسلات الصورة، متجهات النص، إلخ)
الطبقات المخفيةطبقات المعالجة الوسيطة، كلما زاد عدد الطبقات أصبحت الشبكة أكثر "عمقًا" ("عمق" التعلم العميق)
طبقة المخرجاتتنتج التنبؤ النهائي (احتمالات التصنيف، قيم الانحدار، إلخ)
الانتشار الأماميعملية تدفق البيانات من طبقة المدخلات عبر الطبقات إلى طبقة المخرجات

لماذا يسمى "التعلم العميق"؟

عادةً ما يكون للتعلم الآلي التقليدي طبقة أو طبقتان فقط. عندما يزداد عدد الطبقات المخفية إلى عشرات أو حتى مئات الطبقات، يسمى ذلك "التعلم العميق". الشبكات الأعمق يمكنها تعلم ميزات أكثر تجريدًا: الطبقة الأولى تتعلم الحواف، الثانية تتعلم القوام، الثالثة تتعلم الأجزاء، والطبقات الأعمق تتعلم "هذه قطة".


2. كيف تتعلم الشبكات

"تعلم" الشبكات العصبية هو في جوهره مسألة تحسين: إيجاد مجموعة من الأوزان (w) والانحيازات (b) تجعل تنبؤات الشبكة قريبة قدر الإمكان من الإجابات الحقيقية.

ثلاثية التدريب

1. الانتشار الأمامي: إدخال البيانات، الحصول على نتيجة التنبؤ
2. حساب الخسارة: استخدام دالة الخسارة لقياس الفجوة بين التنبؤ والقيمة الحقيقية
3. الانتشار العكسي: بناءً على الخسارة، حساب تدرج كل وزن، وتحديث الأوزان

تكرار الخطوات أعلاه حتى تصبح الخسارة صغيرة بما يكفي

دوال الخسارة: قياس "مدى الخطأ"

دالة الخسارة (Loss Function) تقيس الفجوة بين القيم المتوقعة والقيم الحقيقية. هدف التدريب هو تقليل الخسارة.

دالة الخسارةالصيغة المختصرةسيناريوهات الاستخدام
MSE (متوسط مربع الخطأ)متوسط مربعات الفروق بين القيم المتوقعة والحقيقيةمسائل الانحدار
Cross-Entropy (الإنتروبيا المتقاطعة)-Σ y·log(ŷ)مسائل التصنيف
Binary Cross-Entropyالنسخة الثنائية من الإنتروبيا المتقاطعةمسائل التصنيف الثنائي

الانحدار التدريجي: إيجاد أدنى نقطة

تخيل أنك تقف على جبل، معصوب العينين، وتحتاج إلى الوصول إلى أدنى نقطة. كل ما يمكنك فعله هو تحسس انحدار الأرض تحت قدميك، ثم اتخاذ خطوة في اتجاه الانحدار. هذا هو الانحدار التدريجي.

قيمة الخسارة

  │    ╱╲
  │   ╱  ╲      ← الموقع الحالي
  │  ╱    ╲    ↙ الانحدار على طول اتجاه التدرج
  │ ╱      ╲╱   ← الحد الأدنى المحلي
  │╱            ╲╱  ← الحد الأدنى العالمي
  └──────────────→ قيمة الوزن
المفهومالشرح
التدرجالمشتق الجزئي لدالة الخسارة بالنسبة لكل وزن، يشير إلى "في أي اتجاه يجب التعديل لتقليل الخسارة"
معدل التعلممدى كبر كل خطوة. كبير جدًا سيتجاوز أدنى نقطة، صغير جدًا سيكون التقارب بطيئًا جدًا
حجم الدفعةعدد العينات المستخدمة لحساب التدرج في كل مرة. الدفعة الكاملة بطيئة جدًا، والعينة الواحدة متذبذبة جدًا، والدفعة المصغرة (mini-batch) هي الحل الوسط

الانتشار العكسي: انتصار قاعدة السلسلة

الانتشار العكسي (Backpropagation) هو خوارزمية فعالة لحساب التدرجات. تستخدم قاعدة السلسلة من التفاضل والتكامل، بدءًا من طبقة المخرجات، للحساب للخلف طبقة تلو الأخرى لمساهمة كل وزن في الخسارة.

الانتشار الأمامي: المدخلات → الطبقة المخفية 1 → الطبقة المخفية 2 → المخرجات → الخسارة
الانتشار العكسي: الخسارة → المخرجات → الطبقة المخفية 2 → الطبقة المخفية 1 → تحديث جميع الأوزان

فهم حدسي للانتشار العكسي

تخيل الشبكة العصبية كخط إنتاج. عندما يكون المنتج (التنبؤ) به مشكلة (خسارة كبيرة)، تحتاج إلى البدء من آخر خطوة في العملية والتتبع للخلف، لمعرفة مقدار مساهمة كل خطوة (كل طبقة وزن) في المشكلة النهائية، ثم الضبط وفقًا لمقدار المساهمة. اضبط أكثر ما يساهم كثيرًا، واضبط أقل ما يساهم قليلاً.


3. البنى الرئيسية للشبكات

أنواع البيانات المختلفة تحتاج إلى بنى شبكات مختلفة. اختيار البنية الصحيحة يحقق ضعف النتيجة بنصف الجهد.

Common Neural Network Layer Types
Click a layer to inspect its role and parameters
Dense layer
Each neuron connects to every neuron in the previous layer. This is the most basic layer type and learns combinations of input features.
units (number of neurons)activation
Output layers for classification or regression, and simple feature extraction
Dense(128, activation="relu")

3.1 CNN (الشبكات العصبية الالتفافية)

CNN هي ملكة معالجة الصور. الفكرة الأساسية: استخدام نواة التفاف صغيرة تنزلق على الصورة لاستخراج الميزات المحلية.

صورة المدخلات → [طبقة التفاف → تنشيط → تجميع] × N → طبقة متصلة بالكامل → المخرج
  28×28      استخراج الحواف/القوام/الأشكال        نتيجة التصنيف
الخاصيةالشرح
الاتصال المحليكل عصبون ينظر فقط إلى منطقة صغيرة، وليس الصورة كاملة
مشاركة المعاملاتنفس نواة الالتفاف تُعاد استخدامها عبر الصورة كاملة، مما يقلل المعاملات بشكل كبير
ثبات الترجمةيمكن التعرف على القطة سواء كانت في يسار أو يمين الصورة
الميزات الهرميةالطبقات الضحلة تتعلم الحواف، والطبقات العميقة تتعلم الدلالات

نماذج ممثلة: LeNet، AlexNet، VGG، ResNet، EfficientNet

3.2 RNN (الشبكات العصبية المتكررة)

RNN مصممة خصيصًا للبيانات التسلسلية. حالتها المخفية تنتقل إلى الخطوة الزمنية التالية، مما يمنح الشبكة قدرة "ذاكرة".

الخطوة الزمنية t1    الخطوة الزمنية t2    الخطوة الزمنية t3
 "أنا"  ──→   "أحب"  ──→  "القطط"
  ↓           ↓           ↓
 [h1]  ──→  [h2]   ──→  [h3] ──→  المخرج
  ↑           ↑           ↑
 الحالة المخفية تنتقل بين الخطوات الزمنية (ذاكرة)
المتغيرالمشكلة التي يحلهاالآلية الأساسية
RNN الأصليةنمذجة التسلسلات الأساسيةاتصال متكرر بسيط
LSTMتلاشي التدرج في التسلسلات الطويلةبوابة النسيان، بوابة الإدخال، بوابة الإخراج
GRUمعاملات LSTM كثيرة جدًاتبسيط إلى بوابة إعادة الضبط وبوابة التحديث
RNN ثنائية الاتجاهيمكنها فقط رؤية الماضيمعالجة من الأمام إلى الخلف ومن الخلف إلى الأمام معًا

آلية البوابات في LSTM

تكمن روعة LSTM في "البوابات" الثلاث: بوابة النسيان تقرر أي الذكريات القديمة يجب التخلص منها، بوابة الإدخال تقرر أي معلومات جديدة يجب تخزينها، بوابة الإخراج تقرر أي محتوى يجب إخراجه. مثلما تقرأ كتابًا، تتذكر بشكل انتقائي الحبكات المهمة وتنسى التفاصيل غير المهمة.

3.3 Transformer: الانتباه هو كل شيء

في عام 2017، نشرت Google ورقة "Attention Is All You Need" التي قدمت Transformer، مما غير مجال الذكاء الاصطناعي تمامًا. استبدلت البنية المتكررة بآلية الانتباه الذاتي، وهي أساس نماذج كبيرة مثل GPT و BERT و Claude.

تسلسل المدخلات → التضمين + ترميز الموضع → [انتباه متعدد الرؤوس → شبكة تغذية أمامية] × N → المخرج

                       كل كلمة يمكنها "رؤية" جميع الكلمات الأخرى
الميزةالشرح
الحوسبة المتوازيةعلى عكس RNN التي يجب أن تعالج خطوة بخطوة، يمكن لـ Transformer معالجة التسلسل كاملًا بالتوازي
الاعتماد طويل المدىإنشاء اتصال مباشر بين أي موقعين، غير مقيد بالمسافة
قابلية التوسعكلما كان النموذج أكبر والبيانات أكثر، كانت النتائج أفضل (قانون التوسع)

حدس الانتباه الذاتي: عند قراءة جملة "القطة جلست على السجادة، لأنها كانت متعبة"، "ها" تحتاج إلى الانتباه إلى "القطة" لفهم المعنى. الانتباه الذاتي يجعل النموذج يتعلم هذا الارتباط — حساب "درجة ارتباط" لكل زوج من الكلمات في التسلسل.

Common Neural Network Architectures
Click to inspect each architecture, its characteristics, and applications
Feedforward neural network(FNN)
1958
The most basic neural network structure. Data flows one way from the input layer through hidden layers to the output layer, with no recurrence. Neurons in each layer connect to all neurons in the next layer.
Network structure
Input layer Hidden layers ×N Output layer
Typical applications
ClassificationRegressionFunction approximation
Key idea:Map inputs to outputs through multiple nonlinear transformations. More layers can represent more complex functions.

4. فن التدريب

امتلاك بنية جيدة ليس كافيًا، هناك العديد من "المطبات" التي يجب تجنبها أثناء عملية التدريب.

4.1 فرط التخصيص مقابل نقص التخصيص

المشكلةالمظهرالسببالحل
فرط التخصيصأداء جيد على مجموعة التدريب، أداء سيء على مجموعة الاختبارالنموذج معقد جدًا، "يحفظ الإجابات" بدلاً من تعلم القواعدالتنظيم، Dropout، تعزيز البيانات، التوقف المبكر
نقص التخصيصأداء سيء على كل من مجموعة التدريب والاختبارالنموذج بسيط جدًا، لا يمكنه تعلم القواعدزيادة سعة النموذج، تدريب أطول، ميزات أفضل
الخطأ

  │ ╲   خطأ التدريب          خطأ الاختبار  ╱
  │  ╲                          ╱
  │   ╲─────────────────╱
  │     نقص التخصيص ← النقطة المثلى → فرط التخصيص
  └──────────────────────────→ تعقيد النموذج

4.2 المعاملات الفائقة الرئيسية

المعاملات الفائقة هي معاملات يجب ضبطها يدويًا قبل التدريب (لا يتعلمها النموذج بنفسه):

المعامل الفائقالوظيفةالنطاق الشائعنصائح الضبط
معدل التعلممقدار التحديث في كل خطوة1e-5 ~ 1e-1أهم معامل فائق، ابدأ عادةً من 1e-3
حجم الدفعةعدد العينات المستخدمة في كل تدريب16 ~ 512كلما كان أكبر كان التدريب أكثر استقرارًا، لكنه يحتاج إلى ذاكرة GPU أكبر
عدد الدورات (Epoch)عدد مرات المرور على مجموعة البيانات كاملة10 ~ 100+مع التوقف المبكر، توقف عندما لا يتحسن أداء مجموعة التحقق
المُحسِّناستراتيجية تحديث التدرجAdam، SGDAdam هو الخيار الافتراضي، SGD+الزخم مناسب للضبط الدقيق

4.3 تقنيات التنظيم

وسائل شائعة لمنع فرط التخصيص:

التقنيةالمبدأطريقة الاستخدام
Dropoutإغلاق عشوائي لبعض العصبونات أثناء التدريبعادةً p=0.1~0.5
تضاؤل الأوزانإضافة عقوبة على حجم الأوزان في دالة الخسارةتنظيم L2، λ=1e-4
تعزيز البياناتإجراء تحويلات عشوائية على بيانات التدريب (قلب، قص، تدوير)ضروري لمهام الصور
التوقف المبكرإيقاف التدريب عندما لا تنخفض خسارة مجموعة التحققpatience=5~10
Batch Normalizationتوحيد توزيع المدخلات لكل طبقةيسرع التقارب، وله تأثير تنظيمي طفيف

قواعد تجريبية للتدريب

  1. استخدم مجموعة بيانات صغيرة أولاً لتشغيل العملية كاملة، وتأكد من خلو الكود من الأخطاء
  2. ابدأ بالضبط الدقيق من نموذج مدرب مسبقًا، بدلاً من التدريب من الصفر
  3. معدل التعلم هو المعامل الفائق الأكثر استحقاقًا للوقت في الضبط
  4. إذا لم تنخفض خسارة التدريب، تحقق من البيانات والكود أولاً، ثم شكك في النموذج

5. مسار التطور والآفاق

مر تطور الشبكات العصبية بعدة "فصول شتاء" و"نهضات"، كل اختراق جاء من ابتكار تقني رئيسي.

الحقبةالمعلمالاختراق الرئيسي
1958البيرسيبترون (Perceptron)أول نموذج شبكة عصبية، يمكنه فقط معالجة المسائل الخطية
1986خوارزمية الانتشار العكسيجعلت تدريب الشبكات متعددة الطبقات ممكنًا
1998LeNet (CNN)نجاح كبير للشبكات الالتفافية في التعرف على الأرقام المكتوبة بخط اليد
2012AlexNetCNN العميقة تسحق الطرق التقليدية في ImageNet، انفجار التعلم العميق
2014GAN (شبكات الخصومة التوليدية)شبكتان تتدربان بالتنافس، يمكنها توليد صور واقعية
2017Transformer"Attention Is All You Need"، آلية الانتباه تستبدل RNN
2018BERTنموذج التدريب المسبق + الضبط الدقيق، اختراق شامل في NLP
2020GPT-3175 مليار معامل، يظهر قدرات ظهور النماذج الكبيرة
2022ChatGPTتقنية محاذاة RLHF، دخول الذكاء الاصطناعي إلى الوعي العام
2023+نماذج كبيرة متعددة الوسائطGPT-4V، Claude وغيرها، تفهم النصوص والصور معًا

الاتجاهات الحالية

الاتجاهالشرح
النماذج الكبيرة (LLM)عدد المعاملات من مئات الملايين إلى التريليونات، تظهر قدرات الاستدلال والبرمجة وغيرها
متعدد الوسائطنموذج واحد يعالج النصوص والصور والصوت والفيديو
الضبط الدقيق الفعالتقنيات مثل LoRA و QLoRA تمكن المطورين العاديين من ضبط النماذج الكبيرة
وكيل الذكاء الاصطناعيجعل النماذج الكبيرة تستخدم الأدوات، تخطط للمهام، وتكمل أهدافًا معقدة بشكل مستقل
تقطير النماذج الصغيرةاستخدام معرفة النماذج الكبيرة لتدريب نماذج صغيرة، للنشر على الأجهزة الطرفية

رؤى للمطورين

لست بحاجة إلى تدريب الشبكات العصبية من الصفر. تطوير الذكاء الاصطناعي الحديث يتم بشكل أكبر من خلال استدعاء واجهات برمجة التطبيقات (مثل OpenAI، Claude API) أو الضبط الدقيق للنماذج المدربة مسبقًا (مثل استخدام Hugging Face). لكن فهم المبادئ الأساسية يمكن أن يساعدك في اختيار النماذج بشكل أفضل، تصميم الموجهات، وتشخيص المشكلات.


ملخص

المفهوم الأساسيتلخيص في جملة واحدة
العصبونجمع موزون + دالة تنشيط، أصغر وحدة حسابية في الشبكة
الانتشار الأماميتدفق البيانات من طبقة المدخلات عبر الطبقات إلى طبقة المخرجات، لإنتاج التنبؤ
الانتشار العكسيبدءًا من الخسارة، حساب التدرجات طبقة تلو الأخرى، وتحديث الأوزان
CNNنواة الالتفاف تستخرج الميزات المحلية، الخيار الأول لمعالجة الصور
RNN/LSTMالاتصال المتكرر يحافظ على الذاكرة، لمعالجة البيانات التسلسلية
Transformerالانتباه الذاتي بمعالجة متوازية، البنية الأساسية للنماذج الكبيرة
فرط التخصيصالنموذج "يحفظ الإجابات"، يمنع باستخدام التنظيم و Dropout وغيرها
نقل التعلمالوقوف على أكتاف العمالقة، استخدام نماذج مدربة مسبقًا للضبط الدقيق لحل مسائل جديدة

قراءات إضافية