الشبكات العصبية والتعلم العميق

مقدمة

الشبكات العصبية هي محرك ثورة الذكاء الاصطناعي. من فهم لغة ChatGPT إلى التعرف على الصور في القيادة الذاتية، الشبكات العصبية هي ما يعمل خلف الكواليس. إنها ليست سحرًا، بل إطار رياضي متقن - "تتعلم" من خلال كميات كبيرة من البيانات لرسم علاقة التعيين بين المدخلات والمخرجات. فهم مبادئها الأساسية يمكن أن يساعدك في استخدام وتصحيح أدوات الذكاء الاصطناعي بشكل أفضل.

ماذا ستتعلم من هذه المقالة؟

بعد إكمال هذا الفصل، ستكتسب:

المفاهيم الأساسية: فهم المبادئ الأساسية للعصبونات، الطبقات، الانتشار الأمامي، والانتشار العكسي
أنواع الشبكات: التعرف على خصائص وسيناريوهات استخدام البنى الرئيسية مثل CNN و RNN و Transformer
عملية التدريب: فهم كيف "تتعلم" النماذج من البيانات
التقنيات الرئيسية: إتقان مفاهيم عملية مثل فرط التخصيص، معدل التعلم، والتنظيم
التطور التاريخي: فهم مسار التطور من البيرسيبترون إلى نماذج اللغة الكبيرة

الفصل	المحتوى	المفاهيم الأساسية
الفصل 1	من العصبون إلى الشبكة	البيرسيبترون، دوال التنشيط، الانتشار الأمامي
الفصل 2	كيف تتعلم الشبكات	دوال الخسارة، الانحدار التدريجي، الانتشار العكسي
الفصل 3	البنى الرئيسية للشبكات	CNN، RNN، Transformer
الفصل 4	فن التدريب	فرط التخصيص، التنظيم، ضبط المعاملات الفائقة
الفصل 5	مسار التطور والآفاق	من البيرسيبترون إلى GPT

1. من العصبون إلى الشبكة

العصبون الواحد

أصغر وحدة في الشبكة العصبية هي العصبون (Neuron). إنه يحاكي طريقة عمل العصبون البيولوجي: يستقبل إشارات دخل متعددة، يجمعها موزونة، وينتج مخرجًا من خلال دالة تنشيط.

المدخل x1 ──→ ×w1 ──┐
المدخل x2 ──→ ×w2 ──┼──→ Σ(جمع موزون) + b(انحياز) ──→ f(دالة التنشيط) ──→ المخرج
المدخل x3 ──→ ×w3 ──┘

التعبير الرياضي: y = f(w₁x₁ + w₂x₂ + w₃x₃ + b)

Input × Weight

x10.5

w10.8

=0.40

x2-0.3

w21.2

=-0.36

x30.7

w3-0.5

=-0.35

Weighted sum + bias (0.1)

-0.21

↓

Activation: Sigmoid

0.4477

Bias b0.1

Activation

دوال التنشيط: لماذا نحتاج إلى اللاخطية؟

بدون دالة تنشيط، أي عدد من طبقات العصبونات المتراكمة سيكون مكافئًا في النهاية لتحويل خطي واحد (ضرب مصفوفات). دوال التنشيط تقدم اللاخطية، مما يسمح للشبكة بتعلم أنماط معقدة.

دالة التنشيط	الصيغة	الخصائص	سيناريوهات الاستخدام الشائعة
ReLU	max(0, x)	بسيطة وفعالة، تدريب سريع	الخيار الافتراضي للطبقات المخفية
Sigmoid	1/(1+e⁻ˣ)	مخرج بين 0 و 1	طبقة المخرج للتصنيف الثنائي
Tanh	(eˣ-e⁻ˣ)/(eˣ+e⁻ˣ)	مخرج بين -1 و 1	شائعة الاستخدام في RNN
Softmax	eˣᵢ/Σeˣⱼ	مخرج توزيع احتمالي	طبقة المخرج للتصنيف متعدد الفئات

من العصبون إلى الشبكة

تنظيم عدة عصبونات في طبقات، وربط عدة طبقات معًا، يشكل شبكة عصبية:

طبقة المدخلات          الطبقة المخفية 1        الطبقة المخفية 2        طبقة المخرجات
(الميزات)         (استخراج الميزات منخفضة المستوى)   (استخراج الميزات عالية المستوى)   (نتيجة التنبؤ)

 x1 ──→  [○ ○ ○ ○] ──→ [○ ○ ○] ──→  [○ ○]
 x2 ──→  [○ ○ ○ ○] ──→ [○ ○ ○] ──→  قط/كلب
 x3 ──→  [○ ○ ○ ○] ──→ [○ ○ ○]

المفهوم	الشرح
طبقة المدخلات	تستقبل البيانات الخام (بكسلات الصورة، متجهات النص، إلخ)
الطبقات المخفية	طبقات المعالجة الوسيطة، كلما زاد عدد الطبقات أصبحت الشبكة أكثر "عمقًا" ("عمق" التعلم العميق)
طبقة المخرجات	تنتج التنبؤ النهائي (احتمالات التصنيف، قيم الانحدار، إلخ)
الانتشار الأمامي	عملية تدفق البيانات من طبقة المدخلات عبر الطبقات إلى طبقة المخرجات

لماذا يسمى "التعلم العميق"؟

عادةً ما يكون للتعلم الآلي التقليدي طبقة أو طبقتان فقط. عندما يزداد عدد الطبقات المخفية إلى عشرات أو حتى مئات الطبقات، يسمى ذلك "التعلم العميق". الشبكات الأعمق يمكنها تعلم ميزات أكثر تجريدًا: الطبقة الأولى تتعلم الحواف، الثانية تتعلم القوام، الثالثة تتعلم الأجزاء، والطبقات الأعمق تتعلم "هذه قطة".

2. كيف تتعلم الشبكات

"تعلم" الشبكات العصبية هو في جوهره مسألة تحسين: إيجاد مجموعة من الأوزان (w) والانحيازات (b) تجعل تنبؤات الشبكة قريبة قدر الإمكان من الإجابات الحقيقية.

ثلاثية التدريب

1. الانتشار الأمامي: إدخال البيانات، الحصول على نتيجة التنبؤ
2. حساب الخسارة: استخدام دالة الخسارة لقياس الفجوة بين التنبؤ والقيمة الحقيقية
3. الانتشار العكسي: بناءً على الخسارة، حساب تدرج كل وزن، وتحديث الأوزان
   ↓
تكرار الخطوات أعلاه حتى تصبح الخسارة صغيرة بما يكفي

دوال الخسارة: قياس "مدى الخطأ"

دالة الخسارة (Loss Function) تقيس الفجوة بين القيم المتوقعة والقيم الحقيقية. هدف التدريب هو تقليل الخسارة.

دالة الخسارة	الصيغة المختصرة	سيناريوهات الاستخدام
MSE (متوسط مربع الخطأ)	متوسط مربعات الفروق بين القيم المتوقعة والحقيقية	مسائل الانحدار
Cross-Entropy (الإنتروبيا المتقاطعة)	-Σ y·log(ŷ)	مسائل التصنيف
Binary Cross-Entropy	النسخة الثنائية من الإنتروبيا المتقاطعة	مسائل التصنيف الثنائي

الانحدار التدريجي: إيجاد أدنى نقطة

تخيل أنك تقف على جبل، معصوب العينين، وتحتاج إلى الوصول إلى أدنى نقطة. كل ما يمكنك فعله هو تحسس انحدار الأرض تحت قدميك، ثم اتخاذ خطوة في اتجاه الانحدار. هذا هو الانحدار التدريجي.

قيمة الخسارة
  ↑
  │    ╱╲
  │   ╱  ╲      ← الموقع الحالي
  │  ╱    ╲    ↙ الانحدار على طول اتجاه التدرج
  │ ╱      ╲╱   ← الحد الأدنى المحلي
  │╱            ╲╱  ← الحد الأدنى العالمي
  └──────────────→ قيمة الوزن

المفهوم	الشرح
التدرج	المشتق الجزئي لدالة الخسارة بالنسبة لكل وزن، يشير إلى "في أي اتجاه يجب التعديل لتقليل الخسارة"
معدل التعلم	مدى كبر كل خطوة. كبير جدًا سيتجاوز أدنى نقطة، صغير جدًا سيكون التقارب بطيئًا جدًا
حجم الدفعة	عدد العينات المستخدمة لحساب التدرج في كل مرة. الدفعة الكاملة بطيئة جدًا، والعينة الواحدة متذبذبة جدًا، والدفعة المصغرة (mini-batch) هي الحل الوسط

الانتشار العكسي: انتصار قاعدة السلسلة

الانتشار العكسي (Backpropagation) هو خوارزمية فعالة لحساب التدرجات. تستخدم قاعدة السلسلة من التفاضل والتكامل، بدءًا من طبقة المخرجات، للحساب للخلف طبقة تلو الأخرى لمساهمة كل وزن في الخسارة.

الانتشار الأمامي: المدخلات → الطبقة المخفية 1 → الطبقة المخفية 2 → المخرجات → الخسارة
الانتشار العكسي: الخسارة → المخرجات → الطبقة المخفية 2 → الطبقة المخفية 1 → تحديث جميع الأوزان

فهم حدسي للانتشار العكسي

تخيل الشبكة العصبية كخط إنتاج. عندما يكون المنتج (التنبؤ) به مشكلة (خسارة كبيرة)، تحتاج إلى البدء من آخر خطوة في العملية والتتبع للخلف، لمعرفة مقدار مساهمة كل خطوة (كل طبقة وزن) في المشكلة النهائية، ثم الضبط وفقًا لمقدار المساهمة. اضبط أكثر ما يساهم كثيرًا، واضبط أقل ما يساهم قليلاً.

3. البنى الرئيسية للشبكات

أنواع البيانات المختلفة تحتاج إلى بنى شبكات مختلفة. اختيار البنية الصحيحة يحقق ضعف النتيجة بنصف الجهد.

Dense layer

Each neuron connects to every neuron in the previous layer. This is the most basic layer type and learns combinations of input features.

Core parameters:units (number of neurons)activation

Typical use:Output layers for classification or regression, and simple feature extraction

Dense(128, activation="relu")

3.1 CNN (الشبكات العصبية الالتفافية)

CNN هي ملكة معالجة الصور. الفكرة الأساسية: استخدام نواة التفاف صغيرة تنزلق على الصورة لاستخراج الميزات المحلية.

صورة المدخلات → [طبقة التفاف → تنشيط → تجميع] × N → طبقة متصلة بالكامل → المخرج
  28×28      استخراج الحواف/القوام/الأشكال        نتيجة التصنيف

الخاصية	الشرح
الاتصال المحلي	كل عصبون ينظر فقط إلى منطقة صغيرة، وليس الصورة كاملة
مشاركة المعاملات	نفس نواة الالتفاف تُعاد استخدامها عبر الصورة كاملة، مما يقلل المعاملات بشكل كبير
ثبات الترجمة	يمكن التعرف على القطة سواء كانت في يسار أو يمين الصورة
الميزات الهرمية	الطبقات الضحلة تتعلم الحواف، والطبقات العميقة تتعلم الدلالات

نماذج ممثلة: LeNet، AlexNet، VGG، ResNet، EfficientNet

3.2 RNN (الشبكات العصبية المتكررة)

RNN مصممة خصيصًا للبيانات التسلسلية. حالتها المخفية تنتقل إلى الخطوة الزمنية التالية، مما يمنح الشبكة قدرة "ذاكرة".

الخطوة الزمنية t1    الخطوة الزمنية t2    الخطوة الزمنية t3
 "أنا"  ──→   "أحب"  ──→  "القطط"
  ↓           ↓           ↓
 [h1]  ──→  [h2]   ──→  [h3] ──→  المخرج
  ↑           ↑           ↑
 الحالة المخفية تنتقل بين الخطوات الزمنية (ذاكرة)

المتغير	المشكلة التي يحلها	الآلية الأساسية
RNN الأصلية	نمذجة التسلسلات الأساسية	اتصال متكرر بسيط
LSTM	تلاشي التدرج في التسلسلات الطويلة	بوابة النسيان، بوابة الإدخال، بوابة الإخراج
GRU	معاملات LSTM كثيرة جدًا	تبسيط إلى بوابة إعادة الضبط وبوابة التحديث
RNN ثنائية الاتجاه	يمكنها فقط رؤية الماضي	معالجة من الأمام إلى الخلف ومن الخلف إلى الأمام معًا

آلية البوابات في LSTM

تكمن روعة LSTM في "البوابات" الثلاث: بوابة النسيان تقرر أي الذكريات القديمة يجب التخلص منها، بوابة الإدخال تقرر أي معلومات جديدة يجب تخزينها، بوابة الإخراج تقرر أي محتوى يجب إخراجه. مثلما تقرأ كتابًا، تتذكر بشكل انتقائي الحبكات المهمة وتنسى التفاصيل غير المهمة.

3.3 Transformer: الانتباه هو كل شيء

في عام 2017، نشرت Google ورقة "Attention Is All You Need" التي قدمت Transformer، مما غير مجال الذكاء الاصطناعي تمامًا. استبدلت البنية المتكررة بآلية الانتباه الذاتي، وهي أساس نماذج كبيرة مثل GPT و BERT و Claude.

تسلسل المدخلات → التضمين + ترميز الموضع → [انتباه متعدد الرؤوس → شبكة تغذية أمامية] × N → المخرج
                                    ↑
                       كل كلمة يمكنها "رؤية" جميع الكلمات الأخرى

الميزة	الشرح
الحوسبة المتوازية	على عكس RNN التي يجب أن تعالج خطوة بخطوة، يمكن لـ Transformer معالجة التسلسل كاملًا بالتوازي
الاعتماد طويل المدى	إنشاء اتصال مباشر بين أي موقعين، غير مقيد بالمسافة
قابلية التوسع	كلما كان النموذج أكبر والبيانات أكثر، كانت النتائج أفضل (قانون التوسع)

حدس الانتباه الذاتي: عند قراءة جملة "القطة جلست على السجادة، لأنها كانت متعبة"، "ها" تحتاج إلى الانتباه إلى "القطة" لفهم المعنى. الانتباه الذاتي يجعل النموذج يتعلم هذا الارتباط — حساب "درجة ارتباط" لكل زوج من الكلمات في التسلسل.

Feedforward neural network（FNN）

1958

The most basic neural network structure. Data flows one way from the input layer through hidden layers to the output layer, with no recurrence. Neurons in each layer connect to all neurons in the next layer.

Network structure

Input layer →Hidden layers ×N →Output layer

Typical applications

ClassificationRegressionFunction approximation

Key idea:Map inputs to outputs through multiple nonlinear transformations. More layers can represent more complex functions.

4. فن التدريب

امتلاك بنية جيدة ليس كافيًا، هناك العديد من "المطبات" التي يجب تجنبها أثناء عملية التدريب.

4.1 فرط التخصيص مقابل نقص التخصيص

المشكلة	المظهر	السبب	الحل
فرط التخصيص	أداء جيد على مجموعة التدريب، أداء سيء على مجموعة الاختبار	النموذج معقد جدًا، "يحفظ الإجابات" بدلاً من تعلم القواعد	التنظيم، Dropout، تعزيز البيانات، التوقف المبكر
نقص التخصيص	أداء سيء على كل من مجموعة التدريب والاختبار	النموذج بسيط جدًا، لا يمكنه تعلم القواعد	زيادة سعة النموذج، تدريب أطول، ميزات أفضل

الخطأ
  ↑
  │ ╲   خطأ التدريب          خطأ الاختبار  ╱
  │  ╲                          ╱
  │   ╲─────────────────╱
  │     نقص التخصيص ← النقطة المثلى → فرط التخصيص
  └──────────────────────────→ تعقيد النموذج

4.2 المعاملات الفائقة الرئيسية

المعاملات الفائقة هي معاملات يجب ضبطها يدويًا قبل التدريب (لا يتعلمها النموذج بنفسه):

المعامل الفائق	الوظيفة	النطاق الشائع	نصائح الضبط
معدل التعلم	مقدار التحديث في كل خطوة	1e-5 ~ 1e-1	أهم معامل فائق، ابدأ عادةً من 1e-3
حجم الدفعة	عدد العينات المستخدمة في كل تدريب	16 ~ 512	كلما كان أكبر كان التدريب أكثر استقرارًا، لكنه يحتاج إلى ذاكرة GPU أكبر
عدد الدورات (Epoch)	عدد مرات المرور على مجموعة البيانات كاملة	10 ~ 100+	مع التوقف المبكر، توقف عندما لا يتحسن أداء مجموعة التحقق
المُحسِّن	استراتيجية تحديث التدرج	Adam، SGD	Adam هو الخيار الافتراضي، SGD+الزخم مناسب للضبط الدقيق

4.3 تقنيات التنظيم

وسائل شائعة لمنع فرط التخصيص:

التقنية	المبدأ	طريقة الاستخدام
Dropout	إغلاق عشوائي لبعض العصبونات أثناء التدريب	عادةً p=0.1~0.5
تضاؤل الأوزان	إضافة عقوبة على حجم الأوزان في دالة الخسارة	تنظيم L2، λ=1e-4
تعزيز البيانات	إجراء تحويلات عشوائية على بيانات التدريب (قلب، قص، تدوير)	ضروري لمهام الصور
التوقف المبكر	إيقاف التدريب عندما لا تنخفض خسارة مجموعة التحقق	patience=5~10
Batch Normalization	توحيد توزيع المدخلات لكل طبقة	يسرع التقارب، وله تأثير تنظيمي طفيف

قواعد تجريبية للتدريب

استخدم مجموعة بيانات صغيرة أولاً لتشغيل العملية كاملة، وتأكد من خلو الكود من الأخطاء
ابدأ بالضبط الدقيق من نموذج مدرب مسبقًا، بدلاً من التدريب من الصفر
معدل التعلم هو المعامل الفائق الأكثر استحقاقًا للوقت في الضبط
إذا لم تنخفض خسارة التدريب، تحقق من البيانات والكود أولاً، ثم شكك في النموذج

5. مسار التطور والآفاق

مر تطور الشبكات العصبية بعدة "فصول شتاء" و"نهضات"، كل اختراق جاء من ابتكار تقني رئيسي.

الحقبة	المعلم	الاختراق الرئيسي
1958	البيرسيبترون (Perceptron)	أول نموذج شبكة عصبية، يمكنه فقط معالجة المسائل الخطية
1986	خوارزمية الانتشار العكسي	جعلت تدريب الشبكات متعددة الطبقات ممكنًا
1998	LeNet (CNN)	نجاح كبير للشبكات الالتفافية في التعرف على الأرقام المكتوبة بخط اليد
2012	AlexNet	CNN العميقة تسحق الطرق التقليدية في ImageNet، انفجار التعلم العميق
2014	GAN (شبكات الخصومة التوليدية)	شبكتان تتدربان بالتنافس، يمكنها توليد صور واقعية
2017	Transformer	"Attention Is All You Need"، آلية الانتباه تستبدل RNN
2018	BERT	نموذج التدريب المسبق + الضبط الدقيق، اختراق شامل في NLP
2020	GPT-3	175 مليار معامل، يظهر قدرات ظهور النماذج الكبيرة
2022	ChatGPT	تقنية محاذاة RLHF، دخول الذكاء الاصطناعي إلى الوعي العام
2023+	نماذج كبيرة متعددة الوسائط	GPT-4V، Claude وغيرها، تفهم النصوص والصور معًا

الاتجاهات الحالية

الاتجاه	الشرح
النماذج الكبيرة (LLM)	عدد المعاملات من مئات الملايين إلى التريليونات، تظهر قدرات الاستدلال والبرمجة وغيرها
متعدد الوسائط	نموذج واحد يعالج النصوص والصور والصوت والفيديو
الضبط الدقيق الفعال	تقنيات مثل LoRA و QLoRA تمكن المطورين العاديين من ضبط النماذج الكبيرة
وكيل الذكاء الاصطناعي	جعل النماذج الكبيرة تستخدم الأدوات، تخطط للمهام، وتكمل أهدافًا معقدة بشكل مستقل
تقطير النماذج الصغيرة	استخدام معرفة النماذج الكبيرة لتدريب نماذج صغيرة، للنشر على الأجهزة الطرفية

رؤى للمطورين

لست بحاجة إلى تدريب الشبكات العصبية من الصفر. تطوير الذكاء الاصطناعي الحديث يتم بشكل أكبر من خلال استدعاء واجهات برمجة التطبيقات (مثل OpenAI، Claude API) أو الضبط الدقيق للنماذج المدربة مسبقًا (مثل استخدام Hugging Face). لكن فهم المبادئ الأساسية يمكن أن يساعدك في اختيار النماذج بشكل أفضل، تصميم الموجهات، وتشخيص المشكلات.

ملخص

المفهوم الأساسي	تلخيص في جملة واحدة
العصبون	جمع موزون + دالة تنشيط، أصغر وحدة حسابية في الشبكة
الانتشار الأمامي	تدفق البيانات من طبقة المدخلات عبر الطبقات إلى طبقة المخرجات، لإنتاج التنبؤ
الانتشار العكسي	بدءًا من الخسارة، حساب التدرجات طبقة تلو الأخرى، وتحديث الأوزان
CNN	نواة الالتفاف تستخرج الميزات المحلية، الخيار الأول لمعالجة الصور
RNN/LSTM	الاتصال المتكرر يحافظ على الذاكرة، لمعالجة البيانات التسلسلية
Transformer	الانتباه الذاتي بمعالجة متوازية، البنية الأساسية للنماذج الكبيرة
فرط التخصيص	النموذج "يحفظ الإجابات"، يمنع باستخدام التنظيم و Dropout وغيرها
نقل التعلم	الوقوف على أكتاف العمالقة، استخدام نماذج مدربة مسبقًا للضبط الدقيق لحل مسائل جديدة

قراءات إضافية

3Blue1Brown - سلسلة فيديوهات الشبكات العصبية — أكثر شرح مرئي بديهي
Stanford CS231n — دورة كلاسيكية في الشبكات العصبية الالتفافية
The Illustrated Transformer — شرح مصور لبنية Transformer
Neural Networks and Deep Learning — كتاب مجاني على الإنترنت
دورة Hugging Face — ممارسة عملية لـ Transformer والنماذج الكبيرة

الشبكات العصبية والتعلم العميق ​

1. من العصبون إلى الشبكة ​

العصبون الواحد ​

دوال التنشيط: لماذا نحتاج إلى اللاخطية؟ ​

من العصبون إلى الشبكة ​

2. كيف تتعلم الشبكات ​

ثلاثية التدريب ​

دوال الخسارة: قياس "مدى الخطأ" ​

الانحدار التدريجي: إيجاد أدنى نقطة ​

الانتشار العكسي: انتصار قاعدة السلسلة ​

3. البنى الرئيسية للشبكات ​

3.1 CNN (الشبكات العصبية الالتفافية) ​

3.2 RNN (الشبكات العصبية المتكررة) ​

3.3 Transformer: الانتباه هو كل شيء ​

4. فن التدريب ​

4.1 فرط التخصيص مقابل نقص التخصيص ​

4.2 المعاملات الفائقة الرئيسية ​

4.3 تقنيات التنظيم ​

5. مسار التطور والآفاق ​

الاتجاهات الحالية ​

ملخص ​

قراءات إضافية ​