Transformer وآلية الانتباه: المحرك الأساسي للنماذج الكبيرة
في عام 2017، غيّرت Google قواعد اللعبة في معالجة اللغة الطبيعية من خلال بنية Transformer التي طرحتها في ورقة "Attention Is All You Need". تخلت هذه البنية عن الشبكات العصبية التكرارية التقليدية (RNN)، وحققت أداءً أقوى وكفاءة تدريب أعلى بالاعتماد على آلية الانتباه فقط. اليوم، تُبنى جميع النماذج اللغوية الكبيرة تقريبًا — GPT وBERT وT5 وLLaMA — على أساس Transformer.
أولاً: معضلة RNN واختراق Transformer
قبل ظهور Transformer، كانت الطريقة السائدة لمعالجة البيانات التسلسلية (مثل النصوص والصوت) هي الشبكات العصبية التكرارية (RNN) ومتغيراتها LSTM وGRU. تعالج هذه النماذج عناصر التسلسل واحدًا تلو الآخر من خلال بنية تكرارية، مع الاحتفاظ بحالة مخفية لتذكر المعلومات التاريخية.
1.1 العيوب القاتلة الثلاثة لـ RNN
الاعتماد التسلسلي وعدم القدرة على التوازي: يجب على RNN انتظار اكتمال حساب الخطوة الزمنية السابقة قبل معالجة الكلمة التالية. هذا يؤدي إلى بطء شديد في التدريب وعدم القدرة على الاستفادة الكاملة من قدرة الحوسبة المتوازية لوحدات GPU الحديثة.
اضمحلال الاعتماد طويل المدى: حتى مع تحسينات LSTM، تُفقد المعلومات المبكرة تدريجيًا عند معالجة النصوص الطويلة. على سبيل المثال، في مقال من 500 كلمة، يصعب على النموذج تذكر المعلومات الأساسية المذكورة في البداية.
اختفاء / انفجار التدرج: أثناء الانتشار العكسي، يحتاج التدرج إلى المرور طبقة تلو الأخرى عبر الخطوات الزمنية، مما يجعله عرضة للاختفاء أو الانفجار، ويؤدي إلى عدم استقرار التدريب.
1.2 الاختراق الثوري لـ Transformer
من خلال آلية الانتباه الذاتي (Self-Attention)، يمكّن Transformer النموذج من "رؤية" التسلسل بأكمله دفعة واحدة، وحساب العلاقة بين أي موضعين مباشرة، دون الحاجة إلى نقل المعلومات خطوة بخطوة.
المزايا الأساسية لـ Transformer
- الحوسبة المتوازية: يمكن حساب الانتباه لجميع المواضع في آنٍ واحد، مما يسرع التدريب بعشرات المرات
- رؤية شاملة: التقاط الاعتماد طويل المدى مباشرة، دون التقيد بطول التسلسل
- قابلية التوسع: بنية بسيطة وموحدة، سهلة التكديس لشبكات أعمق
ثانيًا: البنية الكاملة لـ Transformer: من الكل إلى التفاصيل
تتكون البنية الكاملة لـ Transformer من جزأين: المُشفِّر (Encoder) والمُفكِّك (Decoder)، وهما مسؤولان عن فهم المدخلات وتوليد المخرجات على التوالي.
2.1 المُشفِّر (Encoder)
لنأخذ جملة "الرصيد في الحساب البنكي غير كافٍ" كمثال. عندما يعالج النموذج كلمة "الرصيد"، فإنه يحسب تلقائيًا مدى ارتباطها بالكلمات الأخرى:
- "الرصيد" و"الحساب" مرتبطان بدرجة عالية (0.35)
- "الرصيد" و"البنكي" مرتبطان بدرجة متوسطة (0.20)
- "الرصيد" والكلمات الوظيفية مثل "في" و"غير" منخفضة الارتباط (0.05-0.10)
هذا الارتباط ليس محددًا يدويًا، بل يتعلمه النموذج تلقائيًا من خلال كميات هائلة من البيانات.
2.2 عملية حساب الانتباه
تتحقق آلية الانتباه الذاتي من خلال ثلاث خطوات رئيسية:
- توليد متجهات Q وK وV: تخضع كل كلمة لثلاث تحويلات خطية مختلفة، لتوليد متجهات Query (الاستعلام) وKey (المفتاح) وValue (القيمة)
- حساب أوزان الانتباه: يتم حساب الجداء النقطي بين Query وجميع Key للحصول على درجات التشابه
- الجمع الموزون: يتم جمع متجهات Value وفقًا لأوزان الانتباه للحصول على المخرج النهائي
ثالثًا: Query وKey وValue: الفرسان الثلاثة للانتباه
تستلهم آلية الانتباه في Transformer فكرتها من استرجاع المعلومات، حيث تُسقط كل كلمة في ثلاثة فضاءات متجهية مختلفة.
3.1 أدوار المتجهات الثلاثة
Query (الاستعلام): يمثل "ما الذي أبحث عنه". نية الاستعلام للكلمة الحالية، تُستخدم للمطابقة مع Key الكلمات الأخرى.
Key (المفتاح): يمثل "ما أنا عليه". المعرف المميز لكل كلمة، يُستخدم ليتم استرجاعه بواسطة Query.
Value (القيمة): يمثل "ما هو مضموني". المعلومات الفعلية المراد نقلها، يتم جمعها وفقًا لأوزان الانتباه.
تكمن براعة هذا التصميم في أن حساب التشابه (Q·K) ونقل المعلومات (V) منفصلان عن بعضهما. يمكن للنموذج أن يتعلم أن "أي الكلمات يجب الانتباه إليها" و"ما المعلومات التي يجب استخلاصها بعد الانتباه" هما مسألتان مستقلتان.
3.2 صيغة حساب الانتباه
الصيغة الكاملة لحساب الانتباه هي:
Attention(Q, K, V) = softmax(QK^T / √d_k) Vحيث:
QK^T: حساب الجداء النقطي بين Query وKey، للحصول على مصفوفة التشابه√d_k: عامل تدريج، يمنع قيم الجداء النقطي الكبيرة جدًا من التسبب في اختفاء تدرج softmaxsoftmax: تحويل التشابه إلى توزيع احتمالي (أوزان الانتباه)- أخيرًا الضرب مع
V: الجمع الموزون لـ Value باستخدام أوزان الانتباه
رابعًا: الانتباه متعدد الرؤوس: فهم الدلالات من زوايا متعددة
يمكن لرأس انتباه واحد فقط التقاط نوع واحد من علاقات الاعتماد. لتمكين النموذج من فهم الجملة من زوايا متعددة، قدم Transformer الانتباه متعدد الرؤوس (Multi-Head Attention).
4.1 آلية عمل الرؤوس المتعددة
يسقط الانتباه متعدد الرؤوس المدخلات في عدة فضاءات جزئية مختلفة، حيث يحسب كل "رأس" الانتباه بشكل مستقل، ثم يتم دمج مخرجات جميع الرؤوس في النهاية.
يستخدم Transformer النموذجي 8 أو 16 رأس انتباه، وقد يتخصص كل رأس في ظواهر لغوية مختلفة:
- الرأس النحوي: تحديد العلاقات النحوية مثل الفاعل والمفعول به والصفة والحال
- الرأس الدلالي: التقاط ارتباط المعاني (مثل "بنك" و"حساب")
- الرأس الموضعي: التركيز على الاعتماد المحلي للكلمات المتجاورة
- رأس الإحالة: تحليل مرجعية الضمائر (مثل "هو" يشير إلى "أحمد")
- الرأس العاطفي: تمييز النبرة الإيجابية والسلبية والميول العاطفية
- رأس الكيانات: التعرف على الكيانات المسماة مثل أسماء الأشخاص والأماكن
4.2 مزايا تعدد الرؤوس
قدرة تعبيرية أقوى: يمكن للرؤوس المختلفة التقاط أنواع مختلفة من علاقات الاعتماد، متجنبة قيود المنظور الواحد.
حوسبة متوازية: يمكن حساب الرؤوس المتعددة في آنٍ واحد، دون زيادة زمن الحساب.
متانة أفضل: حتى إذا فشلت بعض الرؤوس في التعلم، لا تزال الرؤوس الأخرى قادرة على تقديم معلومات مفيدة.
التعبير الرياضي للانتباه متعدد الرؤوس
MultiHead(Q, K, V) = Concat(head_1, ..., head_h) W^O
حيث head_i = Attention(QW_i^Q, KW_i^K, VW_i^V)لكل رأس مصفوفات أوزان مستقلة W^Q وW^K وW^V، وفي النهاية يتم دمج مخرجات جميع الرؤوس من خلال W^O.
خامسًا: البنية الكاملة لـ Transformer: المُشفِّر والمُفكِّك
تتكون البنية الكاملة لـ Transformer من جزأين: المُشفِّر (Encoder) والمُفكِّك (Decoder)، وهما مسؤولان عن فهم المدخلات وتوليد المخرجات على التوالي.
5.1 المُشفِّر (Encoder)
يتكون المُشفِّر من عدة طبقات (عادة 6-12 طبقة) من نفس البنية مكدسة فوق بعضها، وتحتوي كل طبقة على طبقتين فرعيتين:
- طبقة الانتباه الذاتي متعدد الرؤوس: التقاط علاقات الاعتماد داخل تسلسل المدخلات
- الشبكة العصبية الأمامية (Feed Forward): إجراء تحويل غير خطي مستقل لكل موضع
بعد كل طبقة فرعية يوجد اتصال متبقي (Residual Connection) وتطبيع طبقي (Layer Normalization)، لضمان استقرار تدريب الشبكات العميقة.
5.2 المُفكِّك (Decoder)
يتكون المُفكِّك أيضًا من طبقات متعددة مكدسة، لكن كل طبقة تحتوي على ثلاث طبقات فرعية:
- الانتباه الذاتي متعدد الرؤوس المُقنَّع (Masked Multi-Head Attention): يمكنه رؤية الكلمات قبل الموضع الحالي فقط، لمنع "الغش"
- الانتباه المتقاطع (Cross-Attention): يربط المُشفِّر بالمُفكِّك، لتمكين المُفكِّك من الانتباه إلى تسلسل المدخلات
- الشبكة العصبية الأمامية: مماثلة للمُشفِّر
5.3 المتغيرات الحديثة: المُشفِّر فقط مقابل المُفكِّك فقط
رغم أن Transformer الأصلي يحتوي على مُشفِّر ومُفكِّك، إلا أن النماذج الكبيرة الحديثة تستخدم عادةً أحدهما فقط:
| نوع البنية | النماذج الممثلة | المهام المناسبة |
|---|---|---|
| المُشفِّر فقط | BERT وRoBERTa | تصنيف النصوص، التعرف على الكيانات المسماة، الإجابة على الأسئلة |
| المُفكِّك فقط | GPT وLLaMA وClaude | توليد النصوص، المحادثة، إكمال الكود |
| مُشفِّر-مُفكِّك | T5 وBART | الترجمة، التلخيص، إعادة كتابة النصوص |
لماذا تستخدم GPT المُفكِّك فقط؟
تعتمد سلسلة نماذج GPT على أسلوب التوليد الذاتي الانحداري، حيث تتوقع الكلمة التالية واحدة تلو الأخرى. بنية المُفكِّك فقط مناسبة طبيعيًا لهذا النوع من مهام التوليد، وهي أبسط في البنية وأسهل في التوسع إلى مئات المليارات من المعلمات.
سادسًا: الترميز الموضعي: إخبار النموذج بترتيب الكلمات
آلية الانتباه الذاتي في Transformer هي بطبيعتها غير حساسة للموضع — فهي تعتبر الجملة مجموعة من الكلمات، دون الاهتمام بترتيبها. لكن ترتيب الكلمات ضروري للمعنى: "أحبك" و"تحبني" مختلفتان تمامًا في المعنى!
6.1 ضرورة الترميز الموضعي
لتمكين النموذج من إدراك معلومات الموضع، يضيف Transformer ترميزًا موضعيًا (Positional Encoding) إلى تضمين المدخلات. الترميز الموضعي هو متجه بنفس بُعد تضمين الكلمة، يُضاف مباشرة إلى تضمين الكلمة.
6.2 الترميز الموضعي بدوال الجيب وجيب التمام
يستخدم Transformer الأصلي دوال الجيب وجيب التمام الثابتة لتوليد الترميز الموضعي:
PE(pos, 2i) = sin(pos / 10000^(2i/d))
PE(pos, 2i+1) = cos(pos / 10000^(2i/d))مزايا هذا التصميم:
- التفرد: لكل موضع ترميز فريد
- الموضع النسبي: يمكن للنموذج تعلم علاقات المسافة النسبية
- قابلية التعميم: يمكنه معالجة تسلسلات أطول مما تم التدريب عليه
6.3 مخططات الترميز الموضعي الحديثة
مع تقدم البحث، ظهرت المزيد من مخططات الترميز الموضعي:
الترميز الموضعي القابل للتعلم: BERT وGPT يعتبران الترميز الموضعي معاملات قابلة للتدريب، بدلاً من دوال ثابتة.
الترميز الموضعي النسبي: T5 وDeBERTa لا يرمزان الموضع المطلق، بل المسافة النسبية بين الكلمات.
الترميز الموضعي الدوراني (RoPE): المخطط المستخدم في LLaMA وGPT-NeoX، يحقن معلومات الموضع من خلال تدوير متجهي Q وK، مع أداء تعميم أفضل.
ALiBi: يحقق الإدراك الموضعي من خلال إضافة حد انحياز إلى درجات الانتباه، دون الحاجة إلى معاملات إضافية.
سابعًا: تأثير Transformer ومستقبله
لم يكن ظهور Transformer مجرد ولادة بنية جديدة، بل كان تحولاً في نموذج البحث في الذكاء الاصطناعي بأكمله.
7.1 نموذج التدريب المسبق الموحد
جعل Transformer "التدريب المسبق + الضبط الدقيق" هو التدفق القياسي لمعالجة اللغة الطبيعية. من خلال التدريب المسبق على كميات هائلة من النصوص غير المعنونة، يتعلم النموذج تمثيلات عامة للغة، ثم يحتاج فقط إلى كمية صغيرة من البيانات المعنونة للتكيف مع مختلف المهام النهائية.
7.2 بنية عامة عبر الوسائط
لا يقتصر نجاح Transformer على النصوص. فقد تم تطبيقه بنجاح على:
- الرؤية الحاسوبية: Vision Transformer (ViT) يتفوق على CNN في تصنيف الصور
- التعرف على الكلام: Whisper يستخدم Transformer لتحويل الكلام متعدد اللغات إلى نص
- التنبؤ ببنية البروتين: AlphaFold 2 يستخدم Transformer للتنبؤ بالبنية ثلاثية الأبعاد للبروتينات
- التعلم المعزز: Decision Transformer يحول مشاكل RL إلى نمذجة تسلسلية
7.3 حجر الأساس في عصر النماذج الكبيرة
من 175 مليار معامل في GPT-3 إلى تريليونات المعاملات في GPT-4، يُظهر Transformer قابلية مذهلة للتوسع. خصائصه في الحوسبة المتوازية تمكننا من تدريب نماذج عملاقة غير مسبوقة، وملاحظة القدرات الناشئة (Emergent Abilities) — عندما يكون النموذج كبيرًا بما يكفي، "يستنبط" تلقائيًا قدرات الاستدلال والبرمجة وتعدد اللغات.
7.4 التحديات والاتجاهات المستقبلية
رغم النجاح الهائل لـ Transformer، لا تزال هناك تحديات:
التعقيد الحسابي: تعقيد الانتباه الذاتي هو O(n²)، مما يسبب كميات هائلة من الحساب عند معالجة النصوص الطويلة.
نمذجة النصوص الطويلة: رغم أنه يمكن نظريًا معالجة أي طول، إلا أنه مقيد عمليًا بذاكرة العرض وموارد الحوسبة.
قابلية التفسير: رغم أن أوزان الانتباه توفر درجة معينة من قابلية التفسير، إلا أن عملية اتخاذ القرار في الشبكات العميقة لا تزال صندوقًا أسود.
تشمل اتجاهات البحث الحالية:
- Transformer الفعال: Linformer وPerformer وFlash Attention وغيرها لتقليل التعقيد
- نمذجة السياق الطويل: Sparse Attention وSliding Window وآليات Memory
- الدمج متعدد الوسائط: بنى أصلية متعددة الوسائط تعالج النصوص والصور والصوت بشكل موحد
ثامنًا: الخلاصة
مثل طرح Transformer وآلية الانتباه تحولاً كاملاً في التعلم العميق من "تصميم الميزات يدويًا" إلى "التعلم الشامل". لم يحل فقط عنق الزجاجة التقني لـ RNN، بل الأهم من ذلك أنه قدم بنية بسيطة وعامة وقابلة للتوسع، لتصبح حجر الأساس في عصر النماذج الكبيرة.
فهم Transformer هو فهم جوهر الذكاء الاصطناعي الحديث. من الترميز ثنائي الاتجاه في BERT، إلى التوليد الذاتي الانحداري في GPT، وصولاً إلى التمثيل الموحد في النماذج الكبيرة متعددة الوسائط — كل هذه الاختراقات تقف على أكتاف Transformer.
في المستقبل، مع تحسين القدرة الحاسوبية وتطوير الخوارزميات، سيواصل Transformer تطوره، دافعًا الذكاء الاصطناعي نحو الأقوى والأكثر عمومية.