Transformer وآلية الانتباه: المحرك الأساسي للنماذج الكبيرة

في عام 2017، غيّرت Google قواعد اللعبة في معالجة اللغة الطبيعية من خلال بنية Transformer التي طرحتها في ورقة "Attention Is All You Need". تخلت هذه البنية عن الشبكات العصبية التكرارية التقليدية (RNN)، وحققت أداءً أقوى وكفاءة تدريب أعلى بالاعتماد على آلية الانتباه فقط. اليوم، تُبنى جميع النماذج اللغوية الكبيرة تقريبًا — GPT وBERT وT5 وLLaMA — على أساس Transformer.

🔄

RNN 的困境

顺序处理，长距离依赖衰减

⚡

Transformer 突破

并行计算，全局注意力

🎯

注意力机制

动态关注重要信息

🚀

大模型基石

GPT、BERT 的核心架构

أولاً: معضلة RNN واختراق Transformer

قبل ظهور Transformer، كانت الطريقة السائدة لمعالجة البيانات التسلسلية (مثل النصوص والصوت) هي الشبكات العصبية التكرارية (RNN) ومتغيراتها LSTM وGRU. تعالج هذه النماذج عناصر التسلسل واحدًا تلو الآخر من خلال بنية تكرارية، مع الاحتفاظ بحالة مخفية لتذكر المعلومات التاريخية.

1.1 العيوب القاتلة الثلاثة لـ RNN

الاعتماد التسلسلي وعدم القدرة على التوازي: يجب على RNN انتظار اكتمال حساب الخطوة الزمنية السابقة قبل معالجة الكلمة التالية. هذا يؤدي إلى بطء شديد في التدريب وعدم القدرة على الاستفادة الكاملة من قدرة الحوسبة المتوازية لوحدات GPU الحديثة.

اضمحلال الاعتماد طويل المدى: حتى مع تحسينات LSTM، تُفقد المعلومات المبكرة تدريجيًا عند معالجة النصوص الطويلة. على سبيل المثال، في مقال من 500 كلمة، يصعب على النموذج تذكر المعلومات الأساسية المذكورة في البداية.

اختفاء / انفجار التدرج: أثناء الانتشار العكسي، يحتاج التدرج إلى المرور طبقة تلو الأخرى عبر الخطوات الزمنية، مما يجعله عرضة للاختفاء أو الانفجار، ويؤدي إلى عدم استقرار التدريب.

1.2 الاختراق الثوري لـ Transformer

من خلال آلية الانتباه الذاتي (Self-Attention)، يمكّن Transformer النموذج من "رؤية" التسلسل بأكمله دفعة واحدة، وحساب العلاقة بين أي موضعين مباشرة، دون الحاجة إلى نقل المعلومات خطوة بخطوة.

RNN / LSTM

顺序处理：词1 → 词2 → 词3

❌ 长距离依赖衰减

❌ 无法并行训练

Transformer
并行处理：所有词同时计算
✅ 全局注意力
✅ 高效并行

المزايا الأساسية لـ Transformer

الحوسبة المتوازية: يمكن حساب الانتباه لجميع المواضع في آنٍ واحد، مما يسرع التدريب بعشرات المرات
رؤية شاملة: التقاط الاعتماد طويل المدى مباشرة، دون التقيد بطول التسلسل
قابلية التوسع: بنية بسيطة وموحدة، سهلة التكديس لشبكات أعمق

ثانيًا: البنية الكاملة لـ Transformer: من الكل إلى التفاصيل

تتكون البنية الكاملة لـ Transformer من جزأين: المُشفِّر (Encoder) والمُفكِّك (Decoder)، وهما مسؤولان عن فهم المدخلات وتوليد المخرجات على التوالي.

Encoder（编码器）

× N 层

Multi-Head Self-Attention

捕获输入序列内部依赖

Add & Norm

Feed Forward Network

位置独立的非线性变换

Add & Norm

输入

Token Embedding + Positional Encoding

Decoder（解码器）

输出

Linear + Softmax → 概率分布

× N 层

Masked Self-Attention

只看当前位置之前的词

Add & Norm

Cross-Attention

关注 Encoder 的输出

Add & Norm

Feed Forward Network

位置独立的非线性变换

Add & Norm

输出（移位）

Token Embedding + Positional Encoding

2.1 المُشفِّر (Encoder)

لنأخذ جملة "الرصيد في الحساب البنكي غير كافٍ" كمثال. عندما يعالج النموذج كلمة "الرصيد"، فإنه يحسب تلقائيًا مدى ارتباطها بالكلمات الأخرى:

"الرصيد" و"الحساب" مرتبطان بدرجة عالية (0.35)
"الرصيد" و"البنكي" مرتبطان بدرجة متوسطة (0.20)
"الرصيد" والكلمات الوظيفية مثل "في" و"غير" منخفضة الارتباط (0.05-0.10)

هذا الارتباط ليس محددًا يدويًا، بل يتعلمه النموذج تلقائيًا من خلال كميات هائلة من البيانات.

自注意力示例：「他」关注「小明」

小明把苹果给了他的母亲

小明

65%

把

苹果

10%

给了

10%

他

的

母亲

「他」把 65% 注意力投向「小明」，识别代词指代关系

2.2 عملية حساب الانتباه

تتحقق آلية الانتباه الذاتي من خلال ثلاث خطوات رئيسية:

توليد متجهات Q وK وV: تخضع كل كلمة لثلاث تحويلات خطية مختلفة، لتوليد متجهات Query (الاستعلام) وKey (المفتاح) وValue (القيمة)
حساب أوزان الانتباه: يتم حساب الجداء النقطي بين Query وجميع Key للحصول على درجات التشابه
الجمع الموزون: يتم جمع متجهات Value وفقًا لأوزان الانتباه للحصول على المخرج النهائي

ثالثًا: Query وKey وValue: الفرسان الثلاثة للانتباه

تستلهم آلية الانتباه في Transformer فكرتها من استرجاع المعلومات، حيث تُسقط كل كلمة في ثلاثة فضاءات متجهية مختلفة.

3.1 أدوار المتجهات الثلاثة

Query (الاستعلام): يمثل "ما الذي أبحث عنه". نية الاستعلام للكلمة الحالية، تُستخدم للمطابقة مع Key الكلمات الأخرى.

Key (المفتاح): يمثل "ما أنا عليه". المعرف المميز لكل كلمة، يُستخدم ليتم استرجاعه بواسطة Query.

Value (القيمة): يمثل "ما هو مضموني". المعلومات الفعلية المراد نقلها، يتم جمعها وفقًا لأوزان الانتباه.

تكمن براعة هذا التصميم في أن حساب التشابه (Q·K) ونقل المعلومات (V) منفصلان عن بعضهما. يمكن للنموذج أن يتعلم أن "أي الكلمات يجب الانتباه إليها" و"ما المعلومات التي يجب استخلاصها بعد الانتباه" هما مسألتان مستقلتان.

🔍

Query

我想找什么

🔑

Key

我是什么

💎

Value

我的内容

Attention(Q, K, V) = softmax(QK^T / √d_k) V

3.2 صيغة حساب الانتباه

الصيغة الكاملة لحساب الانتباه هي:

Attention(Q, K, V) = softmax(QK^T / √d_k) V

حيث:

QK^T: حساب الجداء النقطي بين Query وKey، للحصول على مصفوفة التشابه
√d_k: عامل تدريج، يمنع قيم الجداء النقطي الكبيرة جدًا من التسبب في اختفاء تدرج softmax
softmax: تحويل التشابه إلى توزيع احتمالي (أوزان الانتباه)
أخيرًا الضرب مع V: الجمع الموزون لـ Value باستخدام أوزان الانتباه

رابعًا: الانتباه متعدد الرؤوس: فهم الدلالات من زوايا متعددة

يمكن لرأس انتباه واحد فقط التقاط نوع واحد من علاقات الاعتماد. لتمكين النموذج من فهم الجملة من زوايا متعددة، قدم Transformer الانتباه متعدد الرؤوس (Multi-Head Attention).

4.1 آلية عمل الرؤوس المتعددة

يسقط الانتباه متعدد الرؤوس المدخلات في عدة فضاءات جزئية مختلفة، حيث يحسب كل "رأس" الانتباه بشكل مستقل، ثم يتم دمج مخرجات جميع الرؤوس في النهاية.

يستخدم Transformer النموذجي 8 أو 16 رأس انتباه، وقد يتخصص كل رأس في ظواهر لغوية مختلفة:

الرأس النحوي: تحديد العلاقات النحوية مثل الفاعل والمفعول به والصفة والحال
الرأس الدلالي: التقاط ارتباط المعاني (مثل "بنك" و"حساب")
الرأس الموضعي: التركيز على الاعتماد المحلي للكلمات المتجاورة
رأس الإحالة: تحليل مرجعية الضمائر (مثل "هو" يشير إلى "أحمد")
الرأس العاطفي: تمييز النبرة الإيجابية والسلبية والميول العاطفية
رأس الكيانات: التعرف على الكيانات المسماة مثل أسماء الأشخاص والأماكن

语法头

主谓宾关系

语义头

词义关联

位置头

距离关系

指代头

代词消解

情感头

情绪倾向

实体头

命名实体

修饰头

定状补

全局头

整体语境

8 个头从不同角度理解语义，最后拼接融合

4.2 مزايا تعدد الرؤوس

قدرة تعبيرية أقوى: يمكن للرؤوس المختلفة التقاط أنواع مختلفة من علاقات الاعتماد، متجنبة قيود المنظور الواحد.

حوسبة متوازية: يمكن حساب الرؤوس المتعددة في آنٍ واحد، دون زيادة زمن الحساب.

متانة أفضل: حتى إذا فشلت بعض الرؤوس في التعلم، لا تزال الرؤوس الأخرى قادرة على تقديم معلومات مفيدة.

التعبير الرياضي للانتباه متعدد الرؤوس

MultiHead(Q, K, V) = Concat(head_1, ..., head_h) W^O
حيث head_i = Attention(QW_i^Q, KW_i^K, VW_i^V)

لكل رأس مصفوفات أوزان مستقلة W^Q وW^K وW^V، وفي النهاية يتم دمج مخرجات جميع الرؤوس من خلال W^O.

خامسًا: البنية الكاملة لـ Transformer: المُشفِّر والمُفكِّك

5.1 المُشفِّر (Encoder)

يتكون المُشفِّر من عدة طبقات (عادة 6-12 طبقة) من نفس البنية مكدسة فوق بعضها، وتحتوي كل طبقة على طبقتين فرعيتين:

طبقة الانتباه الذاتي متعدد الرؤوس: التقاط علاقات الاعتماد داخل تسلسل المدخلات
الشبكة العصبية الأمامية (Feed Forward): إجراء تحويل غير خطي مستقل لكل موضع

بعد كل طبقة فرعية يوجد اتصال متبقي (Residual Connection) وتطبيع طبقي (Layer Normalization)، لضمان استقرار تدريب الشبكات العميقة.

5.2 المُفكِّك (Decoder)

يتكون المُفكِّك أيضًا من طبقات متعددة مكدسة، لكن كل طبقة تحتوي على ثلاث طبقات فرعية:

الانتباه الذاتي متعدد الرؤوس المُقنَّع (Masked Multi-Head Attention): يمكنه رؤية الكلمات قبل الموضع الحالي فقط، لمنع "الغش"
الانتباه المتقاطع (Cross-Attention): يربط المُشفِّر بالمُفكِّك، لتمكين المُفكِّك من الانتباه إلى تسلسل المدخلات
الشبكة العصبية الأمامية: مماثلة للمُشفِّر

Encoder（编码器）

× N 层

Multi-Head Self-Attention

捕获输入序列内部依赖

Add & Norm

Feed Forward Network

位置独立的非线性变换

Add & Norm

输入

Token Embedding + Positional Encoding

Decoder（解码器）

输出

Linear + Softmax → 概率分布

× N 层

Masked Self-Attention

只看当前位置之前的词

Add & Norm

Cross-Attention

关注 Encoder 的输出

Add & Norm

Feed Forward Network

位置独立的非线性变换

Add & Norm

输出（移位）

Token Embedding + Positional Encoding

5.3 المتغيرات الحديثة: المُشفِّر فقط مقابل المُفكِّك فقط

رغم أن Transformer الأصلي يحتوي على مُشفِّر ومُفكِّك، إلا أن النماذج الكبيرة الحديثة تستخدم عادةً أحدهما فقط:

نوع البنية	النماذج الممثلة	المهام المناسبة
المُشفِّر فقط	BERT وRoBERTa	تصنيف النصوص، التعرف على الكيانات المسماة، الإجابة على الأسئلة
المُفكِّك فقط	GPT وLLaMA وClaude	توليد النصوص، المحادثة، إكمال الكود
مُشفِّر-مُفكِّك	T5 وBART	الترجمة، التلخيص، إعادة كتابة النصوص

لماذا تستخدم GPT المُفكِّك فقط؟

تعتمد سلسلة نماذج GPT على أسلوب التوليد الذاتي الانحداري، حيث تتوقع الكلمة التالية واحدة تلو الأخرى. بنية المُفكِّك فقط مناسبة طبيعيًا لهذا النوع من مهام التوليد، وهي أبسط في البنية وأسهل في التوسع إلى مئات المليارات من المعلمات.

سادسًا: الترميز الموضعي: إخبار النموذج بترتيب الكلمات

آلية الانتباه الذاتي في Transformer هي بطبيعتها غير حساسة للموضع — فهي تعتبر الجملة مجموعة من الكلمات، دون الاهتمام بترتيبها. لكن ترتيب الكلمات ضروري للمعنى: "أحبك" و"تحبني" مختلفتان تمامًا في المعنى!

6.1 ضرورة الترميز الموضعي

لتمكين النموذج من إدراك معلومات الموضع، يضيف Transformer ترميزًا موضعيًا (Positional Encoding) إلى تضمين المدخلات. الترميز الموضعي هو متجه بنفس بُعد تضمين الكلمة، يُضاف مباشرة إلى تضمين الكلمة.

问题：词序很重要

我爱你≠你爱我

解决：位置编码

Token Embedding + Positional Encoding

正弦余弦（Transformer 原始）

可学习（BERT、GPT）

旋转编码 RoPE（LLaMA）

6.2 الترميز الموضعي بدوال الجيب وجيب التمام

يستخدم Transformer الأصلي دوال الجيب وجيب التمام الثابتة لتوليد الترميز الموضعي:

PE(pos, 2i) = sin(pos / 10000^(2i/d))
PE(pos, 2i+1) = cos(pos / 10000^(2i/d))

مزايا هذا التصميم:

التفرد: لكل موضع ترميز فريد
الموضع النسبي: يمكن للنموذج تعلم علاقات المسافة النسبية
قابلية التعميم: يمكنه معالجة تسلسلات أطول مما تم التدريب عليه

6.3 مخططات الترميز الموضعي الحديثة

مع تقدم البحث، ظهرت المزيد من مخططات الترميز الموضعي:

الترميز الموضعي القابل للتعلم: BERT وGPT يعتبران الترميز الموضعي معاملات قابلة للتدريب، بدلاً من دوال ثابتة.

الترميز الموضعي النسبي: T5 وDeBERTa لا يرمزان الموضع المطلق، بل المسافة النسبية بين الكلمات.

الترميز الموضعي الدوراني (RoPE): المخطط المستخدم في LLaMA وGPT-NeoX، يحقن معلومات الموضع من خلال تدوير متجهي Q وK، مع أداء تعميم أفضل.

ALiBi: يحقق الإدراك الموضعي من خلال إضافة حد انحياز إلى درجات الانتباه، دون الحاجة إلى معاملات إضافية.

سابعًا: تأثير Transformer ومستقبله

لم يكن ظهور Transformer مجرد ولادة بنية جديدة، بل كان تحولاً في نموذج البحث في الذكاء الاصطناعي بأكمله.

7.1 نموذج التدريب المسبق الموحد

جعل Transformer "التدريب المسبق + الضبط الدقيق" هو التدفق القياسي لمعالجة اللغة الطبيعية. من خلال التدريب المسبق على كميات هائلة من النصوص غير المعنونة، يتعلم النموذج تمثيلات عامة للغة، ثم يحتاج فقط إلى كمية صغيرة من البيانات المعنونة للتكيف مع مختلف المهام النهائية.

7.2 بنية عامة عبر الوسائط

لا يقتصر نجاح Transformer على النصوص. فقد تم تطبيقه بنجاح على:

الرؤية الحاسوبية: Vision Transformer (ViT) يتفوق على CNN في تصنيف الصور
التعرف على الكلام: Whisper يستخدم Transformer لتحويل الكلام متعدد اللغات إلى نص
التنبؤ ببنية البروتين: AlphaFold 2 يستخدم Transformer للتنبؤ بالبنية ثلاثية الأبعاد للبروتينات
التعلم المعزز: Decision Transformer يحول مشاكل RL إلى نمذجة تسلسلية

7.3 حجر الأساس في عصر النماذج الكبيرة

من 175 مليار معامل في GPT-3 إلى تريليونات المعاملات في GPT-4، يُظهر Transformer قابلية مذهلة للتوسع. خصائصه في الحوسبة المتوازية تمكننا من تدريب نماذج عملاقة غير مسبوقة، وملاحظة القدرات الناشئة (Emergent Abilities) — عندما يكون النموذج كبيرًا بما يكفي، "يستنبط" تلقائيًا قدرات الاستدلال والبرمجة وتعدد اللغات.

7.4 التحديات والاتجاهات المستقبلية

رغم النجاح الهائل لـ Transformer، لا تزال هناك تحديات:

التعقيد الحسابي: تعقيد الانتباه الذاتي هو O(n²)، مما يسبب كميات هائلة من الحساب عند معالجة النصوص الطويلة.

نمذجة النصوص الطويلة: رغم أنه يمكن نظريًا معالجة أي طول، إلا أنه مقيد عمليًا بذاكرة العرض وموارد الحوسبة.

قابلية التفسير: رغم أن أوزان الانتباه توفر درجة معينة من قابلية التفسير، إلا أن عملية اتخاذ القرار في الشبكات العميقة لا تزال صندوقًا أسود.

تشمل اتجاهات البحث الحالية:

Transformer الفعال: Linformer وPerformer وFlash Attention وغيرها لتقليل التعقيد
نمذجة السياق الطويل: Sparse Attention وSliding Window وآليات Memory
الدمج متعدد الوسائط: بنى أصلية متعددة الوسائط تعالج النصوص والصور والصوت بشكل موحد

ثامنًا: الخلاصة

مثل طرح Transformer وآلية الانتباه تحولاً كاملاً في التعلم العميق من "تصميم الميزات يدويًا" إلى "التعلم الشامل". لم يحل فقط عنق الزجاجة التقني لـ RNN، بل الأهم من ذلك أنه قدم بنية بسيطة وعامة وقابلة للتوسع، لتصبح حجر الأساس في عصر النماذج الكبيرة.

فهم Transformer هو فهم جوهر الذكاء الاصطناعي الحديث. من الترميز ثنائي الاتجاه في BERT، إلى التوليد الذاتي الانحداري في GPT، وصولاً إلى التمثيل الموحد في النماذج الكبيرة متعددة الوسائط — كل هذه الاختراقات تقف على أكتاف Transformer.

في المستقبل، مع تحسين القدرة الحاسوبية وتطوير الخوارزميات، سيواصل Transformer تطوره، دافعًا الذكاء الاصطناعي نحو الأقوى والأكثر عمومية.

Transformer وآلية الانتباه: المحرك الأساسي للنماذج الكبيرة ​

أولاً: معضلة RNN واختراق Transformer ​

1.1 العيوب القاتلة الثلاثة لـ RNN ​

1.2 الاختراق الثوري لـ Transformer ​

ثانيًا: البنية الكاملة لـ Transformer: من الكل إلى التفاصيل ​

2.1 المُشفِّر (Encoder) ​

2.2 عملية حساب الانتباه ​

ثالثًا: Query وKey وValue: الفرسان الثلاثة للانتباه ​

3.1 أدوار المتجهات الثلاثة ​

3.2 صيغة حساب الانتباه ​

رابعًا: الانتباه متعدد الرؤوس: فهم الدلالات من زوايا متعددة ​

4.1 آلية عمل الرؤوس المتعددة ​

4.2 مزايا تعدد الرؤوس ​

خامسًا: البنية الكاملة لـ Transformer: المُشفِّر والمُفكِّك ​

5.1 المُشفِّر (Encoder) ​

5.2 المُفكِّك (Decoder) ​

5.3 المتغيرات الحديثة: المُشفِّر فقط مقابل المُفكِّك فقط ​

سادسًا: الترميز الموضعي: إخبار النموذج بترتيب الكلمات ​

6.1 ضرورة الترميز الموضعي ​

6.2 الترميز الموضعي بدوال الجيب وجيب التمام ​

6.3 مخططات الترميز الموضعي الحديثة ​

سابعًا: تأثير Transformer ومستقبله ​

7.1 نموذج التدريب المسبق الموحد ​

7.2 بنية عامة عبر الوسائط ​

7.3 حجر الأساس في عصر النماذج الكبيرة ​

7.4 التحديات والاتجاهات المستقبلية ​

ثامنًا: الخلاصة ​

Transformer وآلية الانتباه: المحرك الأساسي للنماذج الكبيرة

أولاً: معضلة RNN واختراق Transformer

1.1 العيوب القاتلة الثلاثة لـ RNN

1.2 الاختراق الثوري لـ Transformer

ثانيًا: البنية الكاملة لـ Transformer: من الكل إلى التفاصيل

2.1 المُشفِّر (Encoder)

2.2 عملية حساب الانتباه

ثالثًا: Query وKey وValue: الفرسان الثلاثة للانتباه

3.1 أدوار المتجهات الثلاثة

3.2 صيغة حساب الانتباه

رابعًا: الانتباه متعدد الرؤوس: فهم الدلالات من زوايا متعددة

4.1 آلية عمل الرؤوس المتعددة

4.2 مزايا تعدد الرؤوس

خامسًا: البنية الكاملة لـ Transformer: المُشفِّر والمُفكِّك

5.1 المُشفِّر (Encoder)

5.2 المُفكِّك (Decoder)

5.3 المتغيرات الحديثة: المُشفِّر فقط مقابل المُفكِّك فقط

سادسًا: الترميز الموضعي: إخبار النموذج بترتيب الكلمات

6.1 ضرورة الترميز الموضعي

6.2 الترميز الموضعي بدوال الجيب وجيب التمام

6.3 مخططات الترميز الموضعي الحديثة

سابعًا: تأثير Transformer ومستقبله

7.1 نموذج التدريب المسبق الموحد

7.2 بنية عامة عبر الوسائط

7.3 حجر الأساس في عصر النماذج الكبيرة

7.4 التحديات والاتجاهات المستقبلية

ثامنًا: الخلاصة