Transformer und Attention-Mechanismus: Die Kern-Engine großer Modelle

2017 schlug Google im Paper "Attention Is All You Need" die Transformer-Architektur vor und veränderte damit die Spielregeln der natürlichen Sprachverarbeitung grundlegend. Sie verwarf die traditionellen rekurrenten neuronalen Netze (RNN) und erreichte allein durch den Attention-Mechanismus eine höhere Leistung und Trainingseffizienz. Heute basieren nahezu alle großen Sprachmodelle – GPT, BERT, T5, LLaMA – auf dem Transformer.

🔄

RNN 的困境

顺序处理，长距离依赖衰减

⚡

Transformer 突破

并行计算，全局注意力

🎯

注意力机制

动态关注重要信息

🚀

大模型基石

GPT、BERT 的核心架构

1. Die Grenzen der RNNs und der Durchbruch des Transformers

Vor dem Transformer waren rekurrente neuronale Netze (RNN) und ihre Varianten LSTM und GRU die dominierenden Methoden zur Verarbeitung sequenzieller Daten (wie Text und Sprache). Diese Modelle verarbeiten die Elemente einer Sequenz nacheinander durch eine rekurrente Struktur und verwalten einen versteckten Zustand, um historische Informationen zu speichern.

1.1 Die drei fatalen Schwächen der RNNs

Sequenzielle Abhängigkeit, keine Parallelisierung: RNNs müssen warten, bis die Berechnung des vorherigen Zeitschritts abgeschlossen ist, bevor sie das nächste Wort verarbeiten können. Dies führt zu extrem langsamen Trainingszeiten und verhindert die Nutzung der parallelen Rechenleistung moderner GPUs.

Schwund der Langdistanzabhängigkeiten: Selbst verbesserte LSTMs „vergessen" frühe Informationen allmählich bei der Verarbeitung langer Texte. In einem 500-Wörter-Artikel kann sich das Modell beispielsweise kaum an die wichtigsten Informationen vom Anfang erinnern.

Verschwindende/explodierende Gradienten: Bei der Rückwärtspropagation müssen die Gradienten Zeitschritt für Zeitschritt übertragen werden, was leicht zu verschwindenden oder explodierenden Gradienten und instabilem Training führt.

1.2 Der revolutionäre Durchbruch des Transformers

Der Transformer ermöglicht es dem Modell durch den Self-Attention-Mechanismus, die gesamte Sequenz „auf einen Blick" zu erfassen und die Beziehungen zwischen beliebigen zwei Positionen direkt zu berechnen, ohne Informationen schrittweise übertragen zu müssen.

RNN / LSTM

顺序处理：词1 → 词2 → 词3

❌ 长距离依赖衰减

❌ 无法并行训练

Transformer
并行处理：所有词同时计算
✅ 全局注意力
✅ 高效并行

Die Kernvorteile des Transformers

Parallele Berechnung: Die Attention aller Positionen kann gleichzeitig berechnet werden, die Trainingsgeschwindigkeit steigt um das Dutzendfache
Globale Sicht: Erfasst Langdistanzabhängigkeiten direkt, ohne Einschränkung durch die Sequenzlänge
Skalierbarkeit: Einheitliche, klare Architektur, leicht zu tieferen Netzwerken stapelbar

2. Die vollständige Transformer-Architektur: Vom Ganzen zum Detail

Die vollständige Transformer-Architektur besteht aus zwei Teilen: dem Encoder und dem Decoder, die für das Verstehen der Eingabe bzw. das Generieren der Ausgabe zuständig sind.

Encoder（编码器）

× N 层

Multi-Head Self-Attention

捕获输入序列内部依赖

Add & Norm

Feed Forward Network

位置独立的非线性变换

Add & Norm

输入

Token Embedding + Positional Encoding

Decoder（解码器）

输出

Linear + Softmax → 概率分布

× N 层

Masked Self-Attention

只看当前位置之前的词

Add & Norm

Cross-Attention

关注 Encoder 的输出

Add & Norm

Feed Forward Network

位置独立的非线性变换

Add & Norm

输出（移位）

Token Embedding + Positional Encoding

2.1 Der Encoder

Am Beispiel des Satzes „Der Kontostand des Bankkontos ist unzureichend". Wenn das Modell das Wort „Kontostand" verarbeitet, berechnet es automatisch die Relevanz zu anderen Wörtern:

„Kontostand" und „Bankkontos" sind hoch korreliert (0.35)
„Kontostand" und „Bank" sind mäßig korreliert (0.20)
„Kontostand" und „des", „ist" (Funktionswörter) sind gering korreliert (0.05–0.10)

Diese Korrelationen sind nicht von Menschen vorgegeben, sondern werden vom Modell durch große Datenmengen automatisch erlernt.

自注意力示例：「他」关注「小明」

小明把苹果给了他的母亲

小明

65%

把

苹果

10%

给了

10%

他

的

母亲

「他」把 65% 注意力投向「小明」，识别代词指代关系

2.2 Der Berechnungsprozess der Attention

Der Self-Attention-Mechanismus funktioniert in drei entscheidenden Schritten:

Q-, K-, V-Vektoren erzeugen: Jedes Wort durchläuft drei verschiedene lineare Transformationen und erzeugt Query-, Key- und Value-Vektoren
Attention-Gewichte berechnen: Das Skalarprodukt von Query mit allen Keys wird berechnet, um einen Ähnlichkeitsscore zu erhalten
Gewichtete Summe: Die Value-Vektoren werden mit den Attention-Gewichten gewichtet summiert, um die endgültige Ausgabe zu erhalten

3. Query, Key, Value: Die drei Musketiere der Attention

Der Attention-Mechanismus des Transformers ist vom Prinzip der Informationsbeschaffung inspiriert und bildet jedes Wort auf drei verschiedene Vektorräume ab.

3.1 Die Rollen der drei Vektoren

Query (Abfrage): Steht für „Was will ich finden?". Die Abfrageabsicht des aktuellen Wortes, die mit den Keys anderer Wörter abgeglichen wird.

Key (Schlüssel): Steht für „Was bin ich?". Die Merkmalskennung jedes Wortes, die von der Query abgefragt wird.

Value (Wert): Steht für „Was ist mein Inhalt?". Die tatsächlich zu übertragende Information, die entsprechend den Attention-Gewichten gewichtet summiert wird.

Das Geniale dieses Designs ist: Die Ähnlichkeitsberechnung (Q-K) und die Informationsübertragung (V) sind entkoppelt. Das Modell kann lernen, dass „welche Wörter beachtet werden sollen" und „welche Informationen nach der Beachtung extrahiert werden sollen" zwei unabhängige Probleme sind.

🔍

Query

我想找什么

🔑

Key

我是什么

💎

Value

我的内容

Attention(Q, K, V) = softmax(QK^T / √d_k) V

3.2 Die Attention-Berechnungsformel

Die vollständige Attention-Berechnungsformel lautet:

Attention(Q, K, V) = softmax(QK^T / √d_k) V

Wobei:

QK^T: Das Skalarprodukt von Query und Key berechnen, um die Ähnlichkeitsmatrix zu erhalten
√d_k: Skalierungsfaktor, verhindert, dass zu große Skalarprodukte den Gradienten von Softmax verschwinden lassen
softmax: Wandelt die Ähnlichkeit in eine Wahrscheinlichkeitsverteilung (Attention-Gewichte) um
Multiplikation mit V: Die Value-Vektoren werden mit den Attention-Gewichten gewichtet summiert

4. Multi-Head Attention: Semantik aus mehreren Perspektiven verstehen

Ein einzelner Attention-Head kann nur eine Art von Abhängigkeitsbeziehung erfassen. Damit das Modell Sätze aus mehreren Perspektiven versteht, führte der Transformer die Multi-Head Attention ein.

4.1 Der Arbeitsmechanismus der Multi-Head Attention

Multi-Head Attention projiziert die Eingabe in mehrere verschiedene Unterräume, jeder „Head" berechnet die Attention unabhängig, und schließlich werden die Ausgaben aller Heads konkateniert.

Ein typischer Transformer verwendet 8 oder 16 Attention-Heads, wobei jeder Head sich auf verschiedene linguistische Phänomene spezialisieren kann:

Grammatik-Head: Erkennt grammatische Beziehungen wie Subjekt-Prädikat-Objekt
Semantik-Head: Erfasst lexikalische Korrelationen (z. B. „Bank" und „Konto")
Positions-Head: Achtet auf lokale Abhängigkeiten benachbarter Wörter
Referenz-Head: Löst Pronomenbezüge auf (z. B. „er" verweist auf „Xiao Ming")
Sentiment-Head: Erkennt wertende Färbungen und emotionale Tendenzen
Entitäts-Head: Erkennt benannte Entitäten wie Personen- und Ortsnamen

语法头

主谓宾关系

语义头

词义关联

位置头

距离关系

指代头

代词消解

情感头

情绪倾向

实体头

命名实体

修饰头

定状补

全局头

整体语境

8 个头从不同角度理解语义，最后拼接融合

4.2 Die Vorteile der Multi-Head Attention

Stärkere Ausdrucksfähigkeit: Verschiedene Heads können unterschiedliche Arten von Abhängigkeitsbeziehungen erfassen und die Einschränkung einer einzigen Perspektive vermeiden.

Parallele Berechnung: Mehrere Heads können gleichzeitig berechnet werden, ohne die Rechenzeit zu erhöhen.

Bessere Robustheit: Selbst wenn einige Heads fehlschlagen, können die anderen noch gültige Informationen liefern.

Mathematischer Ausdruck der Multi-Head Attention

MultiHead(Q, K, V) = Concat(head_1, ..., head_h) W^O
wobei head_i = Attention(QW_i^Q, KW_i^K, VW_i^V)

Jeder Head hat unabhängige Gewichtsmatrizen W^Q, W^K, W^V, und W^O fusioniert schließlich die Ausgaben aller Heads.

5. Die vollständige Transformer-Architektur: Encoder und Decoder

Die vollständige Transformer-Architektur besteht aus zwei Teilen: dem Encoder und dem Decoder, die für das Verstehen der Eingabe bzw. das Generieren der Ausgabe zuständig sind.

5.1 Der Encoder

Der Encoder besteht aus mehreren gestapelten Schichten (typischerweise 6–12) identischer Struktur, jede Schicht enthält zwei Unterschichten:

Multi-Head Self-Attention-Schicht: Erfasst die Abhängigkeiten innerhalb der Eingabesequenz
Feed-Forward-Netzwerk: Führt unabhängige nichtlineare Transformationen für jede Position durch

Nach jeder Unterschicht folgen Residualverbindung (Residual Connection) und Layer-Normalisierung (Layer Normalization), um die Trainingsstabilität tiefer Netzwerke sicherzustellen.

5.2 Der Decoder

Auch der Decoder besteht aus mehreren gestapelten Schichten, aber jede Schicht hat drei Unterschichten:

Masked Multi-Head Self-Attention: Kann nur die Wörter vor der aktuellen Position sehen, verhindert „Schummeln"
Cross-Attention: Verbindet Encoder und Decoder und lässt den Decoder auf die Eingabesequenz achten
Feed-Forward-Netzwerk: Identisch zum Encoder

Encoder（编码器）

× N 层

Multi-Head Self-Attention

捕获输入序列内部依赖

Add & Norm

Feed Forward Network

位置独立的非线性变换

Add & Norm

输入

Token Embedding + Positional Encoding

Decoder（解码器）

输出

Linear + Softmax → 概率分布

× N 层

Masked Self-Attention

只看当前位置之前的词

Add & Norm

Cross-Attention

关注 Encoder 的输出

Add & Norm

Feed Forward Network

位置独立的非线性变换

Add & Norm

输出（移位）

Token Embedding + Positional Encoding

5.3 Moderne Varianten: Nur Encoder vs. Nur Decoder

Obwohl der ursprüngliche Transformer Encoder und Decoder enthält, verwenden moderne große Modelle meist nur eine der beiden Komponenten:

Architekturtyp	Repräsentative Modelle	Geeignete Aufgaben
Nur Encoder	BERT, RoBERTa	Textklassifikation, Named Entity Recognition, Q&A
Nur Decoder	GPT, LLaMA, Claude	Textgenerierung, Dialog, Code-Vervollständigung
Encoder-Decoder	T5, BART	Übersetzung, Zusammenfassung, Textumformulierung

Warum verwendet GPT nur einen Decoder?

Die GPT-Modellreihe nutzt die autoregressive Generierung und sagt das nächste Wort einzeln voraus. Die reine Decoder-Architektur ist von Natur aus für solche Generierungsaufgaben geeignet, ist strukturell einfacher und lässt sich leicht auf Hunderte Milliarden Parameter skalieren.

6. Positionskodierung: Dem Modell die Wortreihenfolge mitteilen

Der Self-Attention-Mechanismus des Transformers ist an sich positionsunabhängig – er betrachtet den Satz als eine Menge von Wörtern und ignoriert die Wortreihenfolge. Aber die Wortreihenfolge ist entscheidend für die Semantik: „Ich liebe dich" und „Du liebst mich" bedeuten völlig Unterschiedliches!

6.1 Die Notwendigkeit der Positionskodierung

Damit das Modell Positionsinformationen wahrnehmen kann, fügt der Transformer der Eingabe-Einbettung eine Positionskodierung (Positional Encoding) hinzu. Die Positionskodierung ist ein Vektor derselben Dimension wie die Worteinbettung und wird direkt zur Worteinbettung addiert.

问题：词序很重要

我爱你≠你爱我

解决：位置编码

Token Embedding + Positional Encoding

正弦余弦（Transformer 原始）

可学习（BERT、GPT）

旋转编码 RoPE（LLaMA）

6.2 Sinus- und Kosinus-Positionskodierung

Der ursprüngliche Transformer verwendet feste Sinus- und Kosinusfunktionen zur Generierung der Positionskodierung:

PE(pos, 2i) = sin(pos / 10000^(2i/d))
PE(pos, 2i+1) = cos(pos / 10000^(2i/d))

Die Vorteile dieses Designs:

Eindeutigkeit: Jede Position hat eine eindeutige Kodierung
Relative Position: Das Modell kann relative Distanzbeziehungen lernen
Extrapolierbarkeit: Es können längere Sequenzen als im Training verarbeitet werden

6.3 Moderne Positionskodierungsansätze

Mit fortschreitender Forschung sind weitere Positionskodierungsansätze entstanden:

Lernbare Positionskodierung: BERT, GPT verwenden die Positionskodierung als trainierbaren Parameter statt als feste Funktion.

Relative Positionskodierung: T5, DeBERTa kodieren nicht die absolute Position, sondern die relative Distanz zwischen Wörtern.

Rotary Position Embedding (RoPE): Der von LLaMA, GPT-NeoX verwendete Ansatz, der Q- und K-Vektoren rotiert, um Positionsinformationen einzufügen, mit besserer Extrapolationsleistung.

ALiBi: Erreicht Positionswahrnehmung durch Hinzufügen eines Bias-Terms zu den Attention-Scores, ohne zusätzliche Parameter.

7. Der Einfluss und die Zukunft des Transformers

Das Erscheinen des Transformers war nicht nur die Geburt einer neuen Architektur, sondern ein Paradigmenwechsel in der gesamten KI-Forschung.

7.1 Einheitliches Pre-Training-Paradigma

Der Transformer machte „Pre-Training + Fine-Tuning" zum Standardprozess des NLP. Durch Pre-Training auf riesigen Mengen unbeschrifteten Textes lernt das Modell eine universelle Repräsentation der Sprache und kann sich dann mit nur wenigen beschrifteten Daten an verschiedene nachgelagerte Aufgaben anpassen.

7.2 Eine modalitätsübergreifende Universalarchitektur

Der Erfolg des Transformers beschränkt sich nicht auf Text. Er wurde erfolgreich angewendet auf:

Computer Vision: Vision Transformer (ViT) ubertrifft CNNs bei der Bildklassifikation
Spracherkennung: Whisper verwendet Transformer für mehrsprachige Sprach-zu-Text-Umwandlung
Proteinstrukturvorhersage: AlphaFold 2 nutzt Transformer zur Vorhersage von 3D-Proteinstrukturen
Reinforcement Learning: Decision Transformer formuliert RL-Probleme in Sequenzmodellierung um

7.3 Der Grundstein des Zeitalters großer Modelle

Von GPT-3s 175 Milliarden Parametern bis zu GPT-4s Billionen Parametern zeigt der Transformer eine erstaunliche Skalierbarkeit. Seine parallele Rechenleistung ermöglicht es uns, beispiellos große Modelle zu trainieren und Emergente Fähigkeiten (Emergent Abilities) zu beobachten – wenn das Modell groß genug ist, „erwacht" es automatisch zu Fähigkeiten wie logischem Denken, Programmierung und Mehrsprachigkeit.

7.4 Zukünftige Herausforderungen und Richtungen

Trotz des enormen Erfolgs des Transformers bleiben Herausforderungen:

Rechenkomplexität: Die Komplexität der Self-Attention ist O(n^2), bei langen Texten ist die Rechenlast enorm.

Lange Textmodellierung: Obwohl theoretisch beliebige Längen verarbeitet werden können, ist die Praxis durch VRAM und Rechenressourcen beschränkt.

Interpretierbarkeit: Obwohl Attention-Gewichte eine gewisse Interpretierbarkeit bieten, bleibt der Entscheidungsprozess tiefer Netzwerke eine Black Box.

Aktuelle Forschungsrichtungen umfassen:

Effiziente Transformer: Linformer, Performer, Flash Attention zur Reduzierung der Komplexität
Lange Kontextmodellierung: Sparse Attention, Sliding Window, Memory-Mechanismen
Multimodale Fusion: Native multimodale Architekturen zur einheitlichen Verarbeitung von Text, Bild und Audio

8. Zusammenfassung

Die Einführung des Transformers und des Attention-Mechanismus markiert den vollständigen Wandel des Deep Learning von „handgefertigten Merkmalen" zu „End-to-End-Lernen". Er löste nicht nur die technischen Engpässe der RNNs, sondern bot vor allem eine klare, universelle und skalierbare Architektur, die zum Fundament des Zeitalters großer Modelle wurde.

Den Transformer zu verstehen bedeutet, den Kern moderner KI zu verstehen. Von BERTs bidirektionaler Kodierung uber GPTs autoregressive Generierung bis hin zur einheitlichen Repräsentation multimodaler großer Modelle – all diese Durchbrüche stehen auf den Schultern des Transformers.

In Zukunft wird sich der Transformer mit steigender Rechenleistung und optimierten Algorithmen weiterentwickeln und die KI zu noch mächtigeren und universelleren Fähigkeiten führen.

Transformer und Attention-Mechanismus: Die Kern-Engine großer Modelle ​

1. Die Grenzen der RNNs und der Durchbruch des Transformers ​

1.1 Die drei fatalen Schwächen der RNNs ​

1.2 Der revolutionäre Durchbruch des Transformers ​

2. Die vollständige Transformer-Architektur: Vom Ganzen zum Detail ​

2.1 Der Encoder ​

2.2 Der Berechnungsprozess der Attention ​

3. Query, Key, Value: Die drei Musketiere der Attention ​

3.1 Die Rollen der drei Vektoren ​

3.2 Die Attention-Berechnungsformel ​

4. Multi-Head Attention: Semantik aus mehreren Perspektiven verstehen ​

4.1 Der Arbeitsmechanismus der Multi-Head Attention ​

4.2 Die Vorteile der Multi-Head Attention ​

5. Die vollständige Transformer-Architektur: Encoder und Decoder ​

5.1 Der Encoder ​

5.2 Der Decoder ​

5.3 Moderne Varianten: Nur Encoder vs. Nur Decoder ​

6. Positionskodierung: Dem Modell die Wortreihenfolge mitteilen ​

6.1 Die Notwendigkeit der Positionskodierung ​

6.2 Sinus- und Kosinus-Positionskodierung ​

6.3 Moderne Positionskodierungsansätze ​

7. Der Einfluss und die Zukunft des Transformers ​

7.1 Einheitliches Pre-Training-Paradigma ​

7.2 Eine modalitätsübergreifende Universalarchitektur ​

7.3 Der Grundstein des Zeitalters großer Modelle ​

7.4 Zukünftige Herausforderungen und Richtungen ​

8. Zusammenfassung ​

Transformer und Attention-Mechanismus: Die Kern-Engine großer Modelle

1. Die Grenzen der RNNs und der Durchbruch des Transformers

1.1 Die drei fatalen Schwächen der RNNs

1.2 Der revolutionäre Durchbruch des Transformers

2. Die vollständige Transformer-Architektur: Vom Ganzen zum Detail

2.1 Der Encoder

2.2 Der Berechnungsprozess der Attention

3. Query, Key, Value: Die drei Musketiere der Attention

3.1 Die Rollen der drei Vektoren

3.2 Die Attention-Berechnungsformel

4. Multi-Head Attention: Semantik aus mehreren Perspektiven verstehen

4.1 Der Arbeitsmechanismus der Multi-Head Attention

4.2 Die Vorteile der Multi-Head Attention

5. Die vollständige Transformer-Architektur: Encoder und Decoder

5.1 Der Encoder

5.2 Der Decoder

5.3 Moderne Varianten: Nur Encoder vs. Nur Decoder

6. Positionskodierung: Dem Modell die Wortreihenfolge mitteilen

6.1 Die Notwendigkeit der Positionskodierung

6.2 Sinus- und Kosinus-Positionskodierung

6.3 Moderne Positionskodierungsansätze

7. Der Einfluss und die Zukunft des Transformers

7.1 Einheitliches Pre-Training-Paradigma

7.2 Eine modalitätsübergreifende Universalarchitektur

7.3 Der Grundstein des Zeitalters großer Modelle

7.4 Zukünftige Herausforderungen und Richtungen

8. Zusammenfassung