Skip to content

Neuronale Netze und Deep Learning

Vorwort

Neuronale Netze sind der Motor der KI-Revolution. Von ChatGPTs Sprachverständnis bis zur Bilderkennung beim autonomen Fahren – hinter allem stehen neuronale Netze. Das ist keine Magie, sondern ein ausgeklügeltes mathematisches Framework – es „lernt" aus großen Datenmengen die Abbildung von Eingabe auf Ausgabe. Das Grundprinzip zu verstehen hilft dir, KI-Werkzeuge besser zu nutzen und Fehler zu beheben.

Was lernst du in diesem Artikel?

Nach diesem Kapitel wirst du:

  • Kernkonzepte: Die Grundprinzipien von Neuronen, Schichten, Forward Propagation und Backpropagation verstehen
  • Netzwerktypen: Die Eigenschaften und Einsatzszenarien von CNN, RNN, Transformer und anderen gängigen Architekturen kennen
  • Trainingsprozess: Verstehen, wie das Modell aus Daten „lernt"
  • Schlüsseltechniken: Praktische Konzepte wie Overfitting, Lernrate und Regularisierung beherrschen
  • Entwicklungspfad: Den Evolutionsprozess vom Perzeptron bis zu großen Sprachmodellen kennen
KapitelInhaltKernkonzepte
Kapitel 1Vom Neuron zum NetzwerkPerzeptron, Aktivierungsfunktion, Forward Propagation
Kapitel 2Wie das Netzwerk lerntLoss-Funktion, Gradientenabstieg, Backpropagation
Kapitel 3Gängige NetzwerkarchitekturenCNN, RNN, Transformer
Kapitel 4Die Kunst des TrainingsOverfitting, Regularisierung, Hyperparameter-Tuning
Kapitel 5Entwicklungsgeschichte und ZukunftVom Perzeptron zu GPT

1. Vom Neuron zum Netzwerk

Einzelnes Neuron

Die kleinste Einheit des neuronalen Netzes ist das Neuron. Es simuliert die Arbeitsweise eines biologischen Neurons: Empfängt mehrere Eingangssignale, summiert sie gewichtet und erzeugt über die Aktivierungsfunktion eine Ausgabe.

Eingabe x1 -> xw1 -+
Eingabe x2 -> xw2 -+-> Sigma(gewichtete Summe) + b(Bias) -> f(Aktivierungsfunktion) -> Ausgabe
Eingabe x3 -> xw3 -+

Mathematischer Ausdruck: y = f(w1x1 + w2x2 + w3x3 + b)

How a Neuron Works
Adjust inputs and weights to see how the neuron output changes
Input × Weight
0.5
×
0.8
=0.40
-0.3
×
1.2
=-0.36
0.7
×
-0.5
=-0.35
Weighted sum + bias (0.1)
-0.21
Activation: Sigmoid
0.4477
0.1

Aktivierungsfunktion: Warum braucht man Nichtlinearität?

Ohne Aktivierungsfunktion ware jede Uberlagerung von Neuronen-Schichten letztlich aquivalent zu einer linearen Transformation (Matrixmultiplikation). Die Aktivierungsfunktion fuhrt Nichtlinearitat ein und ermoglicht dem Netzwerk, komplexe Muster zu lernen.

AktivierungsfunktionFormelEigenschaftenHaufige Verwendung
ReLUmax(0, x)Einfach, effizient, schnelles TrainingStandardwahl fur versteckte Schichten
Sigmoid1/(1+e^(-x))Ausgabe 0~1Ausgabeschicht fur binare Klassifikation
Tanh(e^x-e^(-x))/(e^x+e^(-x))Ausgabe -1~1Haufig in RNNs verwendet
Softmaxe^xi/Sigma e^xjAusgabe als WahrscheinlichkeitsverteilungAusgabeschicht fur Mehrklassen-Klassifikation

Vom Neuron zum Netzwerk

Mehrere Neuronen zu Schichten organisieren, mehrere Schichten hintereinander schalten – das ergibt ein neuronales Netz:

Eingabeschicht       Versteckte Schicht 1  Versteckte Schicht 2  Ausgabeschicht
(Merkmale)           (niedrige Merkmale)   (hohe Merkmale)       (Vorhersage)

 x1 -->  [o o o o] --> [o o o] -->  [o o]
 x2 -->  [o o o o] --> [o o o] -->  Katze/Hund
 x3 -->  [o o o o] --> [o o o]
KonzeptBeschreibung
EingabeschichtEmpfangt Rohdaten (Bildpixel, Textvektoren usw.)
Versteckte SchichtMittlere Verarbeitungsschicht, je mehr Schichten, desto „tiefer" das Netz (das „Deep" in Deep Learning)
AusgabeschichtErzeugt die endgultige Vorhersage (Klassifikationswahrscheinlichkeiten, Regressionswerte usw.)
Forward PropagationDer Prozess, bei dem Daten schichtweise von der Eingabe- zur Ausgabeschicht fließen

Warum heisst es „Deep" Learning?

Traditionelles maschinelles Lernen hat meist nur 1-2 Schichten. Wenn die Anzahl der versteckten Schichten auf Dutzende oder sogar Hunderte ansteigt, spricht man von „Deep" Learning. Tiefere Netzwerke konnen abstraktere Merkmale lernen: Schicht 1 lernt Kanten, Schicht 2 Texturen, Schicht 3 Teile, tiefere Schichten lernen „Das ist eine Katze".


2. Wie das Netzwerk lernt

Das „Lernen" neuronaler Netze ist im Kern ein Optimierungsproblem: Finde eine Menge von Gewichten (w) und Bias-Werten (b), sodass die Vorhersage des Netzwerks moglichst nahe an der richtigen Antwort liegt.

Die drei Trainingsschritte

1. Forward Propagation: Daten eingeben, Vorhersage erhalten
2. Loss berechnen: Mit der Loss-Funktion die Abweichung zwischen Vorhersage und tatsachlichem Wert messen
3. Backpropagation: Anhand des Loss den Gradienten jedes Gewichts berechnen, Gewichte aktualisieren
   |
   Obige Schritte wiederholen, bis der Loss klein genug ist

Loss-Funktion: Messen, „wie falsch" die Vorhersage ist

Die Loss-Funktion quantifiziert die Abweichung zwischen Vorhersage und tatsachlichem Wert. Das Trainingsziel ist die Minimierung des Loss.

Loss-FunktionKurzformelEinsatzszenario
MSE (Mean Squared Error)Mittelwert der quadrierten DifferenzenRegression
Cross-Entropy-Sigma y*log(y_hat)Klassifikation
Binary Cross-EntropyBinarversion der Cross-EntropyBinare Klassifikation

Gradientenabstieg: Den tiefsten Punkt finden

Stell dir vor, du stehst mit verbundenen Augen auf einem Berg und musst zum tiefsten Punkt gelangen. Du kannst nur die Steigung unter deinen Fussen ertasten und einen Schritt bergab machen. Das ist Gradientenabstieg.

Loss-Wert
  ^
  |    /\
  |   /  \      <- Aktuelle Position
  |  /    \    Pfeil nach unten: entlang des Gradienten absteigen
  | /      \/   <- Lokales Minimum
  |/            \/  <- Globales Minimum
  +-------------> Gewichtswert
KonzeptBeschreibung
GradientDie partielle Ableitung der Loss-Funktion nach jedem Gewicht, zeigt an, „in welche Richtung angepasst werden muss, um den Loss zu reduzieren"
LernrateWie gross jeder Schritt ist. Zu gross: springt uber das Minimum. Zu klein: zu langsame Konvergenz
Batch-GrosseWie viele Samples pro Gradientenberechnung. Gesamter Datensatz: zu langsam. Einzelnes Sample: zu verrauscht. Mini-Batch: der Kompromiss

Backpropagation: Der Triumph der Kettenregel

Backpropagation ist ein effizienter Algorithmus zur Gradientenberechnung. Er nutzt die Kettenregel der Analysis und berechnet von der Ausgabeschicht aus schichtweise ruckwarts den Beitrag jedes Gewichts zum Loss.

Forward Propagation: Eingabe -> Versteckte Schicht 1 -> Versteckte Schicht 2 -> Ausgabe -> Loss
Backpropagation:     Loss -> Ausgabe -> Versteckte Schicht 2 -> Versteckte Schicht 1 -> Alle Gewichte aktualisieren

Intuitives Verstandnis der Backpropagation

Stell dir das neuronale Netz als Fliessband vor. Ein Produkt (Vorhersage) hat einen Fehler (hoher Loss). Du musst vom letzten Arbeitsschritt aus ruckwarts prufen, wie viel jeder Arbeitsschritt (jede Gewichtsschicht) zum Endfehler beigetragen hat, und dann entsprechend dem Beitrag anpassen. Grosser Beitrag -> starkere Anpassung, kleiner Beitrag -> geringere Anpassung.


3. Gangige Netzwerkarchitekturen

Verschiedene Datentypen erfordern verschiedene Netzwerkarchitekturen. Die richtige Architektur zu wahlen, halbiert den Aufwand.

Common Neural Network Layer Types
Click a layer to inspect its role and parameters
Dense layer
Each neuron connects to every neuron in the previous layer. This is the most basic layer type and learns combinations of input features.
units (number of neurons)activation
Output layers for classification or regression, and simple feature extraction
Dense(128, activation="relu")

3.1 CNN (Convolutional Neural Network)

CNN ist der Konig der Bildverarbeitung. Kerngedanke: Ein kleiner Faltungskern gleitet uber das Bild und extrahiert lokale Merkmale.

Eingabebild -> [Faltungsschicht -> Aktivierung -> Pooling] x N -> Vollstandig verbundene Schicht -> Ausgabe
  28x28        Extrahiert Kanten/Texturen/Formen             Klassifikationsergebnis
EigenschaftBeschreibung
Lokale VerbindungenJedes Neuron betrachtet nur einen kleinen Bereich, nicht das gesamte Bild
Parameter-SharingDerselbe Faltungskern wird auf dem gesamten Bild wiederverwendet, drastische Parameterreduktion
TranslationsinvarianzKatze links oder rechts im Bild – beides wird erkannt
Hierarchische MerkmaleFlache Schichten lernen Kanten, tiefe Schichten Semantik

Reprasentative Modelle: LeNet, AlexNet, VGG, ResNet, EfficientNet

3.2 RNN (Recurrent Neural Network)

RNNs sind speziell fur sequenzielle Daten entwickelt. Ihr versteckter Zustand wird an den nachsten Zeitschritt weitergegeben und verleiht dem Netzwerk ein „Gedachtnis".

Zeitschritt t1    Zeitschritt t2    Zeitschritt t3
 "Ich"  -->       "mag"    -->      "Katzen"
  |                |                 |
 [h1]  -->       [h2]    -->       [h3] --> Ausgabe
  ^                ^                 ^
 Versteckter Zustand wird zwischen Zeitschritten weitergegeben (Gedachtnis)
VarianteGelostes ProblemKernmechanismus
Ursprungliches RNNGrundlegende SequenzmodellierungEinfache rekurrente Verbindung
LSTMVerschwindender Gradient bei langen SequenzenForget-Gate, Input-Gate, Output-Gate
GRULSTM hat zu viele ParameterVereinfacht zu Reset-Gate und Update-Gate
Bidirektionales RNNKann nur die Vergangenheit sehenGleichzeitig vorwarts und ruckwarts verarbeiten

Der Gating-Mechanismus von LSTM

Die Raffinesse von LSTM liegt in drei „Gates": Das Forget-Gate entscheidet, welche alten Erinnerungen verworfen werden, das Input-Gate, welche neuen Informationen gespeichert werden, und das Output-Gate, welche Inhalte ausgegeben werden. Wie beim Lesen eines Buches: Du merkst dir selektiv die wichtigen Handlungsstrange und vergisst unwichtige Details.

3.3 Transformer: Attention ist alles

Das 2017 von Google veroffentlichte Paper "Attention Is All You Need" fuhrte den Transformer ein und veranderte die KI-Welt grundlegend. Es ersetzt die rekurrente Struktur durch den Self-Attention-Mechanismus und ist die Grundlage von GPT, BERT, Claude und anderen grossen Modellen.

Eingabesequenz -> Embedding + Positionskodierung -> [Multi-Head Attention -> Feedforward] x N -> Ausgabe
                                                         ^
                                            Jedes Wort kann alle anderen „sehen"
VorteilBeschreibung
Parallele BerechnungAnders als RNNs muss der Transformer nicht schrittweise verarbeiten, sondern kann die gesamte Sequenz parallel bearbeiten
LangdistanzabhangigkeitenDirekte Verbindung zwischen beliebigen zwei Positionen, unbegrenzt durch Distanz
SkalierbarkeitJe grosser das Modell, je mehr Daten, desto besser die Ergebnisse (Scaling Law)

Die Intuition von Self-Attention: Im Satz „Die Katze sitzt auf der Matte, weil sie mude ist" muss „sie" auf „Katze" verweisen, um die Bedeutung zu verstehen. Self-Attention lasst das Modell diese Assoziation lernen – es berechnet fur jedes Wortpaar in der Sequenz einen „Relevanz-Score".

Common Neural Network Architectures
Click to inspect each architecture, its characteristics, and applications
Feedforward neural network(FNN)
1958
The most basic neural network structure. Data flows one way from the input layer through hidden layers to the output layer, with no recurrence. Neurons in each layer connect to all neurons in the next layer.
Network structure
Input layer Hidden layers ×N Output layer
Typical applications
ClassificationRegressionFunction approximation
Key idea:Map inputs to outputs through multiple nonlinear transformations. More layers can represent more complex functions.

4. Die Kunst des Trainings

Eine gute Architektur allein reicht nicht – beim Training lauern viele Fallstricke.

4.1 Overfitting vs. Underfitting

ProblemSymptomUrsacheLosung
OverfittingTrainingsset gut, Testset schlechtModell zu komplex, „lernt Antworten auswendig" statt Muster zu erkennenRegularisierung, Dropout, Data Augmentation, Early Stopping
UnderfittingSowohl Trainingsset als auch Testset schlechtModell zu einfach, kann keine Muster lernenModellkapazitat erhohen, langer trainieren, bessere Merkmale
Fehler
  ^
  | \  Trainingsfehler         Testfehler  /
  |  \                                   /
  |   \-----------------------/
  |     Underfitting <- Optimaler Punkt -> Overfitting
  +-------------------------------------> Modellkomplexitat

4.2 Wichtige Hyperparameter

Hyperparameter sind Parameter, die vor dem Training manuell festgelegt werden mussen (nicht vom Modell selbst gelernt):

HyperparameterFunktionTypischer BereichTuning-Tipp
LernrateSchrittweite pro Update1e-5 ~ 1e-1Wichtigster Hyperparameter, meist ab 1e-3 starten
Batch-GrosseSamples pro Trainingsschritt16 ~ 512Grosser = stabileres Training, aber mehr VRAM
Epochen (Epoch)Durchlaufe des gesamten Datensatzes10 ~ 100+Mit Early Stopping kombinieren, aufhoren wenn Validierung stagniert
OptimiererStrategie der GradientenaktualisierungAdam, SGDAdam ist die Standardwahl, SGD+Momentum fur Feintuning

4.3 Regularisierungstechniken

Gangige Mittel gegen Overfitting:

TechnikPrinzipVerwendung
DropoutSchaltet wahrend des Trainings zufallig Neuronen abTypischerweise p=0.1~0.5
Weight DecayFugt dem Loss eine Strafe fur grosse Gewichte hinzuL2-Regularisierung, lambda=1e-4
Data AugmentationZufallige Transformationen der Trainingsdaten (Spiegeln, Zuschneiden, Drehen)Unverzichtbar fur Bildaufgaben
Early StoppingTraining beenden, wenn der Validierungs-Loss nicht mehr sinktpatience=5~10
Batch NormalizationStandardisiert die Eingangsverteilung jeder SchichtBeschleunigt Konvergenz, leichter Regularisierungseffekt

Erfahrungsregeln fur das Training

  1. Zuerst mit kleinem Datensatz den gesamten Ablauf durchlaufen, um Code-Bugs auszuschliessen
  2. Von einem vortrainierten Modell aus Fine-Tuning betreiben, nicht von Grund auf trainieren
  3. Die Lernrate ist der Hyperparameter, in den sich die meiste Tuning-Zeit lohnt
  4. Wenn der Trainings-Loss nicht sinkt: zuerst Daten und Code prufen, dann das Modell hinterfragen

5. Entwicklungsgeschichte und Zukunft

Die Entwicklung neuronaler Netze durchlief mehrere „Winter" und „Renaissancen", jeder Durchbruch basierte auf entscheidenden technologischen Innovationen.

JahrMeilensteinEntscheidender Durchbruch
1958PerzeptronErstes neuronales Netzwerkmodell, nur lineare Probleme losbar
1986Backpropagation-AlgorithmusErmoglichte das Training mehrschichtiger Netzwerke
1998LeNet (CNN)Faltungsnetzwerke feierten grosse Erfolge bei der Handschrifterkennung
2012AlexNetTiefe CNNs ubertrafen traditionelle Methoden bei ImageNet deutlich, Deep-Learning-Explosion
2014GAN (Generative Adversarial Networks)Zwei Netzwerke im Wettstreit, realistische Bilderzeugung
2017Transformer"Attention Is All You Need", Attention-Mechanismus ersetzt RNN
2018BERTPre-Training + Fine-Tuning-Paradigma, NLP-Durchbruch
2020GPT-3175 Milliarden Parameter, demonstrierte emergente Fahigkeiten grosser Modelle
2022ChatGPTRLHF-Alignment-Technik, KI erreicht die breite Offentlichkeit
2023+Multimodale grosse ModelleGPT-4V, Claude u. a., verstehen Text und Bilder gleichzeitig
RichtungBeschreibung
Grosse Modelle (LLM)Parameterzahlen von Milliarden zu Billionen, emergente Fahigkeiten wie logisches Denken und Programmieren
MultimodalEin Modell verarbeitet Text, Bilder, Audio, Video
Effizientes Fine-TuningLoRA, QLoRA und andere Techniken ermoglichen auch normalen Entwicklern das Fine-Tuning grosser Modelle
KI-AgentGrosse Modelle nutzen Werkzeuge, planen Aufgaben und erreichen selbststandig komplexe Ziele
Destillation kleiner ModelleWissen grosser Modelle zum Trainieren kleiner Modelle nutzen, Deployment auf Endgeraten

Was bedeutet das fur Entwickler?

Du musst neuronale Netze nicht von Grund auf trainieren. Moderne KI-Entwicklung bedeutet eher API-Aufrufe (wie OpenAI, Claude API) oder Fine-Tuning vortrainierter Modelle (z. B. mit Hugging Face). Aber das Verstandnis der zugrunde liegenden Prinzipien hilft dir, Modelle besser auszuwahlen, Prompts zu gestalten und Probleme zu diagnostizieren.


Zusammenfassung

KernkonzeptIn einem Satz
NeuronGewichtete Summe + Aktivierungsfunktion, die kleinste Recheneinheit des Netzwerks
Forward PropagationDaten fliessen schichtweise von der Eingabe zur Ausgabe und erzeugen eine Vorhersage
BackpropagationVom Loss ausgehend schichtweise Gradienten berechnen und Gewichte aktualisieren
CNNFaltungskerne extrahieren lokale Merkmale, erste Wahl fur Bildverarbeitung
RNN/LSTMRekurrente Verbindungen bewahren das Gedachtnis, fur sequenzielle Daten
TransformerSelf-Attention ermoglicht parallele Verarbeitung, Basisarchitektur grosser Modelle
OverfittingModell „lernt Antworten auswendig", mit Regularisierung, Dropout u. a. verhindern
Transfer LearningAuf den Schultern von Giganten stehen, vortrainierte Modelle per Fine-Tuning fur neue Aufgaben nutzen

Weiterfuhrende Literatur