Einführung in die Compiler-Theorie

Vorwort

Was passiert, wenn Sie auf „Ausführen" klicken — wie wird Code zu einem Ergebnis auf dem Bildschirm? Jede Zeile Code, die Sie schreiben, kann der Computer eigentlich nicht „lesen" — er kennt nur 0 und 1. Der Compiler ist der „Dolmetscher", der menschliche Sprache in Maschinensprache übersetzt. Wenn Sie die Compiler-Theorie verstehen, wissen Sie, woher Fehlermeldungen kommen, warum manche Sprachen schnell und andere langsam sind und wie Code-Optimierung auf unterster Ebene funktioniert.

Was werden Sie in diesem Artikel lernen?

Nach Abschluss dieses Kapitels werden Sie Folgendes gewonnen haben:

Gesamtüberblick: Die vollständige Compiler-Pipeline vom Quellcode zum ausführbaren Programm verstehen
Lexikalische Analyse: Verstehen, wie der Compiler Code in einzelne Token zerlegt
Syntaxanalyse: Den Aufbau des AST (Abstract Syntax Tree) verstehen
AST-Visualisierung: Die Baumstruktur von Code direkt sehen
Semantische Analyse und Optimierung: Die Prinzipien der Typprüfung und Code-Optimierung verstehen
Optimierungstechniken in der Praxis: Constant Folding, Dead Code Elimination und weitere Kernoptimierungen beherrschen
Ausführungsmodelle: Kompilierte, interpretierte und JIT-Ausführung unterscheiden

Kapitel	Inhalt	Kernkonzepte
Kapitel 1	Was ist ein Compiler	Dolmetscher-Analogie, Compiler-Pipeline
Kapitel 2	Lexikalische Analyse	Token, lexikalische Regeln
Kapitel 3	Syntaxanalyse	AST, Syntaxbaum, Prioritäten
Kapitel 4	AST-Visualisierung	Interaktiver Syntaxbaum, Knotentypen
Kapitel 5	Semantische Analyse und Optimierung	Typprüfung, Constant Folding, Dead Code Elimination
Kapitel 6	Optimierungstechniken in der Praxis	Function Inlining, Loop Hoisting, Constant Propagation
Kapitel 7	Kompiliert vs. Interpretiert vs. JIT	Vergleich der drei Ausführungsmodelle

0. Überblick: Die „Reise der Übersetzung" des Codes

Stellen Sie sich vor, Sie sind ein Dolmetscher, der einen chinesischen Roman ins Englische übersetzt. Sie übersetzen nicht Wort für Wort, sondern:

Wörter erkennen — den Satz in einzelne Wörter zerlegen (lexikalische Analyse)
Syntax verstehen — beurteilen, ob die Satzstruktur korrekt ist (Syntaxanalyse)
Semantik verstehen — sicherstellen, dass der Sinn flüssig und widerspruchsfrei ist (semantische Analyse)
Verfeinern — die Übersetzung natürlicher und flüssiger machen (Code-Optimierung)
Übersetzung ausgeben — die finale englische Version verfassen (Code-Generierung)

Genau das macht ein Compiler — nur dass er Programmiersprachen übersetzt.

Compiler Principles: The Art of TranslationHow code becomes machine instructions

A compiler is like a translator, turning human-readable code into machine-readable instructions

The Complete Code Translation Pipeline

Lexical analysis

Break code into individual words called tokens

int age = 25 → [int, age, =, 25]

→

Syntax analysis

Check grammar rules and build a syntax tree

Validate whether statement structure is correct

→

Semantic analysis

Check whether the meaning of the code is valid

Check variable definitions and type compatibility

→

Intermediate code generation

Generate a machine-independent intermediate representation

Generate bytecode or intermediate representation

→

Optimization

Improve code so it runs more efficiently

Constant folding and dead-code elimination

→

Target code generation

Generate machine code or target code

Generate x86 or ARM machine instructions

Lexical analysis: tokenization

int age = 25;

↓

Keywordint

Identifierage

Operator=

Number25

Separator;

Syntax analysis: build a tree

Assignment statement

Variableage

Operator=

Number25

Compilation vs Interpretation

Compiled languages

Source code → Compiler → Machine code

C, Go, Rust

✓ Fast execution

✓ Compile once, run many times

✗ Slow compile step

Interpreted languages

Source code → Interpreter → Line-by-line execution

Python, JavaScript, PHP

✓ Fast development

✓ Cross-platform

✗ Slower execution

Compiler Optimization

Before:

x = 5 + 3 + 2

⬇️

After:

x = 10

The compiler can optimize code automatically and improve runtime efficiency

1. Die sechsstufige Pipeline des Compilers

Die Arbeit des Compilers kann in sechs Phasen unterteilt werden, die wie eine Fabrikpipeline nacheinander durchlaufen werden.

How a Compiler WorksA six-step journey from source code to machine code

Input code:

Lexical analysis→ Token stream

Syntax analysis→ AST syntax tree

Semantic analysis→ Typed AST

Intermediate code generation→ IR (intermediate representation)

Code optimization→ Optimized IR

Target code generation→ Machine code

1Lexical analysisOutput: Token stream

Split source code into individual words called tokens, like recognizing each word in a sentence.

Recognize keywordsRecognize identifiersRecognize numbersRecognize operatorsFilter whitespace

int x = 10 + 5;
→ [int] [x] [=] [10] [+] [5] [;]
    keyword identifier operator number operator number separator

Live lexical analysis

intKeyword

xIdentifier

=Operator

10Number

+Operator

5Number

;Separator

Three Execution Models Compared

Compiled

Source →Compiler →Machine code →CPU execution

Fast executionMust wait for compilation

C, C++, Rust, Go

Interpreted

Source →Interpreter →Line-by-line execution

Run immediately while writingSlower execution

Python, Ruby, PHP

JIT

Source →Bytecode →JIT hot path compilation →Execution

Balances performance and flexibilitySlower startup

Java, JavaScript (V8)

Core idea:A compiler is like a translator: it gradually turns human-readable code into instructions the machine can run. The six stages each do one job: identify words → understand syntax → check meaning → generate IR → optimize → generate machine code.

Compiler-Pipeline

Lexikalische Analyse (Lexical Analysis): Den Quellcode in einzelne Token (Wörter) zerlegen
Syntaxanalyse (Syntax Analysis): Die Token zu einem Syntaxbaum (AST) organisieren
Semantische Analyse (Semantic Analysis): Prüfen, ob Typen korrekt sind und Variablen deklariert wurden
Zwischencode-Generierung (IR Generation): Plattformunabhängige Zwischendarstellung erzeugen
Code-Optimierung (Optimization): Den Zwischencode effizienter machen
Code-Generierung (Code Generation): Maschinencode für die Zielplattform erzeugen

Phase	Eingabe	Ausgabe	Analogie
Lexikalische Analyse	Quellcode-Zeichenstrom	Token-Strom	Einen Satz in Wörter zerlegen
Syntaxanalyse	Token-Strom	AST (Syntaxbaum)	Satzstruktur analysieren
Semantische Analyse	AST	Typisierter AST	Prüfen, ob der Sinn stimmig ist
Zwischencode	Typisierter AST	IR	Ersten Entwurf schreiben
Code-Optimierung	IR	Optimiertes IR	Verfeinern und Streichen
Code-Generierung	Optimiertes IR	Maschinencode	Endfassung ausgeben

2. Lexikalische Analyse: Code in „Wörter" zerlegen

Die lexikalische Analyse ist der erste Schritt der Kompilierung. Der Compiler scannt jedes Zeichen des Quellcodes von links nach rechts und fasst sie zu sinnvollen Token (lexikalische Einheiten) zusammen.

🔤 Lexer: Split Code into Tokens

Enter a line of code and see lexical analysis results in real time

Wie das Gehirn beim Lesen eines englischen Satzes automatisch Buchstaben zu Wörtern zusammenfasst, so fasst der lexikalische Analysator Zeichen zu Token zusammen:

Quellcode: let x = 10 + 5;

Token-Strom:
[let]   → Schlüsselwort (reserviertes Wort der Sprache)
[x]     → Bezeichner (Variablenname)
[=]     → Operator (Zuweisung)
[10]    → Zahlenliteral
[+]     → Operator (Addition)
[5]     → Zahlenliteral
[;]     → Trennzeichen (Anweisungsende)

Die fünf Token-Typen

Schlüsselwörter: Von der Sprache reservierte Sonderwörter, z. B. let, if, return, function
Bezeichner: Vom Programmierer vergebene Namen, z. B. Variablen-, Funktionsnamen
Literale: Direkt im Code geschriebene Werte, z. B. die Zahl 42, der String "hello"
Operatoren: Symbole für Berechnungen, z. B. +, -, =, ===
Trennzeichen: Symbole zur Strukturierung des Codes, z. B. ;, ,, (, )

3. Syntaxanalyse: Den Syntaxbaum (AST) aufbauen

Die lexikalische Analyse hat den Code in Token zerlegt, aber Token sind nur isolierte „Wörter". Die Aufgabe der Syntaxanalyse ist es, diese Token nach Grammatikregeln zu einem Abstract Syntax Tree (AST) zu organisieren — er spiegelt die Struktur und Operatorpriorität des Codes wider.

Ausdruck: 1 + 2 * 3

Syntaxbaum:        Warum so?
       +       Weil * eine höhere
      / \      Priorität als + hat,
     1   *     wird 2 * 3 zuerst
        / \    als Teilbaum
       2   3   zusammengefasst

Die Bedeutung des AST

Der AST ist die „Kerndatenstruktur" des Compilers; die nachfolgende semantische Analyse, Optimierung und Code-Generierung basieren darauf. Auch moderne Entwicklungswerkzeuge nutzen den AST intensiv:

ESLint: Code in AST parsen und Regelverletzungen prüfen
Prettier: In AST parsen und neu formatiert ausgeben
Babel: AST parsen → transformieren → kompatiblen Code generieren
IDE-Refactoring: Sicheres Umbenennen von Variablen und Extrahieren von Funktionen auf AST-Basis

Syntaxstruktur	Token-Sequenz	AST-Knoten
Variablendeklaration	`let` `x` `=` `10`	VariableDeclaration → Identifier + Literal
Funktionsaufruf	`add` `(` `1` `,` `2` `)`	CallExpression → Identifier + Arguments
Bedingte Anweisung	`if` `(` `a` `>` `b` `)`	IfStatement → BinaryExpression + Block

4. AST-Visualisierung: Das „Gerüst" des Codes sehen

Oben haben wir die Struktur des AST textuell beschrieben, aber „sehen" ist intuitiver als „lesen". Die folgende interaktive Komponente ermöglicht es Ihnen, verschiedene Ausdrücke auszuwählen und deren Syntaxbaum in Echtzeit zu beobachten.

🌳 AST Visualizer: See the Skeleton of Code

Choose an expression and inspect its abstract syntax tree

Syntax tree

BinaryExpression+

NumericLiteral1

BinaryExpression*

NumericLiteral2

NumericLiteral3

Parse notes

1* has higher precedence than +, so 2 * 3 groups first

22 * 3 forms a BinaryExpression subtree

31 and that subtree become the left and right operands of +

4The final + node is the root, showing the evaluation order

💡 Try AST Explorer — inspect ASTs for arbitrary code online

Durch die Visualisierung erkennen Sie, dass die Kernregeln des AST eigentlich sehr einfach sind:

Codestruktur	AST-Wurzelknoten	Unterknoten
`1 + 2 * 3`	BinaryExpression (+)	Links: NumericLiteral(1), Rechts: BinaryExpression(*)
`let x = 10`	VariableDeclaration	VariableDeclarator → Identifier(x) + NumericLiteral(10)
`add(a, b)`	CallExpression	Identifier(add) + Arguments(a, b)

AST in der täglichen Entwicklung

Sie haben vielleicht noch nie einen Compiler geschrieben, aber Sie nutzen täglich AST-basierte Werkzeuge:

ESLint / Prettier: Code in AST parsen, Regeln prüfen oder neu formatieren
Babel / SWC: AST parsen → Syntax transformieren → kompatiblen Code generieren
IDE-Refactoring: Sicheres Umbenennen, Funktionen extrahieren auf AST-Basis
Tree-shaking: Importe/Exporte im AST analysieren, ungenutzten Code entfernen

5. Semantische Analyse und Code-Optimierung

Die Syntaxanalyse stellt sicher, dass der Code „strukturell korrekt" ist, aber strukturelle Korrektheit bedeutet nicht „inhaltliche Korrektheit". Die semantische Analyse prüft, ob die Bedeutung des Codes zulässig ist, und die Code-Optimierung sorgt dafür, dass das Programm schneller läuft.

Compilation PracticeFrom code to executable file

Input code

#include <stdio.h>

int main() {
    printf("Hello, World!\n");
    return 0;
}

Compilation steps

Preprocess

gcc -E hello.c -o hello.i

Process #include and expand macros

Compile

gcc -S hello.i -o hello.s

Generate assembly code

Assemble

gcc -c hello.s -o hello.o

Generate object file

Link

gcc hello.o -o hello

Generate executable file

Generated files

📄

hello.c

Source code file

📝

hello.i

Preprocessed file

⚙️

hello.s

Assembly code file

📦

hello.o

Object file

🚀

hello

Executable file

Common compiler tools

GCC

GNU Compiler Collection

Clang

LLVM C/C++ compiler

MSVC

Microsoft Visual C++

4.1 Semantische Analyse: Prüfen, ob die „Bedeutung" stimmt

Prüfgegenstand	Beispiel	Ergebnis
Typprüfung	`int x = "hello"`	❌ Typinkompatibilität
Gültigkeitsbereichsprüfung	Verwendung einer nicht deklarierten Variable `y`	❌ Variable existiert nicht
Typrückschluss	`1 + 2.0`	✅ Ergebnis als float erschlossen
Parameterprüfung	`add(1, 2, 3)` aber Funktion akzeptiert nur 2 Parameter	❌ Parameteranzahl stimmt nicht

Die meisten Fehlermeldungen stammen aus der semantischen Analyse

TypeError: Cannot read properties of undefined — Typprüfung
ReferenceError: x is not defined — Gültigkeitsbereichsprüfung
Expected 2 arguments, but got 3 — Parameterprüfung

4.2 Code-Optimierung: Das Programm schneller machen

Vor der Generierung des endgültigen Codes führt der Compiler verschiedene Optimierungen am Zwischencode durch. Diese Optimierungen sind für den Programmierer transparent, können aber die Performance deutlich steigern.

Optimierungstechnik	Vorher	Nachher	Prinzip
Constant Folding	`x = 10 + 5`	`x = 15`	Ergebnis wird zur Compile-Zeit berechnet
Dead Code Elimination	`if (false) { ... }`	Direkt entfernt	Code, der nie ausgeführt wird
Constant Propagation	`x = 15; y = x * 2`	`y = 30`	Bekannte Werte direkt ersetzen
Loop Invariant Code Motion	`len = arr.length` wird im Loop wiederholt berechnet	Vor den Loop verschoben	Wiederholte Berechnung vermeiden

6. Optimierungstechniken in der Praxis: Wie der Compiler Code schneller macht

Oben haben wir einige Optimierungstechniken beim Namen genannt. Nun schauen wir uns an, wie der Compiler konkret vorgeht. Die folgende interaktive Komponente zeigt 5 der häufigsten Compiler-Optimierungen; Sie können die Unterschiede vor und nach der Optimierung direkt vergleichen.

⚡ Compiler Optimization: Make Code Faster Automatically

Choose an optimization technique and see how the compiler improves code

📝 Before optimization

const width = 10
const height = 20
const area = width * height  // computed at runtime
console.log(area)

→Compiler optimization

🚀 After optimization

const area = 200  // computed during compilation
console.log(200)

How Constant folding works

The compiler sees that width and height are constants, so it computes 10 * 20 = 200 during compilation. Runtime no longer needs a multiplication.

Performance gain:

30%

Moderne Compiler und JIT-Engines (wie V8, GCC, LLVM) wenden automatisch Dutzende von Optimierungen an. Als Entwickler müssen Sie diese nicht manuell durchführen, aber das Verständnis hilft Ihnen:

Optimierfreundlicheren Code schreiben: z. B. const statt let verwenden — der Compiler kann Constant Folding leichter anwenden
Performance-Unterschiede verstehen: Warum sind kleine Funktionen schneller als große? Weil der Compiler sie inlinen kann
„De-Optimierung" vermeiden: Bestimmte Muster wie eval() und with verhindern Compiler-Optimierungen

Optimierungstechnik	Auslöser	Performance-Einfluss	Was Entwickler tun können
Constant Folding	Ausdruck enthält nur Konstanten	Laufzeitberechnung entfällt	Mehr const-Deklarationen verwenden
Dead Code Elimination	Code unerreichbar oder Ergebnis ungenutzt	Codegröße reduziert	Ungenutzten Code aufräumen
Loop Invariant Code Motion	Unveränderliche Berechnung im Loop	Wiederholte Berechnung reduziert	Manuelles Extrahieren ist auch gut
Function Inlining	Kleine Funktion wird häufig aufgerufen	Aufrufoverhead entfällt	Funktionen klein und fokussiert halten
Constant Propagation	Variablenwert zur Compile-Zeit bekannt	Ganze Berechnungskette entfällt	Konstanten statt magischer Zahlen

7. Kompiliert vs. Interpretiert vs. JIT

Nachdem der Code geschrieben ist, gibt es drei „Übersetzungsarten", um ihn auszuführen. Jede hat ihre Vor- und Nachteile und bestimmt maßgeblich die Performance-Eigenschaften und Einsatzgebiete einer Sprache.

🔄 Compiled vs Interpreted vs JIT

Click an execution mode to see how code moves from source to running program

📝

Source code

main.c

→

⚙️

Compiler

Full compilation

→

📦

Machine code

Binary executable

→

🚀

Run directly

CPU runs it directly

Run speed

Very fast

Startup

Slow; compile first

Portability

Recompile required

Representative languages:CC++RustGo

Dimension	Kompiliert	Interpretiert	JIT (Just-In-Time)
Ablauf	Zuerst vollständig zu Maschinencode kompilieren, dann ausführen	Zeilenweise lesen und ausführen	Zuerst interpretieren, Hotspot-Code dann kompilieren
Ausführungsgeschwindigkeit	Am schnellsten	Am langsamsten	Mittel (Hotspots nahe an kompiliert)
Startgeschwindigkeit	Langsam (Kompilierung nötig)	Schnell (direkt ausführen)	Mittel (Aufwärmen nötig)
Plattformunabhängigkeit	Neukompilierung nötig	Nativerweise plattformunabhängig	Plattformunabhängig
Repräsentative Sprachen	C, Rust, Go	Python, Ruby	JavaScript (V8), Java

Warum ist JavaScript so schnell?

Der JIT-Compiler der V8-Engine überwacht, welcher Code häufig ausgeführt wird (Hotspot-Code), und kompiliert diesen dann zu hochoptimiertem Maschinencode. Obwohl JavaScript eine „interpretierte Sprache" ist, kann es in V8 eine Performance erreichen, die kompilierten Sprachen nahekommt. Das ist auch die Grundlage dafür, dass Node.js serverseitig eingesetzt werden kann.

Zusammenfassung

Compiler-Theorie ist kein Wissen, das nur Compiler-Entwickler brauchen. Das Verständnis des Kompilierungsprozesses hilft Ihnen, Fehlermeldungen besser zu verstehen, die richtige Sprache zu wählen und effizienteren Code zu schreiben.

Die wichtigsten Punkte dieses Kapitels:

Der Compiler ist ein Dolmetscher: Übersetzt menschenlesbaren Code in maschinenausführbare Befehle
Sechsstufige Pipeline: Lexikalische Analyse → Syntaxanalyse → Semantische Analyse → Zwischencode → Optimierung → Code-Generierung
Lexikalische Analyse zerlegt in Token: Zeichenstrom in Schlüsselwörter, Bezeichner, Operatoren usw. aufteilen
Syntaxanalyse baut den AST: Token nach Grammatikregeln in einer Baumstruktur anordnen, die Operatorprioritäten widerspiegelt
Semantische Analyse sichert Korrektheit: Typprüfung, Gültigkeitsbereichsprüfung — die meisten Fehlermeldungen stammen von hier
Automatische Compiler-Optimierung: Constant Folding, Dead Code Elimination, Function Inlining machen den Code automatisch schneller
Drei Ausführungsmodelle: Kompiliert am schnellsten, interpretiert am flexibelsten, JIT vereint beides

Weiterführende Literatur

AST Explorer — AST-Struktur von Code online ansehen
Crafting Interpreters — Eine Programmiersprache von Grund auf implementieren (kostenloses Online-Buch)
The Super Tiny Compiler — Ein winziger Compiler in JavaScript
V8 Blog — Blog zur JIT-Kompilierungstechnik der V8-Engine
LLVM-Website — Die beliebteste Compiler-Infrastruktur

Einführung in die Compiler-Theorie ​

0. Überblick: Die „Reise der Übersetzung" des Codes ​

1. Die sechsstufige Pipeline des Compilers ​

2. Lexikalische Analyse: Code in „Wörter" zerlegen ​

🔤 Lexer: Split Code into Tokens

3. Syntaxanalyse: Den Syntaxbaum (AST) aufbauen ​

4. AST-Visualisierung: Das „Gerüst" des Codes sehen ​

🌳 AST Visualizer: See the Skeleton of Code

5. Semantische Analyse und Code-Optimierung ​

4.1 Semantische Analyse: Prüfen, ob die „Bedeutung" stimmt ​

4.2 Code-Optimierung: Das Programm schneller machen ​

6. Optimierungstechniken in der Praxis: Wie der Compiler Code schneller macht ​