Skip to content

RAG: Retrieval-Augmented Generation

Vorwort

Warum „halluziniert" ChatGPT manchmal überzeugend? Das Wissen großer Sprachmodelle stammt aus Trainingsdaten, aber diese haben ein Stichtagsdatum und enthalten nicht die internen Dokumente deines Unternehmens. RAG (Retrieval-Augmented Generation) ist die Kerntechnologie, die dieses Problem löst – sie lässt die KI erst „nachschlagen", bevor sie antwortet.

Was lernst du in diesem Artikel?

Nach diesem Kapitel wirst du:

  • Kernkonzepte verstehen: Verstehen, was RAG ist, warum es nötig ist und wie es das „Halluzinations"-Problem großer Modelle löst
  • Vollständigen Prozess kennen: Den End-to-End-Workflow vom Dokumentenladen über Chunking und Vektorisierung bis hin zur Abfrage und Generierung beherrschen
  • Technologieauswahl-Fähigkeit: Die Vor- und Nachteile verschiedener Chunking-Strategien und Abfragemethoden verstehen und szenariobasiert wählen können
  • Architekturevolution verstehen: Den Evolutionspfad von Naive RAG über Advanced RAG bis zu Modular RAG begreifen
  • Praktische Entscheidungskompetenz: Wissen, wann RAG und wann Fine-Tuning einzusetzen ist
KapitelInhaltKernkonzepte
Kapitel 1RAG-GrundprozessIndizierung, Abfrage, Generierung – drei Phasen
Kapitel 2Text-Chunking-StrategienFixes Chunking, semantisches Chunking, rekursives Chunking
Kapitel 3AbfragetechnikenVektorsuche, Schlüsselwortsuche, hybride Suche
Kapitel 4ArchitekturevolutionNaive RAG → Advanced RAG → Modular RAG
Kapitel 5RAG vs. Fine-TuningVergleich der Einsatzszenarien beider Ansätze

0. Panorama: Warum große Modelle „nachschlagen" müssen

Stell dir vor, du bist ein belesener Professor, der unzählige Bücher gelesen hat. Aber wenn dich jemand fragt: „Wie hoch waren die Verkaufszahlen von gestern?", kannst du nicht antworten – weil diese Informationen nicht in den Büchern stehen, die du gelesen hast.

Große Sprachmodelle stehen vor demselben Dilemma:

  • Wissen hat ein Stichtagsdatum: Die Trainingsdaten von GPT-4 enden zu einem bestimmten Zeitpunkt, danach liegende Ereignisse kennt es nicht
  • Kein privates Wissen: Die internen Dokumente, Produkthandbücher und Kundendaten deines Unternehmens hat das Modell nie gesehen
  • Neigung zu Halluzinationen: Wenn das Modell unsicher ist, tendiert es dazu, eine plausibel klingende Antwort zu „erfinden"

Der Kerngedanke von RAG

Die Lösung von RAG ist sehr intuitiv: Lass das Modell relevante Referenzmaterialien finden, bevor es antwortet. Wie eine Open-Book-Prüfung – du musst nicht alles Wissen im Kopf haben, sondern nur wissen, wo du suchen und wie du finden kannst.

RAG = Retrieval (Abrufen) + Augmented (Anreicherung) + Generation (Generierung)


1. RAG-Grundprozess: Indizierung, Abfrage, Generierung

Der RAG-Workflow kann in zwei Phasen unterteilt werden: Offline-Indizierung und Online-Abfrage.

Die Offline-Phase ist wie die Katalogisierung in einer Bibliothek – alle Bücher klassifizieren, nummerieren und einordnen, um späteres Suchen zu erleichtern. Die Online-Phase ist der Prozess, bei dem Leser in die Bibliothek kommen, um Material zu suchen – relevante Bücher zu einer Frage finden und dann die Informationen zu einer Antwort synthetisieren.

选择问题:
💬
用户提问
我们公司的年假政策是什么?
🔍
语义检索
📋
上下文组装
🤖
LLM 生成
返回结果
用户提问 — 详细说明
用户向系统提出一个自然语言问题。这个问题会被转化为向量表示,用于后续的语义检索。
1 / 5

Drei Kernphasen

  1. Indizierungsphase (Indexing): Rohdokumente laden, bereinigen, chunkieren, dann durch ein Embedding-Modell in Vektoren umwandeln und in einer Vektordatenbank speichern. Dies ist eine einmalige Vorbereitungsarbeit.
  2. Abfragephase (Retrieval): Wenn ein Benutzer fragt, wird auch die Frage in einen Vektor umgewandelt und in der Vektordatenbank nach den ähnlichsten Dokumentfragmenten gesucht.
  3. Generierungsphase (Generation): Die abgerufenen Dokumentfragmente werden zusammen mit der Benutzerfrage zu einem Prompt kombiniert und dem großen Modell zur Generierung der endgültigen Antwort übergeben.
PhaseEingabeAusgabeSchlüsseltechnologien
IndizierungRohdokumenteVektordatenbankText-Chunking, Embedding-Modell
AbfrageBenutzerfrageTop-K DokumentfragmenteVektor-Ähnlichkeit, Reranking
GenerierungFrage + KontextEndgültige AntwortPrompt Engineering, LLM

2. Text-Chunking: Den Elefanten in den Kühlschrank bekommen

Text-Chunking ist der am meisten unterschätzte, aber für die Effektivität entscheidendste Schritt in RAG. Warum ist Chunking nötig? Weil das Kontextfenster großer Modelle begrenzt ist – wir können nicht ein ganzes Buch hineinstopfen. Und noch wichtiger: Die Qualität des Chunkings bestimmt direkt die Qualität der Abfrage.

Stell dir vor, du suchst in einer Bibliothek nach einem bestimmten Wissenspunkt in einem Buch. Wenn das ganze Buch ein einziger „Chunk" wäre, ist der Abruf nutzlos – du musst immer noch das ganze Buch durchblättern. Wenn aber nach Kapiteln oder sogar Absätzen gechunkt wird, kannst du genau die benötigten Inhalte finden.

输入文本
固定大小
按照固定的字符数切分文本,是最简单直接的分块方式。通常会设置一定的重叠区域(overlap),避免在切分边界丢失上下文。
块大小: 80 字符重叠: 20 字符
分块结果 共 0 个块
请输入文本后查看分块结果
策略优点缺点适用场景
📏 固定大小实现简单,块大小均匀可能在句子中间截断结构化程度低的长文本
📝 按句子保持句子完整性块大小不均匀文章、报告等自然文本
🧠 语义分块主题连贯,语义完整计算成本高,需要嵌入模型多主题混合的复杂文档
🔄 递归分块兼顾结构与大小实现较复杂通用场景,推荐默认选择

Auswahl der Chunking-Strategie

  • Fixes Chunking: Nach Zeichen- oder Tokenanzahl zerschneiden – einfach, aber kann Semantik zerstören
  • Rekursives Chunking: Erst nach Absätzen, dann nach Sätzen zerschneiden – erhält semantische Integrität
  • Semantisches Chunking: Mit Embedding-Modellen semantische Grenzen beurteilen, an Ähnlichkeitssprüngen schneiden
  • Strukturbasiertes Chunking: Markdown-Überschriften, HTML-Tags und andere Strukturinformationen nutzen

Es gibt keine „beste" Chunking-Strategie, nur die für deine Daten am besten geeignete. Allgemein empfohlen: mit rekursivem Chunking beginnen, Chunk-Größe 200–500 Tokens, Überlappung 10–20 %.


3. Abfragetechniken: Wie findet man die relevantesten Inhalte?

Nach dem Chunking stellt sich die nächste Schlüsselfrage: Ein Benutzer stellt eine Frage – wie findet man aus Tausenden von Dokumentfragmenten die relevantesten?

Das ist wie die Suche nach einem Buch in einer riesigen Bibliothek. Du kannst nach Titel-Schlüsselwörtern suchen (Schlüsselwortsuche), du kannst beschreiben, was du suchst, und den Bibliothekar bitten, es zu finden (semantische Suche), und am besten kombinierst du beide Ansätze (hybride Suche).

选择查询:
1
查询编码
2
向量搜索
3
重排序
4
Top-K 选择
查询编码
将用户的自然语言查询通过嵌入模型(如 text-embedding-ada-002)转化为高维向量表示。这个向量捕捉了查询的语义信息。
查询文本
如何申请年假?
↓ 嵌入模型编码
查询向量
0.12-0.450.780.33-0.210.560.89-0.14
AbfrageartPrinzipVorteileNachteile
Schlüsselwortsuche (BM25)Basierend auf Worthäufigkeit und inverser DokumenthäufigkeitPräzise Treffer, schnellVersteht keine Semantik, Synonyme fallen aus
VektorsucheBasierend auf Kosinus-Ähnlichkeit von Embedding-VektorenVersteht Semantik, unterstützt Fuzzy-MatchingUnempfindlich für Eigennamen
Hybride SucheFusioniert Schlüsselwort- und VektorsuchergebnisseKombiniert Präzision und SemantikErfordert Gewichtungsabstimmung, hohe Komplexität

Reranking

Nach der Abfrage von Kandidaten-Dokumenten ist meist ein Reranking-Schritt erforderlich. Die initiale Abfrage strebt nach Recall (möglichst nichts übersehen), das Reranking nach Precision (die relevantesten Ergebnisse nach vorne). Gängige Reranking-Modelle sind Cohere Rerank, BGE Reranker usw. Sie verwenden Cross-Encoder, um Query-Dokument-Paare fein zu bewerten.


4. Architekturevolution: Von einfach zu intelligent

Die RAG-Technologie hat in nur zwei Jahren drei Generationen der Evolution durchlaufen, wobei jede Generation die Schwachstellen der vorherigen adressiert.

最基础的 RAG 架构,流程简单直接:索引 → 检索 → 生成。适合快速原型验证,但在复杂场景下效果有限。
📄
文档加载
✂️
文本分块
🔢
向量化
🔍
检索
🤖
生成
点击流程节点查看详细说明
架构特点
实现简单,上手快
适合结构化知识库
⚠️检索质量依赖分块策略
无法处理复杂查询
架构演进路线
Naive RAG
2023
Advanced RAG
2024
Modular RAG
2025

Vergleich der drei RAG-Architekturgenerationen

  • Naive RAG (2023): Der grundlegendste „Indizierung → Abfrage → Generierung"-Workflow, einfach zu implementieren, aber begrenzt effektiv. Probleme: instabile Abfragequalität, keine Handhabung komplexer Queries, neigt dazu, verrauschten Kontext einzuführen.
  • Advanced RAG (2024): Erweitert Naive RAG um Query-Rewriting, hybride Suche, Reranking, Kontextkompression und andere Optimierungsschritte, wodurch Abfragepräzision und Generierungsqualität deutlich verbessert werden.
  • Modular RAG (2025): Zerlegt RAG in austauschbare Module, unterstützt Routing-Entscheidungen, adaptive Abfrage, Selbstreflexion und andere fortgeschrittene Fähigkeiten. Kann den optimalen Verarbeitungsablauf dynamisch je nach Query-Typ wählen.

5. RAG vs. Fine-Tuning: Welches soll man wählen?

Wenn du einem großen Modell Wissen in einem bestimmten Bereich beibringen willst, gibt es normalerweise zwei Wege: RAG und Fine-Tuning. Sie schließen sich nicht gegenseitig aus, sondern ergänzen sich.

Eine Analogie: Fine-Tuning ist wie ein Schüler, der einen Kurs besucht – das Wissen wird im Gehirn verinnerlicht; RAG ist wie ein Schüler, der ein Nachschlagewerk bekommt – er kann während der Prüfung darin blättern. Beide Methoden haben Vor- und Nachteile, entscheidend sind deine konkreten Anforderungen.

RAG 检索增强生成
VS
Fine-tuning 微调
知识更新速度
实时更新,修改文档即生效
需要重新训练,周期长
实施成本
搭建检索系统,成本适中
💰
需要 GPU 资源和标注数据
回答风格控制
依赖 Prompt 工程
🎨
可深度定制输出风格
幻觉控制
有据可查,可追溯来源
🎯
仍可能产生幻觉
推理延迟
需要额外的检索步骤
⏱️
直接生成,无额外开销
私有数据安全
数据留在本地,不进入模型
🔒
数据融入模型权重
一句话总结
RAG 像是给模型配了一个实时更新的参考书库,适合知识频繁变化的场景; 微调像是让模型上了一门专业课,适合需要特定风格或领域深度的场景。 实际项目中,两者常常结合使用。
DimensionRAGFine-Tuning
WissensaktualisierungEchtzeit, einfach Dokumente ändernErfordert erneutes Training
KostenNiedrig (kein GPU-Training nötig)Hoch (erfordert Trainingsressourcen)
NachvollziehbarkeitHoch (Quellen rückverfolgbar)Niedrig (Wissen in Gewichten internalisiert)
EinsatzszenarienWissensdatenbank-Q&A, DokumentensucheStiltransfer, aufgabenspezifische Optimierung
HalluzinationskontrolleBesser (mit Referenzbasis)Mittel (Halluzinationen möglich)

Praxistipp

In den meisten Szenarien: erst RAG ausprobieren. Die Vorteile von RAG: kein Training nötig, Wissen in Echtzeit aktualisierbar, Antworten quellen-rückverfolgbar. Nur wenn du das „Verhaltensmuster" des Modells ändern musst (z. B. Ausgabeformat, Sprachstil, Denkweise), solltest du Fine-Tuning in Betracht ziehen. Die stärkste Lösung ist oft die Kombination RAG + Fine-Tuning.


Zusammenfassung

RAG ist eine der praktischsten Technologien, um große Modelle in die Praxis zu bringen. Sein Kernwert liegt darin, dass die Antworten des Modells belegbar sind, das Wissen in Echtzeit aktualisiert werden kann und Halluzinationen wirksam kontrolliert werden.

Rückblick auf die Kernpunkte dieses Kapitels:

  1. Das Kernproblem, das RAG löst: Veraltetes Wissen großer Modelle, fehlende private Daten, Neigung zu Halluzinationen
  2. Drei-Phasen-Workflow: Indizierung (Offline-Vorbereitung) → Abfrage (Online-Suche) → Generierung (Synthetisierte Antwort)
  3. Chunking ist die Basis: Die Chunking-Qualität bestimmt direkt die Abfragequalität, die Wahl der richtigen Chunking-Strategie ist entscheidend
  4. Abfrage ist der Schlüssel: Hybride Suche + Reranking ist derzeit die effektivste Kombination
  5. Die Architektur entwickelt sich weiter: Von Naive RAG zu Modular RAG werden Systeme zunehmend intelligenter und flexibler
  6. RAG und Fine-Tuning ergänzen sich: In den meisten Szenarien erst RAG versuchen, Fine-Tuning nur bei Verhaltensänderung des Modells

Weiterführende Literatur