Modell-Fine-Tuning und Deployment

Vorwort

Große Modelle sind leistungsstark, aber sie verstehen dein Geschäft nicht. GPT-4 kann Gedichte schreiben und programmieren, aber es kennt weder die Produktterminologie deines Unternehmens noch die Fachstandards deiner Branche. Fine-Tuning ist der Prozess, der ein allgemeines großes Modell dein Fachwissen „lehrt" – wie eine Einarbeitungsschulung für einen vielseitigen Generalisten, um ihn zu einem Fachexperten für dein Gebiet zu machen.

Was lernst du in diesem Artikel?

Nach diesem Kapitel wirst du:

Prozessverständnis: Die vollständige Fine-Tuning-Pipeline von der Datenvorbereitung bis zum Produktivbetrieb des Modells beherrschen
Data Engineering: Die Formatanforderungen und Qualitätsstandards für Fine-Tuning-Daten verstehen
Effizientes Fine-Tuning: Das Prinzip und die Vorteile parameter-effizienter Techniken wie LoRA verstehen
Modellkompression: Beherrschen, wie Quantisierungstechniken große Modelle auf Consumer-Hardware lauffähig machen
Deployment-Praxis: Die gängigen Architekturen und Auswahlstrategien für Modell-Services kennen

Kapitel	Inhalt	Kernkonzepte
Kapitel 1	Fine-Tuning-Pipeline	Daten → Training → Evaluierung → Deployment
Kapitel 2	Trainingsdaten	Datenformat, Qualitätskontrolle
Kapitel 3	LoRA Fine-Tuning	Low-Rank-Adaptation, parameter-effizient
Kapitel 4	Modellquantisierung	FP16, INT8, INT4
Kapitel 5	Modell-Deployment	Inferenzservice, API-Gateway

0. Panorama: Warum ist Fine-Tuning nötig?

Das Training großer Sprachmodelle gliedert sich in zwei Phasen: Pre-Training und Fine-Tuning. Pre-Training erlernt die Sprachfähigkeit aus riesigen allgemeinen Datenmengen, Fine-Tuning erlernt Fachkompetenz aus aufgabenspezifischen Daten.

Eine Analogie: Pre-Training ist wie ein Studium – Allgemeinwissen lernen, von allem ein bisschen; Fine-Tuning ist wie eine Einarbeitungsschulung – Fachkompetenzen für eine konkrete Position erlernen.

Wann braucht man Fine-Tuning?

Spezifisches Ausgabeformat: Das Modell muss konsistent in einem festen JSON-Format antworten
Fachwissen: Medizinische, juristische, finanzielle Fachbegriffe und Standards
Sprachstil-Transfer: Das Modell soll mit einem bestimmten Tonfall und Stil antworten (z. B. Kundenservice-Skripte)
Nischensprachen-Unterstützung: Die Leistung des Modells in einer bestimmten Sprache verbessern
Kostenoptimierung: Große Modellaufrufe durch Fine-Tuning kleiner Modelle ersetzen und Inferenzkosten senken

1. Fine-Tuning-Pipeline: Die vollständige Reise von Daten zum Produktivbetrieb

Fine-Tuning ist kein „Daten ins Modell werfen und fertig". Es ist ein strenger Engineering-Prozess, bei dem jedes Glied das Endergebnis beeinflusst.

微调流水线演示

点击每个阶段，了解微调的完整流程

🧠

选择基座模型

📊

准备训练数据

⚙️

执行微调训练

📈

评估与测试

🚀

部署上线

🧠 选择基座模型

微调的第一步是选择一个合适的预训练基座模型。基座模型已经在海量数据上学习了通用的语言能力，我们要做的是在此基础上进行"专业化训练"。

1根据任务需求选择模型规模（7B、13B、70B 等）

2考虑开源许可证（Apache 2.0、Llama 许可等）

3评估模型的基础能力是否匹配目标场景

4常见选择：Llama、Qwen、Mistral、DeepSeek 等

示例

model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen2-7B")

1 / 5

Die fünf Phasen des Fine-Tunings

Datenvorbereitung: Trainingsdaten sammeln, bereinigen und annotieren – der zeitaufwendigste, aber auch kritischste Schritt
Modellauswahl: Ein geeignetes Basismodell (Base Model) wählen, z. B. Llama 3, Qwen, Mistral
Trainingskonfiguration: Hyperparameter wie Lernrate, Batch-Größe, Epochenanzahl einstellen
Trainingsausführung: Das Training auf GPU ausführen, Loss-Kurve und Evaluierungsmetriken überwachen
Evaluierung und Produktivbetrieb: Auf dem Testset evaluieren, nach Bestehen als API-Service bereitstellen

Phase	Zentrale Aktionen	Häufige Fallstricke
Datenvorbereitung	Bereinigen, Deduplizieren, Formatieren	Schlechte Datenqualität führt dazu, dass das Modell „Falsches lernt"
Modellauswahl	Fähigkeiten des Basismodells bewerten	Modell zu groß → nicht trainierbar, zu klein → schlechte Ergebnisse
Trainingskonfiguration	Hyperparameter anpassen	Zu hohe Lernrate führt zu katastrophalem Vergessen
Trainingsausführung	Loss und Metriken überwachen	Overfitting, Training konvergiert nicht
Evaluierung und Produktivbetrieb	A/B-Tests, graduelle Einführung	Testset-Leakage führt zu überhöhten Evaluierungswerten

2. Trainingsdaten: Die Obergrenze der Fine-Tuning-Effektivität

Beim Fine-Tuning gibt es ein altes Sprichwort: „Garbage in, garbage out". Die Qualität der Trainingsdaten bestimmt direkt die Obergrenze der Fine-Tuning-Effektivität. 100 qualitativ hochwertige Datenpunkte übertreffen oft 10.000 minderwertige.

训练数据格式演示

切换不同格式，了解微调数据的组织方式

指令跟随

最常见的微调数据格式。每条数据包含一个指令（instruction）、可选的输入（input）和期望的输出（output）。适合训练通用助手类模型。

通用助手ChatGPT 风格最常用

数据样例

"instruction": "请将以下中文翻译成英文"

"input": "人工智能正在改变世界"

"output": "AI is changing the world"

数据质量要点

✓指令要清晰明确，避免歧义

✓输出要完整、准确、格式规范

✓覆盖多种任务类型（翻译、摘要、问答等）

✓数据量建议：1,000 ~ 50,000 条

Drei gängige Formate für Fine-Tuning-Daten

Instruktionsformat (Instruction): Das meistgenutzte Format mit drei Feldern: instruction (Anweisung), input (Eingabe), output (erwartete Ausgabe). Geeignet, um das Modell zu trainieren, Anweisungen zu befolgen.
Dialogformat (Chat): Mehrrunden-Dialogform mit einer Nachrichtenliste aus system-, user- und assistant-Rollen. Geeignet zum Trainieren von Chatbots.
Vervollständigungsformat (Completion): Einfache Prompt-Completion-Paare, geeignet für Textgenerierung, Code-Vervollständigung und ähnliche Szenarien.

Datenqualitätsdimension	Beschreibung	Prüfmethode
Korrektheit	Antworten müssen fehlerfrei sein	Manuelle Prüfung, Expertenvalidierung
Konsistenz	Antwortstil bei ähnlichen Fragen einheitlich	Stichprobenvergleich
Diversität	Ausreichend viele Szenarien und Varianten abdecken	Verteilung der Fragetypen statistisch erfassen
Deduplizierung	Vermeidung von Overfitting durch doppelte Samples	Text-Deduplizierung, semantische Deduplizierung
Datenmenge	Üblicherweise reichen 500–5.000 qualitativ hochwertige Daten	Mit wenigen beginnen, schrittweise erhöhen

3. LoRA: Mit 1 % der Parameter 90 % der Wirkung erzielen

Volles Fine-Tuning (Full Fine-Tuning) erfordert die Aktualisierung aller Parameter des Modells – bei einem 70B-Modell bedeutet das Hunderte GB VRAM und enorme GPU-Rechenleistung. Für die meisten Teams ist das unrealistisch.

LoRA (Low-Rank Adaptation) bietet eine elegante Lösung: Die ursprünglichen Modellparameter werden eingefroren, nur ein kleiner Satz neu hinzugefügter niedrigrangiger Matrizen wird trainiert. Diese Matrizen umfassen typischerweise nur 0,1 %–1 % der Parameter des Originalmodells, erreichen aber nahezu die Wirkung des vollen Fine-Tunings.

LoRA 低秩适配原理演示

理解 LoRA 如何用极少参数实现高效微调

原始权重 W

4096x4096

16,777,216 参数

冻结不动

LoRA 适配器

4096x8

8x4096

65,536 参数

可训练

参数节省比例

节省 99.6% 参数

LoRA 秩 (Rank): 8

秩越小 = 参数越少、训练越快秩越大 = 表达力越强、效果越好

Der Kerngedanke von LoRA

Die Gewichtsmatrix W des Originalmodells ist eine riesige Matrix (z. B. 4096x4096). LoRA modifiziert W nicht direkt, sondern fügt einen „Bypass" hinzu: W' = W + BA, wobei B und A zwei kleine Matrizen sind (z. B. 4096x8 und 8x4096). Beim Training werden nur B und A aktualisiert, das ursprüngliche W bleibt unverändert.

Rang (Rank): Je größer der r-Wert, desto stärker die Ausdrucksfähigkeit, aber auch desto mehr Parameter. Üblicherweise reicht r=8–64
Merge-Deployment: Nach dem Training kann BA in W integriert werden, sodass bei der Inferenz kein zusätzlicher Overhead entsteht

Fine-Tuning-Methode	Trainierbare Parameter	VRAM-Bedarf	Trainingsgeschwindigkeit	Effektivität
Volles Fine-Tuning	100 %	Extrem hoch	Langsam	Am besten
LoRA	0,1 %–1 %	Niedrig	Schnell	Nahezu voll
QLoRA	0,1 %–1 %	Noch niedriger	Mittel	Etwas unter LoRA
Prompt Tuning	< 0,01 %	Extrem niedrig	Sehr schnell	Begrenzt

4. Modellquantisierung: Das große Modell „abspecken"

Ein 70B-Modell benötigt bei FP32-Speicherung (32-Bit-Gleitkomma) 280 GB VRAM – ohne mehrere Top-GPUs ist es nicht lauffähig. Quantisierungstechniken reduzieren das Modellvolumen durch geringere numerische Präzision und machen große Modelle auf Consumer-Hardware nutzbar.

模型量化演示

拖动滑块，直观感受不同精度下的模型体积、速度与质量变化

FP32

32 bit

FP16

16 bit

INT8

8 bit

INT4

4 bit

💾

模型体积

~28 GB (7B 模型)

⚡

推理速度

1x (基准)

🎯

输出质量

100% (无损)

🖥️

显存需求

~32 GB

FP32 详解

FP32（32位浮点数）是模型训练时的默认精度。每个参数用 32 位存储，精度最高但体积最大。通常只在训练阶段使用，推理时很少直接使用 FP32。

单个参数存储示意

每个参数占用 32 位 = 4 字节

适用场景：模型训练、科研实验、精度敏感的任务

Der zentrale Trade-off der Quantisierung

Quantisierung ist im Kern ein Trade-off Präzision gegen Speicherplatz. FP32 → FP16 ist nahezu verlustfrei, INT8 hat minimale Verluste, INT4 zeigt einen spürbaren, aber meist akzeptablen Qualitätsabfall. Entscheidend ist, den optimalen Balancepunkt für dein Szenario zu finden.

FP16 (halbe Genauigkeit): Halbes Volumen, nahezu keine Qualitätseinbußen, Standard für Training und Inferenz
INT8 (8-Bit-Ganzzahl): Volumen nochmals halbiert, sehr geringe Qualitätsverluste, geeignet für die meisten Inferenzszenarien
INT4 (4-Bit-Ganzzahl): Volumen nur 1/8 von FP32, gewisse Qualitätsverluste, geeignet für ressourcenbeschränkte Szenarien

Präzision	Bytes pro Parameter	Volumen 70B-Modell	Qualitätsverlust	Einsatzszenario
FP32	4 Bytes	~280 GB	Keiner	Trainings-Baseline
FP16	2 Bytes	~140 GB	Nahezu keiner	Standard-Training und -Inferenz
INT8	1 Byte	~70 GB	Sehr gering	Produktionsinferenz
INT4	0,5 Bytes	~35 GB	Akzeptabel	Edge-Geräte, lokales Deployment

5. Modell-Deployment: Vom Labor in die Produktionsumgebung

Das Modell ist trainiert, quantisiert und komprimiert – der letzte Schritt ist, es als aufrufbaren Service bereitzustellen. Modell-Deployment ist nicht nur „das Modell zum Laufen bringen", sondern umfasst auch Parallelverarbeitung, Lastverteilung, Kostenkontrolle und weitere Engineering-Herausforderungen.

模型服务架构演示

点击不同部署方案，对比其特点与适用场景

🌐

API 服务

最常见的在线部署方式

📱

边缘部署

在终端设备上本地运行

📦

批量处理

离线批量推理大量数据

🌐API 服务

将模型封装为 RESTful API 或 gRPC 服务，通过 HTTP 请求调用。适合需要实时响应的在线应用，如聊天机器人、智能客服、内容生成等。是目前最主流的部署方式。

架构流程

客户端请求

→

负载均衡

→

推理服务器

→

GPU 推理

→

返回结果

响应延迟

100ms - 2s

并发能力

高（可水平扩展）

部署成本

中高（需 GPU 服务器）

运维复杂度

中等

常用工具

vLLMTGITritonFastAPIOllama

Drei gängige Deployment-Ansätze

API-Anbieter: APIs von OpenAI, Anthropic und anderen Anbietern direkt nutzen. Null Betriebsaufwand, Abrechnung pro Token, geeignet für schnelle Validierung und kleine bis mittlere Nutzung.
Selbst gehosteter Inferenzservice: Mit Frameworks wie vLLM, TGI auf eigenen GPU-Servern bereitstellen. Kosten kontrollierbar, Daten bleiben im eigenen Netzwerk, geeignet für Szenarien mit Datenschutzanforderungen oder hohem Aufrufvolumen.
Serverless-Inferenz: Plattformen wie AWS SageMaker, Replicate nutzen, Abrechnung pro Anfrage, automatische Skalierung. Geeignet für Szenarien mit stark schwankendem Traffic.

Deployment-Ansatz	Kostenmodell	Latenz	Betriebskomplexität	Einsatzszenario
API-Anbieter	Pro Token	Mittel	Null	Schnelle Prototypen, kleine/mittlere Skalierung
vLLM Selbst-Deployment	GPU-Mietkosten	Niedrig	Hoch	Große Skalierung, datenschutzsensitiv
Serverless	Pro Anfrage	Höher bei Kaltstart	Niedrig	Stark schwankender Traffic
Edge-Deployment	Einmalige Hardware-Investition	Extrem niedrig	Mittel	Offline-Szenarien, IoT

Zusammenfassung

Modell-Fine-Tuning und Deployment sind die entscheidenden Schritte, um ein großes Modell vom „Allzweckwerkzeug" zum „Fachassistenten" zu machen. Von der Datenvorbereitung bis zum Produktivbetrieb erfordert jeder Schritt Engineering-Denken und -Praxis.

Rückblick auf die Kernpunkte dieses Kapitels:

Fine-Tuning ist Einarbeitungsschulung: Das allgemeine Modell lernt domänenspezifisches Wissen und Verhaltensmuster
Datenqualität bestimmt die Obergrenze: 100 qualitativ hochwertige Datenpunkte schlagen 10.000 minderwertige
LoRA ist der Effizienzkönig: Mit weniger als 1 % der Parameter nahezu die Wirkung des vollen Fine-Tunings erzielen
Quantisierung ist das Deployment-Werkzeug: INT4-Quantisierung macht 70B-Modelle auf einer einzelnen Karte lauffähig
Deployment-Ansatz je nach Umgebung: Schnelle Validierung per API, große Skalierung per Selbst-Deployment, schwankender Traffic per Serverless

Weiterführende Literatur

Hugging Face PEFT Dokumentation - Offizielle Dokumentation zur parameter-effizienten Fine-Tuning-Bibliothek
vLLM Dokumentation - Hochleistungs-LLM-Inferenz-Engine
Unsloth - 2x beschleunigtes LoRA-Fine-Tuning-Framework
GGUF Formatbeschreibung - Von llama.cpp verwendetes quantisiertes Modellformat
OpenAI Fine-Tuning Guide - Offizieller Fine-Tuning-Leitfaden von OpenAI

Modell-Fine-Tuning und Deployment ​

0. Panorama: Warum ist Fine-Tuning nötig? ​

1. Fine-Tuning-Pipeline: Die vollständige Reise von Daten zum Produktivbetrieb ​