Data Governance und Datenqualität

Vorwort

Sind Sie schon einmal in folgende Situation geraten: Die Zahlen im Bericht stimmen nicht mit dem tatsächlichen Geschäft überein, die Informationen desselben Nutzers sind in zwei Systemen unterschiedlich, oder die Analyseergebnisse sind wegen fehlerhafter Daten völlig unzuverlässig? Data Governance ist der systematische Ansatz zur Lösung dieser Probleme. Im Zeitalter der „datengetriebenen Entscheidungsfindung" bestimmt die Datenqualität direkt die Entscheidungsqualität — Garbage In, Garbage Out.

Was werden Sie in diesem Artikel lernen?

Nach Abschluss dieses Kapitels werden Sie Folgendes erworben haben:

Datenqualitätsdimensionen: Die sechs Qualitätsdimensionen wie Vollständigkeit, Genauigkeit, Konsistenz usw. verstehen
Data-Governance-System: Das Governance-Framework von Organisation, Prozessen bis Technologie kennenlernen
Datenherkunft (Data Lineage): Die全程-Verfolgung von der Quelle bis zum Verbrauch beherrschen
Metadatenmanagement: Die Bedeutung von „Daten über Daten" verstehen
Daten-Schichtenarchitektur: Das DWH-Schichtenmodell ODS → DWD → DWS → ADS beherrschen
Praktische Fähigkeiten: Wissen, wie man Data Governance in Projekten umsetzt

Kapitel	Inhalt	Kernkonzepte
Kapitel 1	Datenqualitätsdimensionen	Vollständigkeit, Genauigkeit, Konsistenz, Aktualität
Kapitel 2	Data-Governance-Framework	Organisation, Prozesse, Technologie, Kultur
Kapitel 3	Datenherkuntsverfolgung	Auswirkungsanalyse, Problemuntersuchung, Compliance-Audit
Kapitel 4	Metadatenmanagement	Technische Metadaten, Geschäfts-Metadaten, operative Metadaten
Kapitel 5	Daten-Schichtenarchitektur	ODS, DWD, DWS, ADS
Kapitel 6	Governance-Tools und Praxis	Great Expectations, dbt, DataHub

0. Gesamtbild: Warum wird Data Governance benötigt?

Data Governance ist kein technisches Problem, sondern ein Management-Problem. Es beantwortet die Kernfrage: Wer ist für die Daten verantwortlich? Was sind die Standards für Daten? Wie wird sichergestellt, dass die Daten kontinuierlich vertrauenswürdig bleiben?

Stellen Sie sich ein Unternehmen mit 100 Datentabellen vor, die von verschiedenen Teams verwaltet werden, ohne einheitliche Namenskonventionen, kein Datenwörterbuch und keine Qualitätsprüfungen. Das Ergebnis: Dieselbe Kennzahl „monatlich aktive Nutzer" wird von der Marketingabteilung mit 5 Millionen und von der Produktabteilung mit 3 Millionen berechnet — weil die Definition unterschiedlich ist.

Die vier Säulen der Data Governance

Organisation: Die Rollen und Verantwortlichkeiten von Data Ownern und Data Stewards klar definieren
Prozesse: Standardisierte Prozesse für Datenintegration, -änderung und -abschaffung etablieren
Technologie: Tools für Datenqualitätsmonitoring, Metadatenmanagement und Lineage-Tracking einsetzen
Kultur: Das gesamte Unternehmen davon überzeugen, dass „Daten ein Vermögenswert" sind und kein „Nebenprodukt"

1. Die sechs Dimensionen der Datenqualität

Datenqualität ist kein vages Konzept, sondern kann anhand von sechs konkreten Dimensionen gemessen werden. Jede Dimension hat eine klare Definition und Nachweismethoden.

📋

Completeness

🎯

Accuracy

🔗

Consistency

⏰

Timeliness

🔑

Uniqueness

✅

Validity

📋CompletenessWhether required values are missing

Problem data

User ID	Name	Email	Phone
001	Alice	alice@mail.com	138xxxx1234
002	Bob
003		carol@mail.com	139xxxx5678

After governance

User ID	Name	Email	Phone
001	Alice	alice@mail.com	138xxxx1234
002	Bob	bob@mail.com	137xxxx9012
003	Carol	carol@mail.com	139xxxx5678

Quality score

72%

Dimension	Definition	Nachweismethode	Häufige Probleme
Vollständigkeit	Fehlen Daten?	Nullwert-Rate prüfen	Pflichtfelder leer, verknüpfte Daten fehlen
Genauigkeit	Sind die Daten korrekt?	Regelprüfung, Stichprobenabgleich	Negative Beträge, ungültiges Datum
Konsistenz	Stimmen Daten aus verschiedenen Quellen überein?	Systemübergreifender Vergleich	Nutzername in CRM und Bestellsystem unterschiedlich
Aktualität	Werden die Daten rechtzeitig aktualisiert?	Aktualisierungszeitpunkt prüfen	Bestandsdaten verzögert, Preise nicht synchronisiert
Eindeutigkeit	Gibt es doppelte Datensätze?	Duplikatsprüfung	Derselbe Nutzer hat sich zweimal registriert
Gültigkeit	Entspricht die Form den Regeln?	Regex-/Bereichsvalidierung	E-Mail-Format fehlerhaft, Alter ist negativ

Die 1-10-100-Regel der Datenqualität

1 Einheit: Validierung am Daten-Input, um fehlerhafte Daten fernzuhalten
10 Einheiten: Bereits vorhandene fehlerhafte Daten im Data Warehouse bereinigen
100 Einheiten: Verlust durch fehlerhafte Entscheidungen aufgrund fehlerhafter Daten

Je früher Datenqualitätsprobleme erkannt und behoben werden, desto geringer sind die Kosten.

2. Data-Governance-Framework: Management über den gesamten Lebenszyklus

Data Governance ist kein einmaliges Projekt, sondern ein kontinuierlicher Prozess über den gesamten Datenlebenszyklus. Von der Datenerstellung bis zur Löschung muss jede Phase klare Standards und Verantwortliche haben.

Define standards

→

Collect and ingest

→

Manage storage

→

Use and consume

→

Archive and destroy

Define standards

Create data standards, naming rules, and data dictionaries

📖

Data dictionary

Define meaning, type, and allowed values for each field

📏

Naming rules

Unify field naming conventions such as snake_case, camelCase, and prefixes

🏷️

Classification

Classify data by sensitivity: public, internal, confidential, restricted

Phase	Kernergebnis	Schlüsselrolle
Standards definieren	Datenwörterbuch, Namenskonventionen, Klassifizierungs- und Einstufungsstandards	Datenarchitekt
Erfassung und Integration	Integrationsrichtlinien, Validierungsregeln, Lineage-Dokumentation	Daten-Ingenieur
Speicherung und Verwaltung	Schichtenmodell, Berechtigungs-Matrix, Lebenszyklusrichtlinien	DBA / Plattform-Ingenieur
Nutzung und Verbrauch	Datenkatalog, Maskierungsregeln, Qualitätsberichte	Datenanalyst / Fachbereich
Archivierung und Löschung	Archivierungsstrategie, Löschungsprotokolle, Audit-Logs	Security & Compliance-Team

2. Data-Governance-Framework

Data Governance lässt sich nicht durch den Kauf eines Tools lösen; es erfordert ein vollständiges Framework. Das in der Branche am häufigsten verwendete Referenz-Framework ist DAMA-DMBOK (Data Management Body of Knowledge).

Governance-Bereich	Kerninhalt	Schlüsselergebnis
Datenarchitektur	Datenmodelle, Datenflüsse und Speicherstrategien definieren	Datenarchitekturdiagramm, ER-Diagramm
Datenstandards	Einheitliche Namenskonventionen, Kodierungsregeln und Kennzahlendefinitionen	Datenwörterbuch, Kennzahlenkatalog
Datenqualität	Qualitätsregeln, Monitoring-Alerts und Korrekturprozesse etablieren	Qualitätsberichte, SLA-Dashboard
Datensicherheit	Klassifizierung, Zugriffskontrolle, Maskierung und Verschlüsselung	Sicherheitsrichtlinie, Audit-Logs
Masterdatenmanagement	Einheitliche „Goldene Datensätze" für Kern-Entitäten wie Kunden, Produkte	Masterdaten-Hub
Datenlebenszyklus	Den gesamten Prozess von der Erstellung über die Archivierung bis zur Löschung verwalten	Aufbewahrungsrichtlinien, Archivierungsregeln

Das Reifegradmodell der Data Governance

Stufe 1 - Initial: Keine einheitlichen Standards, jedes Team arbeitet isoliert
Stufe 2 - Repeatable: Grundlegende Standarddokumente vorhanden, aber inkonsequente Umsetzung
Stufe 3 - Defined: Einheitliche Governance-Prozesse und Tools, die meisten Teams halten sich daran
Stufe 4 - Managed: Quantitative Qualitätskennzahlen und automatisiertes Monitoring vorhanden
Stufe 5 - Optimized: Kontinuierliche Verbesserung, Data Governance ist in den täglichen Entwicklungsprozess integriert

3. Datenherkunft: Woher kommen die Daten, wohin gehen sie?

Data Lineage dokumentiert den vollständigen Transformationspfad der Daten von der Quelle bis zum endgültigen Verbrauch. Es ist wie ein „Stammbaum" der Daten, der es Ihnen ermöglicht, die Herkunft und Verbindung jedes einzelnen Datenwerts zurückzuverfolgen.

Data sources

🗄️

MySQL user table

🗄️

MySQL order table

📝

Click log

ODS layer

📥

ODS users

📥

ODS orders

📥

ODS clicks

DWD layer

🔧

DWD user detail

🔧

DWD order detail

🔧

DWD click detail

DWS layer

📊

DWS user profile

📊

DWS GMV summary

ADS layer

📈

ADS business report

Data Lineage hat in der Praxis drei zentrale Anwendungsszenarien:

Szenario	Problem	Wie Lineage hilft
Auswirkungsanalyse	Wenn ich ein Feld in der Nutzertabelle ändere, welche Downstream-Berichte sind betroffen?	Alle Abhängigkeiten der Lineage nach unten verfolgen
Ursachenanalyse	Der heutige GMV-Bericht zeigt anomale Daten — in welchem Schritt liegt das Problem?	Jeden Schritt der Lineage nach oben zurückverfolgen
Compliance-Audit	Durch welche Systeme ist die Handynummer des Nutzers gegangen? Sind alle maskiert?	Die vollständige Journey sensibler Felder verfolgen

Zwei Methoden der Lineage-Erfassung

Aktive Erfassung: SQL-Anweisungen und ETL-Konfigurationen parsen, um Tabellen-/Feld-Lineage-Beziehungen automatisch zu extrahieren
Passive Erfassung: Über Hooks die Ausführungspläne von Abfragemotoren (z. B. Hive, Spark) abfangen und Lineage in Echtzeit aufzeichnen

Gängige Tools wie Apache Atlas, DataHub und OpenLineage unterstützen alle die automatisierte Lineage-Erfassung.

4. Metadatenmanagement: „Daten über Daten"

Metadaten (Metadata) sind Daten über Daten. Wenn die Daten der Inhalt eines Buches sind, dann sind die Metadaten das Inhaltsverzeichnis, der Autor, das Veröffentlichungsdatum und die ISBN-Nummer des Buches. Ohne Metadaten sind Daten nur ein unverständlicher Haufen aus Zahlen und Zeichenketten.

Metadatentyp	Beschreibung	Beispiel
Technische Metadaten	Physische Speicherinformationen der Daten	Tabellenname, Feldtyp, Partitionierung, Speicherort
Geschäfts-Metadaten	Die geschäftliche Bedeutung der Daten	Deutscher Feldname, Geschäftsdefinition, Berechnungsformel
Operative Metadaten	Der Betriebszustand der Daten	ETL-Laufzeit, Datenmenge, Aktualisierungsfrequenz

Die Bedeutung des Datenwörterbuchs

Das Datenwörterbuch ist das grundlegendste Ergebnis des Metadatenmanagements. Ein gutes Datenwörterbuch sollte Folgendes enthalten:

Feldname: Englischer und deutscher Name
Datentyp: VARCHAR(50), INT, DATETIME usw.
Geschäftsdefinition: Was stellt dieses Feld dar? Wie wird es berechnet?
Wertebereich: Was sind gültige Werte? Sind Nullwerte erlaubt?
Verantwortlicher: Wer pflegt dieses Feld? Wen kontaktieren bei Fragen?

Ohne Datenwörterbuch kann es für neue Mitarbeiter eine Woche dauern, die Bedeutung einer Tabelle zu verstehen; mit einem Datenwörterbuch reichen 10 Minuten.

5. Daten-Schichtenarchitektur: ODS → DWD → DWS → ADS

Ein Data Warehouse schlichtet nicht alle Daten auf einem Haufen, sondern speichert sie nach Verarbeitungsgrad in Schichten. Jede Schicht hat klar definierte Verantwortlichkeiten; obere Schichten hängen von unteren ab und veredeln die Daten schrittweise von Rohdaten zu geschäftsverwertbaren Daten.

Schicht	Vollständiger Name	Verantwortung	Datenmerkmale
ODS	Operational Data Store	Geschäftliche Datenbanken 1:1 synchronisiert	Am rohesten, unbearbeitet
DWD	Data Warehouse Detail	Bereinigung, Standardisierung, Deduplizierung	Saubere Detaildatensätze
DWS	Data Warehouse Summary	Thematische Aggregation (Tag/Woche/Monat)	Vorberechnete aggregierte Kennzahlen
ADS	Application Data Service	Auf spezifische Berichte/APIs ausgerichtet	Direkt nutzbare Ergebnisdaten

Warum Schichtenbildung?

Wiederverwendung: Die DWD-Schicht wird einmal bereinigt und von allen oberen Schichten gemeinsam genutzt — doppelte Bereinigung wird vermieden
Entkopplung: Änderungen an der Geschäftsdatenbank-Tabellenstruktur betreffen nur die ODS-Schicht und schlagen nicht auf Berichte durch
Performance: Die DWS-Schicht ist voraggregiert; Berichtsabfragen lesen direkt, ohne Echtzeitberechnung
Rückverfolgbarkeit: Jede Schicht bleibt erhalten; bei Problemen kann schichtweise untersucht werden

6. Governance-Tools und Praxis

Tool	Positionierung	Kernfähigkeiten	Anwendungsszenarien
Great Expectations	Datenqualität	Deklarative Datenvalidierungsregeln, automatische Qualitätsberichte	Python-Datenpipelines
dbt	Datentransformation	SQL-modellbasierte Entwicklung, integrierte Tests und Dokumentationsgenerierung	DWH-Modellierung
DataHub	Metadatenmanagement	Datenkatalog, Lineage-Tracking, Data Discovery	Enterprise Data Governance
Apache Atlas	Metadatenmanagement	Lineage-Tracking im Hadoop-Ökosystem	Big-Data-Plattformen
OpenMetadata	Metadatenmanagement	Open-Source-Datenkatalog, unterstützt verschiedene Datenquellen	Kleine und mittlere Teams
Amundsen	Data Discovery	Suchbasierte Datenentdeckungsplattform	Daten-Demokratisierung

Governance-Pfad von Null

Wenn Ihr Team noch keine Data Governance hat, empfehlen wir die Umsetzung in dieser Reihenfolge:

Zuerst ein Datenwörterbuch erstellen: Die Bedeutung der vorhandenen Tabellen und Felder dokumentieren (selbst in Excel)
Qualitätsprüfungen hinzufügen: Grundlegende Nullwert- und Bereichsprüfungen in wichtige Datenpipelines einbauen
Kennzahlendefinitionen vereinheitlichen: Die Berechnungsformeln für Kernkennzahlen wie „DAU", „MAU", „GMV" vereinheitlichen
Tools einführen: Wenn die Kosten der manuellen Verwaltung zu hoch werden, Tools wie DataHub oder dbt einführen
Prozesse etablieren: Datenänderungen erfordern Reviews; Qualitätsprobleme haben SLAs und Alerts

Zusammenfassung

Data Governance ist das systematische Engineering, das Daten von „nutzbar" zu „gut nutzbar, vertrauenswürdig und rückverfolgbar" macht. Es ist kein einmaliges Projekt, sondern ein kontinuierlicher Betriebsprozess.

Die wichtigsten Erkenntnisse dieses Kapitels im Rückblick:

Sechs Qualitätsdimensionen: Vollständigkeit, Genauigkeit, Konsistenz, Aktualität, Eindeutigkeit, Gültigkeit
Vier Governance-Säulen: Organisation, Prozesse, Technologie, Kultur — keine darf fehlen
Datenherkunft (Lineage): Die Herkunft und den Fluss der Daten nachverfolgen und Auswirkungsanalysen sowie Problemuntersuchungen unterstützen
Metadatenmanagement: Das Datenwörterbuch ist das grundlegendste und wichtigste Governance-Ergebnis
Schichtenarchitektur: ODS → DWD → DWS → ADS — Datenwert wird Schicht für Schicht veredelt
Schrittweise Umsetzung: Mit dem Datenwörterbuch beginnen und schrittweise Tools und Prozesse einführen

Weiterführende Literatur

DAMA-DMBOK - Data Management Body of Knowledge, die „Bibel" der Data Governance
DataHub - Open-Source-Metadatenmanagement-Plattform von LinkedIn
Great Expectations - Python-Datenqualitäts-Framework
dbt - Datentransformationstool mit integrierten Tests und Dokumentation
Apache Atlas - Metadaten-Governance-Framework für das Hadoop-Ökosystem
The Data Warehouse Toolkit - Kimballs Klassiker zur DWH-Modellierung

Data Governance und Datenqualität ​

0. Gesamtbild: Warum wird Data Governance benötigt? ​

1. Die sechs Dimensionen der Datenqualität ​

2. Data-Governance-Framework: Management über den gesamten Lebenszyklus ​

2. Data-Governance-Framework ​

3. Datenherkunft: Woher kommen die Daten, wohin gehen sie? ​

4. Metadatenmanagement: „Daten über Daten" ​

5. Daten-Schichtenarchitektur: ODS → DWD → DWS → ADS ​

6. Governance-Tools und Praxis ​

Zusammenfassung ​

Weiterführende Literatur ​