Skip to content

Data Governance und Datenqualität

Vorwort

Sind Sie schon einmal in folgende Situation geraten: Die Zahlen im Bericht stimmen nicht mit dem tatsächlichen Geschäft überein, die Informationen desselben Nutzers sind in zwei Systemen unterschiedlich, oder die Analyseergebnisse sind wegen fehlerhafter Daten völlig unzuverlässig? Data Governance ist der systematische Ansatz zur Lösung dieser Probleme. Im Zeitalter der „datengetriebenen Entscheidungsfindung" bestimmt die Datenqualität direkt die Entscheidungsqualität — Garbage In, Garbage Out.

Was werden Sie in diesem Artikel lernen?

Nach Abschluss dieses Kapitels werden Sie Folgendes erworben haben:

  • Datenqualitätsdimensionen: Die sechs Qualitätsdimensionen wie Vollständigkeit, Genauigkeit, Konsistenz usw. verstehen
  • Data-Governance-System: Das Governance-Framework von Organisation, Prozessen bis Technologie kennenlernen
  • Datenherkunft (Data Lineage): Die全程-Verfolgung von der Quelle bis zum Verbrauch beherrschen
  • Metadatenmanagement: Die Bedeutung von „Daten über Daten" verstehen
  • Daten-Schichtenarchitektur: Das DWH-Schichtenmodell ODS → DWD → DWS → ADS beherrschen
  • Praktische Fähigkeiten: Wissen, wie man Data Governance in Projekten umsetzt
KapitelInhaltKernkonzepte
Kapitel 1DatenqualitätsdimensionenVollständigkeit, Genauigkeit, Konsistenz, Aktualität
Kapitel 2Data-Governance-FrameworkOrganisation, Prozesse, Technologie, Kultur
Kapitel 3DatenherkuntsverfolgungAuswirkungsanalyse, Problemuntersuchung, Compliance-Audit
Kapitel 4MetadatenmanagementTechnische Metadaten, Geschäfts-Metadaten, operative Metadaten
Kapitel 5Daten-SchichtenarchitekturODS, DWD, DWS, ADS
Kapitel 6Governance-Tools und PraxisGreat Expectations, dbt, DataHub

0. Gesamtbild: Warum wird Data Governance benötigt?

Data Governance ist kein technisches Problem, sondern ein Management-Problem. Es beantwortet die Kernfrage: Wer ist für die Daten verantwortlich? Was sind die Standards für Daten? Wie wird sichergestellt, dass die Daten kontinuierlich vertrauenswürdig bleiben?

Stellen Sie sich ein Unternehmen mit 100 Datentabellen vor, die von verschiedenen Teams verwaltet werden, ohne einheitliche Namenskonventionen, kein Datenwörterbuch und keine Qualitätsprüfungen. Das Ergebnis: Dieselbe Kennzahl „monatlich aktive Nutzer" wird von der Marketingabteilung mit 5 Millionen und von der Produktabteilung mit 3 Millionen berechnet — weil die Definition unterschiedlich ist.

Die vier Säulen der Data Governance

  1. Organisation: Die Rollen und Verantwortlichkeiten von Data Ownern und Data Stewards klar definieren
  2. Prozesse: Standardisierte Prozesse für Datenintegration, -änderung und -abschaffung etablieren
  3. Technologie: Tools für Datenqualitätsmonitoring, Metadatenmanagement und Lineage-Tracking einsetzen
  4. Kultur: Das gesamte Unternehmen davon überzeugen, dass „Daten ein Vermögenswert" sind und kein „Nebenprodukt"

1. Die sechs Dimensionen der Datenqualität

Datenqualität ist kein vages Konzept, sondern kann anhand von sechs konkreten Dimensionen gemessen werden. Jede Dimension hat eine klare Definition und Nachweismethoden.

Data Quality Checker
Click a dimension to inspect example data quality issues
📋
Completeness
🎯
Accuracy
🔗
Consistency
Timeliness
🔑
Uniqueness
Validity
📋CompletenessWhether required values are missing
Problem data
User IDNameEmailPhone
001Alicealice@mail.com138xxxx1234
002Bob
003carol@mail.com139xxxx5678
After governance
User IDNameEmailPhone
001Alicealice@mail.com138xxxx1234
002Bobbob@mail.com137xxxx9012
003Carolcarol@mail.com139xxxx5678
Quality score
72%
DimensionDefinitionNachweismethodeHäufige Probleme
VollständigkeitFehlen Daten?Nullwert-Rate prüfenPflichtfelder leer, verknüpfte Daten fehlen
GenauigkeitSind die Daten korrekt?Regelprüfung, StichprobenabgleichNegative Beträge, ungültiges Datum
KonsistenzStimmen Daten aus verschiedenen Quellen überein?Systemübergreifender VergleichNutzername in CRM und Bestellsystem unterschiedlich
AktualitätWerden die Daten rechtzeitig aktualisiert?Aktualisierungszeitpunkt prüfenBestandsdaten verzögert, Preise nicht synchronisiert
EindeutigkeitGibt es doppelte Datensätze?DuplikatsprüfungDerselbe Nutzer hat sich zweimal registriert
GültigkeitEntspricht die Form den Regeln?Regex-/BereichsvalidierungE-Mail-Format fehlerhaft, Alter ist negativ

Die 1-10-100-Regel der Datenqualität

  • 1 Einheit: Validierung am Daten-Input, um fehlerhafte Daten fernzuhalten
  • 10 Einheiten: Bereits vorhandene fehlerhafte Daten im Data Warehouse bereinigen
  • 100 Einheiten: Verlust durch fehlerhafte Entscheidungen aufgrund fehlerhafter Daten

Je früher Datenqualitätsprobleme erkannt und behoben werden, desto geringer sind die Kosten.


2. Data-Governance-Framework: Management über den gesamten Lebenszyklus

Data Governance ist kein einmaliges Projekt, sondern ein kontinuierlicher Prozess über den gesamten Datenlebenszyklus. Von der Datenerstellung bis zur Löschung muss jede Phase klare Standards und Verantwortliche haben.

Data Governance Framework
Click each stage to inspect the details
1
Define standards
2
Collect and ingest
3
Manage storage
4
Use and consume
5
Archive and destroy
Define standards
Create data standards, naming rules, and data dictionaries
📖
Data dictionary
Define meaning, type, and allowed values for each field
📏
Naming rules
Unify field naming conventions such as snake_case, camelCase, and prefixes
🏷️
Classification
Classify data by sensitivity: public, internal, confidential, restricted
PhaseKernergebnisSchlüsselrolle
Standards definierenDatenwörterbuch, Namenskonventionen, Klassifizierungs- und EinstufungsstandardsDatenarchitekt
Erfassung und IntegrationIntegrationsrichtlinien, Validierungsregeln, Lineage-DokumentationDaten-Ingenieur
Speicherung und VerwaltungSchichtenmodell, Berechtigungs-Matrix, LebenszyklusrichtlinienDBA / Plattform-Ingenieur
Nutzung und VerbrauchDatenkatalog, Maskierungsregeln, QualitätsberichteDatenanalyst / Fachbereich
Archivierung und LöschungArchivierungsstrategie, Löschungsprotokolle, Audit-LogsSecurity & Compliance-Team

2. Data-Governance-Framework

Data Governance lässt sich nicht durch den Kauf eines Tools lösen; es erfordert ein vollständiges Framework. Das in der Branche am häufigsten verwendete Referenz-Framework ist DAMA-DMBOK (Data Management Body of Knowledge).

Governance-BereichKerninhaltSchlüsselergebnis
DatenarchitekturDatenmodelle, Datenflüsse und Speicherstrategien definierenDatenarchitekturdiagramm, ER-Diagramm
DatenstandardsEinheitliche Namenskonventionen, Kodierungsregeln und KennzahlendefinitionenDatenwörterbuch, Kennzahlenkatalog
DatenqualitätQualitätsregeln, Monitoring-Alerts und Korrekturprozesse etablierenQualitätsberichte, SLA-Dashboard
DatensicherheitKlassifizierung, Zugriffskontrolle, Maskierung und VerschlüsselungSicherheitsrichtlinie, Audit-Logs
MasterdatenmanagementEinheitliche „Goldene Datensätze" für Kern-Entitäten wie Kunden, ProdukteMasterdaten-Hub
DatenlebenszyklusDen gesamten Prozess von der Erstellung über die Archivierung bis zur Löschung verwaltenAufbewahrungsrichtlinien, Archivierungsregeln

Das Reifegradmodell der Data Governance

  • Stufe 1 - Initial: Keine einheitlichen Standards, jedes Team arbeitet isoliert
  • Stufe 2 - Repeatable: Grundlegende Standarddokumente vorhanden, aber inkonsequente Umsetzung
  • Stufe 3 - Defined: Einheitliche Governance-Prozesse und Tools, die meisten Teams halten sich daran
  • Stufe 4 - Managed: Quantitative Qualitätskennzahlen und automatisiertes Monitoring vorhanden
  • Stufe 5 - Optimized: Kontinuierliche Verbesserung, Data Governance ist in den täglichen Entwicklungsprozess integriert

3. Datenherkunft: Woher kommen die Daten, wohin gehen sie?

Data Lineage dokumentiert den vollständigen Transformationspfad der Daten von der Quelle bis zum endgültigen Verbrauch. Es ist wie ein „Stammbaum" der Daten, der es Ihnen ermöglicht, die Herkunft und Verbindung jedes einzelnen Datenwerts zurückzuverfolgen.

Data Lineage Tracing
Click any node to inspect upstream and downstream dependencies
Data sources
🗄️
MySQL user table
🗄️
MySQL order table
📝
Click log
ODS layer
📥
ODS users
📥
ODS orders
📥
ODS clicks
DWD layer
🔧
DWD user detail
🔧
DWD order detail
🔧
DWD click detail
DWS layer
📊
DWS user profile
📊
DWS GMV summary
ADS layer
📈
ADS business report

Data Lineage hat in der Praxis drei zentrale Anwendungsszenarien:

SzenarioProblemWie Lineage hilft
AuswirkungsanalyseWenn ich ein Feld in der Nutzertabelle ändere, welche Downstream-Berichte sind betroffen?Alle Abhängigkeiten der Lineage nach unten verfolgen
UrsachenanalyseDer heutige GMV-Bericht zeigt anomale Daten — in welchem Schritt liegt das Problem?Jeden Schritt der Lineage nach oben zurückverfolgen
Compliance-AuditDurch welche Systeme ist die Handynummer des Nutzers gegangen? Sind alle maskiert?Die vollständige Journey sensibler Felder verfolgen

Zwei Methoden der Lineage-Erfassung

  • Aktive Erfassung: SQL-Anweisungen und ETL-Konfigurationen parsen, um Tabellen-/Feld-Lineage-Beziehungen automatisch zu extrahieren
  • Passive Erfassung: Über Hooks die Ausführungspläne von Abfragemotoren (z. B. Hive, Spark) abfangen und Lineage in Echtzeit aufzeichnen

Gängige Tools wie Apache Atlas, DataHub und OpenLineage unterstützen alle die automatisierte Lineage-Erfassung.


4. Metadatenmanagement: „Daten über Daten"

Metadaten (Metadata) sind Daten über Daten. Wenn die Daten der Inhalt eines Buches sind, dann sind die Metadaten das Inhaltsverzeichnis, der Autor, das Veröffentlichungsdatum und die ISBN-Nummer des Buches. Ohne Metadaten sind Daten nur ein unverständlicher Haufen aus Zahlen und Zeichenketten.

MetadatentypBeschreibungBeispiel
Technische MetadatenPhysische Speicherinformationen der DatenTabellenname, Feldtyp, Partitionierung, Speicherort
Geschäfts-MetadatenDie geschäftliche Bedeutung der DatenDeutscher Feldname, Geschäftsdefinition, Berechnungsformel
Operative MetadatenDer Betriebszustand der DatenETL-Laufzeit, Datenmenge, Aktualisierungsfrequenz

Die Bedeutung des Datenwörterbuchs

Das Datenwörterbuch ist das grundlegendste Ergebnis des Metadatenmanagements. Ein gutes Datenwörterbuch sollte Folgendes enthalten:

  • Feldname: Englischer und deutscher Name
  • Datentyp: VARCHAR(50), INT, DATETIME usw.
  • Geschäftsdefinition: Was stellt dieses Feld dar? Wie wird es berechnet?
  • Wertebereich: Was sind gültige Werte? Sind Nullwerte erlaubt?
  • Verantwortlicher: Wer pflegt dieses Feld? Wen kontaktieren bei Fragen?

Ohne Datenwörterbuch kann es für neue Mitarbeiter eine Woche dauern, die Bedeutung einer Tabelle zu verstehen; mit einem Datenwörterbuch reichen 10 Minuten.


5. Daten-Schichtenarchitektur: ODS → DWD → DWS → ADS

Ein Data Warehouse schlichtet nicht alle Daten auf einem Haufen, sondern speichert sie nach Verarbeitungsgrad in Schichten. Jede Schicht hat klar definierte Verantwortlichkeiten; obere Schichten hängen von unteren ab und veredeln die Daten schrittweise von Rohdaten zu geschäftsverwertbaren Daten.

SchichtVollständiger NameVerantwortungDatenmerkmale
ODSOperational Data StoreGeschäftliche Datenbanken 1:1 synchronisiertAm rohesten, unbearbeitet
DWDData Warehouse DetailBereinigung, Standardisierung, DeduplizierungSaubere Detaildatensätze
DWSData Warehouse SummaryThematische Aggregation (Tag/Woche/Monat)Vorberechnete aggregierte Kennzahlen
ADSApplication Data ServiceAuf spezifische Berichte/APIs ausgerichtetDirekt nutzbare Ergebnisdaten

Warum Schichtenbildung?

  • Wiederverwendung: Die DWD-Schicht wird einmal bereinigt und von allen oberen Schichten gemeinsam genutzt — doppelte Bereinigung wird vermieden
  • Entkopplung: Änderungen an der Geschäftsdatenbank-Tabellenstruktur betreffen nur die ODS-Schicht und schlagen nicht auf Berichte durch
  • Performance: Die DWS-Schicht ist voraggregiert; Berichtsabfragen lesen direkt, ohne Echtzeitberechnung
  • Rückverfolgbarkeit: Jede Schicht bleibt erhalten; bei Problemen kann schichtweise untersucht werden

6. Governance-Tools und Praxis

ToolPositionierungKernfähigkeitenAnwendungsszenarien
Great ExpectationsDatenqualitätDeklarative Datenvalidierungsregeln, automatische QualitätsberichtePython-Datenpipelines
dbtDatentransformationSQL-modellbasierte Entwicklung, integrierte Tests und DokumentationsgenerierungDWH-Modellierung
DataHubMetadatenmanagementDatenkatalog, Lineage-Tracking, Data DiscoveryEnterprise Data Governance
Apache AtlasMetadatenmanagementLineage-Tracking im Hadoop-ÖkosystemBig-Data-Plattformen
OpenMetadataMetadatenmanagementOpen-Source-Datenkatalog, unterstützt verschiedene DatenquellenKleine und mittlere Teams
AmundsenData DiscoverySuchbasierte DatenentdeckungsplattformDaten-Demokratisierung

Governance-Pfad von Null

Wenn Ihr Team noch keine Data Governance hat, empfehlen wir die Umsetzung in dieser Reihenfolge:

  1. Zuerst ein Datenwörterbuch erstellen: Die Bedeutung der vorhandenen Tabellen und Felder dokumentieren (selbst in Excel)
  2. Qualitätsprüfungen hinzufügen: Grundlegende Nullwert- und Bereichsprüfungen in wichtige Datenpipelines einbauen
  3. Kennzahlendefinitionen vereinheitlichen: Die Berechnungsformeln für Kernkennzahlen wie „DAU", „MAU", „GMV" vereinheitlichen
  4. Tools einführen: Wenn die Kosten der manuellen Verwaltung zu hoch werden, Tools wie DataHub oder dbt einführen
  5. Prozesse etablieren: Datenänderungen erfordern Reviews; Qualitätsprobleme haben SLAs und Alerts

Zusammenfassung

Data Governance ist das systematische Engineering, das Daten von „nutzbar" zu „gut nutzbar, vertrauenswürdig und rückverfolgbar" macht. Es ist kein einmaliges Projekt, sondern ein kontinuierlicher Betriebsprozess.

Die wichtigsten Erkenntnisse dieses Kapitels im Rückblick:

  1. Sechs Qualitätsdimensionen: Vollständigkeit, Genauigkeit, Konsistenz, Aktualität, Eindeutigkeit, Gültigkeit
  2. Vier Governance-Säulen: Organisation, Prozesse, Technologie, Kultur — keine darf fehlen
  3. Datenherkunft (Lineage): Die Herkunft und den Fluss der Daten nachverfolgen und Auswirkungsanalysen sowie Problemuntersuchungen unterstützen
  4. Metadatenmanagement: Das Datenwörterbuch ist das grundlegendste und wichtigste Governance-Ergebnis
  5. Schichtenarchitektur: ODS → DWD → DWS → ADS — Datenwert wird Schicht für Schicht veredelt
  6. Schrittweise Umsetzung: Mit dem Datenwörterbuch beginnen und schrittweise Tools und Prozesse einführen

Weiterführende Literatur

  • DAMA-DMBOK - Data Management Body of Knowledge, die „Bibel" der Data Governance
  • DataHub - Open-Source-Metadatenmanagement-Plattform von LinkedIn
  • Great Expectations - Python-Datenqualitäts-Framework
  • dbt - Datentransformationstool mit integrierten Tests und Dokumentation
  • Apache Atlas - Metadaten-Governance-Framework für das Hadoop-Ökosystem
  • The Data Warehouse Toolkit - Kimballs Klassiker zur DWH-Modellierung