Skip to content

Gouvernance des données et qualité des données

Préface

Avez-vous déjà rencontré cette situation : les chiffres du rapport ne correspondent pas au business réel, les informations d'un même utilisateur diffèrent entre deux systèmes, ou les résultats d'analyse sont totalement peu fiables à cause de données sales ? La gouvernance des données est précisément la méthode systématique pour résoudre ces problèmes. À l'ère de la « prise de décision basée sur les données », la qualité des données détermine directement la qualité des décisions — Garbage In, Garbage Out.

Que allez-vous apprendre dans cet article ?

À la fin de ce chapitre, vous aurez acquis :

  • Les dimensions de la qualité des données : Comprendre les six dimensions que sont la complétude, l'exactitude, la cohérence, etc.
  • Le système de gouvernance des données : Connaître le cadre de gouvernance couvrant l'organisation, les processus et la technologie
  • Le lignage des données : Maîtriser le suivi de bout en bout, de la source à la consommation
  • La gestion des métadonnées : Comprendre l'importance des « données qui décrivent les données »
  • L'architecture en couches des données : Maîtriser le modèle de couches ODS → DWD → DWS → ADS de l'entrepôt de données
  • Les compétences pratiques : Savoir comment implémenter la gouvernance des données dans un projet
ChapitreContenuConcepts clés
Chapitre 1Dimensions de la qualité des donnéesComplétude, exactitude, cohérence, actualité
Chapitre 2Cadre de gouvernance des donnéesOrganisation, processus, technologie, culture
Chapitre 3Suivi du lignage des donnéesAnalyse d'impact, investigation de problèmes, audit de conformité
Chapitre 4Gestion des métadonnéesMétadonnées techniques, métadonnées métier, métadonnées opérationnelles
Chapitre 5Architecture en couches des donnéesODS, DWD, DWS, ADS
Chapitre 6Outils et pratiques de gouvernanceGreat Expectations, dbt, DataHub

0. Vue d'ensemble : Pourquoi la gouvernance des données est-elle nécessaire ?

La gouvernance des données n'est pas un problème technique, mais un problème de management. Elle répond à la question centrale : Qui est responsable des données ? Quels sont les standards des données ? Comment garantir que les données restent fiables dans le temps ?

Imaginez une entreprise avec 100 tables de données, chacune maintenue par une équipe différente, sans convention de nommage unifiée, sans dictionnaire de données, sans contrôle qualité. Le résultat : le même indicateur « utilisateurs actifs mensuels » est calculé à 5 millions par le marketing et à 3 millions par l'équipe produit — parce que les définitions diffèrent.

Les quatre piliers de la gouvernance des données

  1. Organisation : Clarifier les rôles et responsabilités des Data Owners et Data Stewards
  2. Processus : Établir des processus standardisés pour l'intégration, la modification et la mise hors service des données
  3. Technologie : Déployer des outils de monitoring de la qualité des données, de gestion des métadonnées et de suivi du lignage
  4. Culture : Faire adhérer toute l'entreprise à l'idée que « les données sont un actif » et non un « sous-produit »

1. Les six dimensions de la qualité des données

La qualité des données n'est pas un concept vague : elle se mesure selon six dimensions concrètes, chacune avec une définition précise et des méthodes de détection.

Data Quality Checker
Click a dimension to inspect example data quality issues
📋
Completeness
🎯
Accuracy
🔗
Consistency
Timeliness
🔑
Uniqueness
Validity
📋CompletenessWhether required values are missing
Problem data
User IDNameEmailPhone
001Alicealice@mail.com138xxxx1234
002Bob
003carol@mail.com139xxxx5678
After governance
User IDNameEmailPhone
001Alicealice@mail.com138xxxx1234
002Bobbob@mail.com137xxxx9012
003Carolcarol@mail.com139xxxx5678
Quality score
72%
DimensionDéfinitionMéthode de détectionProblèmes courants
ComplétudeLes données sont-elles manquantes ?Vérification du taux de valeurs nullesChamps obligatoires vides, données associées manquantes
ExactitudeLes données sont-elles correctes ?Validation par règles, vérification par échantillonnageMontants négatifs, dates invalides
CohérenceLes données multi-sources sont-elles cohérentes ?Comparaison inter-systèmesNom d'utilisateur différent entre le CRM et le système de commandes
ActualitéLes données sont-elles mises à jour en temps opportun ?Vérification de l'horodatage de mise à jourDonnées de stock en retard, prix non synchronisés
UnicitéExiste-t-il des enregistrements en double ?Vérification de dédoublonnageMême utilisateur inscrit deux fois
ValiditéLes données sont-elles conformes aux règles de format ?Validation par regex/plage de valeursFormat d'email erroné, âge négatif

La règle 1-10-100 de la qualité des données

  • 1 euro : Validation à l'entrée des données, prévention des données sales
  • 10 euros : Nettoyage des données sales déjà présentes dans l'entrepôt de données
  • 100 euros : Pertes dues aux mauvaises décisions causées par des données sales

Plus tôt on détecte et corrige les problèmes de qualité des données, plus le coût est faible.


2. Cadre de gouvernance des données : Gestion sur tout le cycle de vie

La gouvernance des données n'est pas un projet ponctuel, mais un processus continu couvrant tout le cycle de vie des données. De la création à la destruction, chaque phase nécessite des normes claires et des responsables identifiés.

Data Governance Framework
Click each stage to inspect the details
1
Define standards
2
Collect and ingest
3
Manage storage
4
Use and consume
5
Archive and destroy
Define standards
Create data standards, naming rules, and data dictionaries
📖
Data dictionary
Define meaning, type, and allowed values for each field
📏
Naming rules
Unify field naming conventions such as snake_case, camelCase, and prefixes
🏷️
Classification
Classify data by sensitivity: public, internal, confidential, restricted
PhaseProduction cléRôle principal
Définition des standardsDictionnaire de données, conventions de nommage, standards de classificationArchitecte de données
Collecte et intégrationSpécifications d'intégration, règles de validation, enregistrement du lignageIngénieur données
Stockage et gestionModèle en couches, matrice de permissions, politiques de cycle de vieDBA / Ingénieur plateforme
Utilisation et consommationCatalogue de données, règles de masquage, rapports de qualitéAnalyste données / Métier
Archivage et destructionPolitique d'archivage, registre des suppressions, logs d'auditÉquipe sécurité et conformité

2. Cadre de gouvernance des données

La gouvernance des données ne se résout pas en achetant un outil ; elle nécessite un cadre complet pour la soutenir. Le cadre de référence le plus utilisé dans l'industrie est DAMA-DMBOK (Data Management Body of Knowledge).

Domaine de gouvernanceContenu centralProduction clé
Architecture des donnéesDéfinir les modèles de données, les flux de données et les stratégies de stockageDiagramme d'architecture de données, diagramme ER
Standards de donnéesConventions de nommage unifiées, règles de codage, définitions d'indicateursDictionnaire de données, référentiel d'indicateurs
Qualité des donnéesÉtablir des règles qualité, alertes de monitoring, processus de correctionRapports de qualité, tableau de bord SLA
Sécurité des donnéesClassification, contrôle d'accès, masquage et chiffrementPolitique de sécurité, logs d'audit
Gestion des données de référenceUnifier les « enregistrements de référence » des entités clés (clients, produits, etc.)Hub de données de référence
Cycle de vie des donnéesGérer tout le processus, de la création à l'archivage et la destructionPolitiques de rétention, règles d'archivage

Le modèle de maturité de la gouvernance des données

  • Niveau 1 - Initial : Pas de standards unifiés, chaque équipe travaille en silo
  • Niveau 2 - Répétable : Des documents de normes existent, mais l'application est incohérente
  • Niveau 3 - Défini : Des processus et outils de gouvernance unifiés, la majorité des équipes les respectent
  • Niveau 4 - Géré : Des indicateurs qualité quantitatifs et un monitoring automatisé existent
  • Niveau 5 - Optimisé : Amélioration continue, la gouvernance des données est intégrée au processus de développement quotidien

3. Lignage des données : D'où viennent-elles, où vont-elles ?

Le lignage des données (Data Lineage) enregistre le chemin complet de transformation des données, de leur source jusqu'à leur consommation finale. C'est comme l'« arbre généalogique » des données, qui vous permet de retracer l'origine et les transformations de chaque donnée.

Data Lineage Tracing
Click any node to inspect upstream and downstream dependencies
Data sources
🗄️
MySQL user table
🗄️
MySQL order table
📝
Click log
ODS layer
📥
ODS users
📥
ODS orders
📥
ODS clicks
DWD layer
🔧
DWD user detail
🔧
DWD order detail
🔧
DWD click detail
DWS layer
📊
DWS user profile
📊
DWS GMV summary
ADS layer
📈
ADS business report

Le lignage des données a trois cas d'usage centraux en pratique :

ScénarioProblèmeComment le lignage aide
Analyse d'impactSi je modifie un champ de la table utilisateurs, quels rapports en aval seront affectés ?Suivre toutes les dépendances vers l'aval
Recherche de cause racineLe rapport GMV d'aujourd'hui présente des données anormales — à quelle étape est le problème ?Remonter chaque étape du lignage
Audit de conformitéPar quels systèmes est passé le numéro de téléphone de l'utilisateur ? Tous sont-ils masqués ?Suivre le parcours complet des champs sensibles

Deux méthodes de collecte du lignage

  • Collecte active : Analyser les requêtes SQL et les configurations ETL pour extraire automatiquement les relations de lignage au niveau table/champ
  • Collecte passive : Intercepter les plans d'exécution des moteurs de requête (ex : Hive, Spark) via des Hooks pour enregistrer le lignage en temps réel

Les outils mainstream comme Apache Atlas, DataHub et OpenLineage supportent tous la collecte automatisée du lignage.


4. Gestion des métadonnées : « Les données qui décrivent les données »

Les métadonnées (Metadata) sont des données sur les données. Si les données sont le contenu d'un livre, les métadonnées en sont la table des matières, l'auteur, la date de publication et le numéro ISBN. Sans métadonnées, les données ne sont qu'un ensemble incompréhensible de chiffres et de chaînes de caractères.

Type de métadonnéesDescriptionExemple
Métadonnées techniquesInformations sur le stockage physique des donnéesNom de table, type de champ, partitionnement, emplacement de stockage
Métadonnées métierLa signification métier des donnéesNom français du champ, définition métier, formule de calcul
Métadonnées opérationnellesL'état de fonctionnement des donnéesDurée d'exécution ETL, volume de données, fréquence de mise à jour

L'importance du dictionnaire de données

Le dictionnaire de données est la production la plus fondamentale de la gestion des métadonnées. Un bon dictionnaire de données doit contenir :

  • Nom du champ : Nom en anglais et en français
  • Type de données : VARCHAR(50), INT, DATETIME, etc.
  • Définition métier : Que représente ce champ ? Comment est-il calculé ?
  • Plage de valeurs : Quelles sont les valeurs valides ? Les valeurs nulles sont-elles autorisées ?
  • Responsable : Qui maintient ce champ ? Qui contacter en cas de problème ?

Sans dictionnaire de données, un nouvel arrivant peut mettre une semaine à comprendre le sens d'une table ; avec un dictionnaire de données, 10 minutes suffisent.


5. Architecture en couches des données : ODS → DWD → DWS → ADS

Un entrepôt de données n'empile pas toutes les données en un tas, il les stocke par couches selon leur degré de transformation. Chaque couche a des responsabilités claires ; les couches supérieures dépendent des inférieures et transforment progressivement les données brutes en données exploitables par le métier.

CoucheNom completResponsabilitéCaractéristiques des données
ODSOperational Data StoreSynchronisation à l'identique de la base de données métierLes plus brutes, non transformées
DWDData Warehouse DetailNettoyage, standardisation, dédoublonnageEnregistrements détaillés propres
DWSData Warehouse SummaryAgrégation thématique (jour/semaine/mois)Indicateurs agrégés pré-calculés
ADSApplication Data ServiceOrienté rapports/API spécifiquesDonnées résultats directement utilisables

Pourquoi adopter une architecture en couches ?

  • Réutilisabilité : La couche DWD est nettoyée une fois, toutes les couches supérieures en profitent — évite le nettoyage redondant
  • Découplage : Les modifications de structure des tables métier n'affectent que la couche ODS, sans impact sur les rapports
  • Performance : La couche DWS est pré-agrégée ; les requêtes de rapports lisent directement, sans calcul en temps réel
  • Traçabilité : Chaque couche est conservée ; en cas de problème, on peut investiguer couche par couche

6. Outils et pratiques de gouvernance

OutilPositionnementCapacités clésScénarios d'utilisation
Great ExpectationsQualité des donnéesRègles de validation déclaratives, génération automatique de rapports de qualitéPipelines de données Python
dbtTransformation des donnéesDéveloppement basé sur des modèles SQL, tests intégrés et génération de documentationModélisation DWH
DataHubGestion des métadonnéesCatalogue de données, suivi du lignage, data discoveryGouvernance des données d'entreprise
Apache AtlasGestion des métadonnéesSuivi du lignage dans l'écosystème HadoopPlateformes Big Data
OpenMetadataGestion des métadonnéesCatalogue de données open source, support de multiples sources de donnéesPetites et moyennes équipes
AmundsenDécouverte de donnéesPlateforme de découverte de données par rechercheDémocratisation des données

::: tips Parcours de gouvernance à partir de zéro Si votre équipe n'a pas encore de gouvernance des données, nous recommandons de procéder dans cet ordre :

  1. D'abord créer un dictionnaire de données : Documenter le sens des tables et champs existants (même dans Excel)
  2. Ajouter des contrôles qualité : Intégrer des vérifications de base (valeurs nulles, plages) dans les pipelines de données clés
  3. Unifier les définitions d'indicateurs : Harmoniser les formules de calcul des indicateurs clés comme « DAU », « MAU », « GMV »
  4. Introduire des outils : Quand le coût de la gestion manuelle devient trop élevé, adopter des outils comme DataHub ou dbt
  5. Établir des processus : Les modifications de données nécessitent une revue ; les problèmes de qualité ont des SLA et des alertes :::

Résumé

La gouvernance des données est l'ingénierie systématique qui fait passer les données de « utilisables » à « faciles à utiliser, fiables et traçables ». Ce n'est pas un projet ponctuel, mais un processus d'exploitation continu.

Les points clés de ce chapitre en résumé :

  1. Six dimensions de qualité : Complétude, exactitude, cohérence, actualité, unicité, validité
  2. Quatre piliers de la gouvernance : Organisation, processus, technologie, culture — aucun ne doit manquer
  3. Lignage des données : Suivre l'origine et les flux des données pour soutenir l'analyse d'impact et la recherche de causes
  4. Gestion des métadonnées : Le dictionnaire de données est la production de gouvernance la plus fondamentale et la plus importante
  5. Architecture en couches : ODS → DWD → DWS → ADS, la valeur des données est raffinée couche par couche
  6. Déploiement progressif : Commencer par le dictionnaire de données, puis introduire progressivement outils et processus

Pour aller plus loin

  • DAMA-DMBOK - Data Management Body of Knowledge, la « bible » de la gouvernance des données
  • DataHub - Plateforme open source de gestion des métadonnées par LinkedIn
  • Great Expectations - Framework Python pour la qualité des données
  • dbt - Outil de transformation de données avec tests et documentation intégrés
  • Apache Atlas - Framework de gouvernance des métadonnées pour l'écosystème Hadoop
  • The Data Warehouse Toolkit - Le classique de Kimball sur la modélisation DWH