Skip to content

Gobernanza de datos y calidad de los datos

Prólogo

¿Alguna vez te has encontrado en esta situación: los números de los informes no coinciden con el negocio real, la información de un mismo usuario es diferente en dos sistemas, o los resultados del análisis no son fiables debido a datos sucios? La gobernanza de datos es el método sistemático para resolver estos problemas. En la era de las "decisiones basadas en datos", la calidad de los datos determina directamente la calidad de las decisiones: basura entra, basura sale (Garbage In, Garbage Out).

¿Qué aprenderás en este artículo?

Después de completar este capítulo, obtendrás:

  • Dimensiones de calidad de datos: comprender las seis dimensiones de calidad: integridad, exactitud, consistencia, etc.
  • Sistema de gobernanza de datos: conocer el marco de gobernanza desde la organización, los procesos y la tecnología
  • Linaje de datos: dominar el seguimiento de extremo a extremo desde el origen hasta el consumo
  • Gestión de metadatos: comprender la importancia de "los datos que describen los datos"
  • Arquitectura de capas de datos: dominar el modelo de capas del almacén de datos ODS → DWD → DWS → ADS
  • Capacidad práctica: saber cómo implementar la gobernanza de datos en proyectos
CapítuloContenidoConceptos clave
Capítulo 1Dimensiones de calidad de datosIntegridad, exactitud, consistencia, actualidad
Capítulo 2Marco de gobernanza de datosOrganización, procesos, tecnología, cultura
Capítulo 3Seguimiento del linaje de datosAnálisis de impacto, resolución de problemas, auditoría de cumplimiento
Capítulo 4Gestión de metadatosMetadatos técnicos, metadatos de negocio, metadatos operativos
Capítulo 5Arquitectura de capas de datosODS, DWD, DWS, ADS
Capítulo 6Herramientas y prácticas de gobernanzaGreat Expectations, dbt, DataHub

0. Panorama general: ¿Por qué se necesita la gobernanza de datos?

La gobernanza de datos no es un problema técnico, sino un problema de gestión. Responde a la pregunta central: ¿quién es responsable de los datos? ¿Cuáles son los estándares de los datos? ¿Cómo garantizar que los datos sean continuamente fiables?

Imagina una empresa con 100 tablas de datos, cada una mantenida por equipos distintos, sin convenciones de nomenclatura unificadas, sin diccionario de datos, sin controles de calidad. El resultado: para un mismo indicador como "usuarios activos mensuales", el departamento de marketing calcula 5 millones y el de producto calcula 3 millones — porque las definiciones son diferentes.

Los cuatro pilares de la gobernanza de datos

  1. Organización: definir claramente los roles y responsabilidades del Data Owner y del Data Steward
  2. Procesos: establecer procesos estándar para la incorporación, modificación y retirada de datos
  3. Tecnología: desplegar herramientas de monitorización de calidad, gestión de metadatos y seguimiento de linaje
  4. Cultura: lograr que toda la empresa reconozca que "los datos son un activo", no "un subproducto"

1. Las seis dimensiones de la calidad de los datos

La calidad de los datos no es un concepto difuso, sino que puede medirse desde seis dimensiones concretas. Cada dimensión tiene una definición clara y métodos de detección.

Data Quality Checker
Click a dimension to inspect example data quality issues
📋
Completeness
🎯
Accuracy
🔗
Consistency
Timeliness
🔑
Uniqueness
Validity
📋CompletenessWhether required values are missing
Problem data
User IDNameEmailPhone
001Alicealice@mail.com138xxxx1234
002Bob
003carol@mail.com139xxxx5678
After governance
User IDNameEmailPhone
001Alicealice@mail.com138xxxx1234
002Bobbob@mail.com137xxxx9012
003Carolcarol@mail.com139xxxx5678
Quality score
72%
DimensiónDefiniciónMétodo de detecciónProblemas comunes
Integridad¿Faltan datos?Verificación de tasa de valores nulosCampos obligatorios vacíos, datos asociados faltantes
Exactitud¿Son correctos los datos?Validación por reglas, verificación por muestreoImportes negativos, fechas no válidas
Consistencia¿Los datos de múltiples fuentes coinciden?Comparación entre sistemasNombre de usuario diferente en CRM y sistema de pedidos
Actualidad¿Están los datos actualizados?Verificación de fecha de actualizaciónDatos de inventario rezagados, precios no sincronizados
Unicidad¿Existen registros duplicados?Verificación de duplicadosUn mismo usuario registrado dos veces
Validez¿Cumplen con las reglas de formato?Validación por expresiones regulares/rangosFormato de correo electrónico incorrecto, edad negativa

La regla 1-10-100 de la calidad de datos

  • 1 euro: validar en el punto de entrada, prevenir la entrada de datos sucios
  • 10 euros: limpiar los datos sucios existentes en el almacén de datos
  • 100 euros: pérdidas por decisiones erróneas causadas por datos sucios

Cuanto antes se detecten y corrijan los problemas de calidad, menor será el coste.


2. Marco de gobernanza de datos: Gestión de ciclo de vida completo

La gobernanza de datos no es un proyecto puntual, sino un proceso continuo que abarca todo el ciclo de vida de los datos. Desde la generación hasta la destrucción, cada etapa necesita normas claras y responsables.

Data Governance Framework
Click each stage to inspect the details
1
Define standards
2
Collect and ingest
3
Manage storage
4
Use and consume
5
Archive and destroy
Define standards
Create data standards, naming rules, and data dictionaries
📖
Data dictionary
Define meaning, type, and allowed values for each field
📏
Naming rules
Unify field naming conventions such as snake_case, camelCase, and prefixes
🏷️
Classification
Classify data by sensitivity: public, internal, confidential, restricted
EtapaProducto principalRol clave
Definición de estándaresDiccionario de datos, convenciones de nomenclatura, estándares de clasificaciónArquitecto de datos
Incorporación de datosNormas de integración, reglas de validación, registro de linajeIngeniero de datos
Almacenamiento y gestiónModelo de capas, matriz de permisos, políticas de ciclo de vidaDBA / Ingeniero de plataforma
Uso y consumoCatálogo de datos, reglas de anonimización, informes de calidadAnalista de datos / Unidad de negocio
Archivo y destrucciónPolíticas de archivo, registros de eliminación, logs de auditoríaEquipo de seguridad y cumplimiento

2. Marco de gobernanza de datos

La gobernanza de datos no se resuelve comprando una herramienta; necesita un marco completo que la sustente. El marco de referencia más utilizado en la industria es DAMA-DMBOK (Data Management Body of Knowledge).

Área de gobernanzaContenido principalProducto clave
Arquitectura de datosDefinir modelos de datos, flujos de datos y estrategia de almacenamientoDiagrama de arquitectura de datos, diagrama ER
Estándares de datosConvenciones de nomenclatura unificadas, codificación, definición de indicadoresDiccionario de datos, biblioteca de indicadores
Calidad de datosEstablecer reglas de calidad, alertas de monitorización y procesos de reparaciónInformes de calidad, panel SLA
Seguridad de datosClasificación por niveles, control de acceso, anonimización y cifradoPolíticas de seguridad, logs de auditoría
Gestión de datos maestrosUnificar el "registro dorado" de entidades centrales como clientes y productosCentro de datos maestros
Ciclo de vida de datosGestionar todo el proceso desde la creación hasta el archivo y la destrucciónPolíticas de retención, reglas de archivo

Modelo de madurez de la gobernanza de datos

  • Nivel 1 - Inicial: sin estándares unificados, cada equipo trabaja por su cuenta
  • Nivel 2 - Repetible: hay documentación de normas básica, pero la aplicación es inconsistente
  • Nivel 3 - Definido: existen procesos y herramientas de gobernanza unificados, la mayoría de los equipos los cumplen
  • Nivel 4 - Gestionado: hay indicadores de calidad cuantificables y monitorización automatizada
  • Nivel 5 - Optimizado: mejora continua, la gobernanza de datos se integra en el flujo de desarrollo diario

3. Linaje de datos: ¿De dónde vienen y a dónde van?

El linaje de datos (Data Lineage) registra la ruta completa de transformación de los datos desde su origen hasta su consumo final. Es como el "árbol genealógico" de los datos, que te permite rastrear el origen y destino de cualquier dato.

Data Lineage Tracing
Click any node to inspect upstream and downstream dependencies
Data sources
🗄️
MySQL user table
🗄️
MySQL order table
📝
Click log
ODS layer
📥
ODS users
📥
ODS orders
📥
ODS clicks
DWD layer
🔧
DWD user detail
🔧
DWD order detail
🔧
DWD click detail
DWS layer
📊
DWS user profile
📊
DWS GMV summary
ADS layer
📈
ADS business report

El linaje de datos tiene tres aplicaciones principales en el trabajo real:

EscenarioProblema¿Cómo ayuda el linaje?
Análisis de impactoSi modifico un campo de la tabla de usuarios, ¿qué informes descendentes se verán afectados?Rastrear todas las dependencias aguas abajo
Análisis de causa raízEl informe de GMV de hoy tiene datos anómalos, ¿en qué paso está el problema?Retroceder cada环节 aguas arriba
Auditoría de cumplimiento¿Por qué sistemas ha pasado el número de teléfono del usuario? ¿Se ha anonimizado en todos?Rastrear el flujo completo de campos sensibles

Dos métodos de recopilación de linaje

  • Recopilación activa: analizar sentencias SQL y configuraciones ETL para extraer automáticamente relaciones de linaje a nivel de tabla y campo
  • Recopilación pasiva: interceptar los planes de ejecución de motores de consultas (como Hive, Spark) mediante Hooks, registrando el linaje en tiempo real

Herramientas líderes como Apache Atlas, DataHub y OpenLineage soportan la recopilación automatizada de linaje.


4. Gestión de metadatos: "Los datos que describen los datos"

Los metadatos (Metadata) son datos sobre los datos. Si los datos son el contenido de un libro, los metadatos son su índice, autor, fecha de publicación y número ISBN. Sin metadatos, los datos son simplemente un conjunto de números y cadenas incomprensibles.

Tipo de metadatosDescripciónEjemplo
Metadatos técnicosInformación de almacenamiento físico de los datosNombre de tabla, tipo de campo, método de partición, ubicación de almacenamiento
Metadatos de negocioSignificado de negocio de los datosNombre en chino del campo, definición de negocio, criterio de cálculo
Metadatos operativosEstado de ejecución de los datosTiempo de ejecución ETL, volumen de datos, frecuencia de actualización

Importancia del diccionario de datos

El diccionario de datos es el producto más básico de la gestión de metadatos. Un buen diccionario de datos debería incluir:

  • Nombre del campo: nombre en inglés y nombre en chino
  • Tipo de dato: VARCHAR(50), INT, DATETIME, etc.
  • Definición de negocio: ¿Qué representa este campo? ¿Cómo se calcula?
  • Rango de valores: ¿Cuáles son los valores válidos? ¿Se permiten valores nulos?
  • Responsable: ¿Quién mantiene este campo? ¿A quién acudir si hay problemas?

Sin diccionario de datos, un recién incorporado puede tardar una semana en entender una tabla; con diccionario de datos, le basta con 10 minutos.


5. Arquitectura de capas de datos: ODS → DWD → DWS → ADS

Un almacén de datos no consiste en apilar todos los datos juntos, sino en organizarlos en capas según el grado de procesamiento. Cada capa tiene responsabilidades claras, las capas superiores dependen de las inferiores y se refina progresivamente desde los datos brutos hasta los datos utilizables por el negocio.

CapaNombre completoResponsabilidadCaracterísticas de los datos
ODSCapa de datos operacionalesSincronizar la base de datos de negocio tal cualLos más brutos, sin procesar
DWDCapa de datos detalladosLimpiar, estandarizar y desduplicarRegistros detallados limpios
DWSCapa de datos resumidosAgregar por tema (día/semana/mes)Indicadores agregados precalculados
ADSCapa de datos de aplicaciónOrientada a informes/interfaces específicosDatos de resultados directamente utilizables

¿Por qué dividir en capas?

  • Reutilización: la capa DWD se limpia una vez y todas las capas superiores la comparten, evitando limpiezas duplicadas
  • Desacoplamiento: los cambios en la estructura de tablas de la base de datos de negocio solo afectan la capa ODS, sin impactar los informes
  • Rendimiento: la capa DWS preagrega datos, las consultas de informes leen directamente, sin necesidad de cálculo en tiempo real
  • Trazabilidad: cada capa se conserva, y en caso de problemas se puede investigar capa por capa

6. Herramientas y prácticas de gobernanza

HerramientaPosicionamientoCapacidad principalEscenario de uso
Great ExpectationsCalidad de datosReglas de validación declarativas, informes de calidad automáticosPipelines de datos Python
dbtTransformación de datosDesarrollo modelado en SQL, pruebas integradas y generación de documentaciónModelado de almacén de datos
DataHubGestión de metadatosCatálogo de datos, seguimiento de linaje, descubrimiento de datosGobernanza de datos empresarial
Apache AtlasGestión de metadatosSeguimiento de linaje del ecosistema HadoopPlataformas de Big Data
OpenMetadataGestión de metadatosCatálogo de datos de código abierto, soporte para múltiples fuentesEquipos pequeños y medianos
AmundsenDescubrimiento de datosPlataforma de descubrimiento de datos basada en búsquedaDemocratización de datos

Ruta de gobernanza desde cero

Si tu equipo aún no tiene gobernanza de datos, se recomienda avanzar en este orden:

  1. Crear primero un diccionario de datos: documentar las tablas existentes y el significado de sus campos (aunque sea en Excel)
  2. Añadir controles de calidad: incorporar validaciones básicas de nulos y rangos en los pipelines de datos críticos
  3. Unificar las definiciones de indicadores: estandarizar los criterios de cálculo de indicadores clave como "DAU", "MAU", "GMV"
  4. Introducir herramientas: cuando el coste de gestión manual sea demasiado alto, incorporar herramientas como DataHub o dbt
  5. Establecer procesos: los cambios de datos deben pasar por revisión, y los problemas de calidad deben tener SLA y alertas

Resumen

La gobernanza de datos es la ingeniería sistemática que transforma los datos de "utilizables" a "excelentes, fiables y rastreables". No es un proyecto puntual, sino un proceso de operación continua.

Repaso de los puntos clave de este capítulo:

  1. Seis dimensiones de calidad: integridad, exactitud, consistencia, actualidad, unicidad y validez
  2. Cuatro pilares de la gobernanza: organización, procesos, tecnología y cultura son indispensables
  3. Linaje de datos: rastrear el origen y destino de los datos, respaldando el análisis de impacto y la resolución de problemas
  4. Gestión de metadatos: el diccionario de datos es el producto de gobernanza más básico y más importante
  5. Arquitectura de capas: ODS → DWD → DWS → ADS, refinando progresivamente el valor de los datos
  6. Implementación gradual: empezar con el diccionario de datos e ir incorporando herramientas y procesos

Lecturas adicionales

  • DAMA-DMBOK - Cuerpo de conocimiento de gestión de datos, la "biblia" de la gobernanza de datos
  • DataHub - Plataforma de gestión de metadatos de código abierto de LinkedIn
  • Great Expectations - Framework de calidad de datos en Python
  • dbt - Herramienta de transformación de datos con pruebas y documentación integradas
  • Apache Atlas - Framework de gobernanza de metadatos del ecosistema Hadoop
  • The Data Warehouse Toolkit - Clásico de modelado de almacenes de datos de Kimball