Skip to content

数据治理与数据质量

前言

你有没有遇到过这种情况:报表上的数字和实际业务对不上,两个系统里同一个用户的信息不一样,或者分析结果因为脏数据完全不可信? 数据治理就是解决这些问题的系统性方法。在"数据驱动决策"的时代,数据质量直接决定了决策质量——垃圾进,垃圾出(Garbage In, Garbage Out)。

这篇文章会带你学什么?

学完这章后,你将获得:

  • 数据质量维度:理解完整性、准确性、一致性等六大质量维度
  • 数据治理体系:了解从组织、流程到技术的治理框架
  • 数据血缘:掌握数据从源头到消费的全链路追踪
  • 元数据管理:理解"描述数据的数据"的重要性
  • 数据分层架构:掌握 ODS → DWD → DWS → ADS 的数仓分层模型
  • 实战能力:知道如何在项目中落地数据治理
章节内容核心概念
第 1 章数据质量维度完整性、准确性、一致性、时效性
第 2 章数据治理框架组织、流程、技术、文化
第 3 章数据血缘追踪影响分析、问题排查、合规审计
第 4 章元数据管理技术元数据、业务元数据、操作元数据
第 5 章数据分层架构ODS、DWD、DWS、ADS
第 6 章治理工具与实践Great Expectations、dbt、DataHub

0. 全景图:为什么需要数据治理?

数据治理不是一个技术问题,而是一个管理问题。它回答的核心问题是:谁对数据负责?数据的标准是什么?如何保证数据持续可信?

想象一个公司有 100 个数据表,每个表由不同团队维护,没有统一的命名规范、没有数据字典、没有质量检查。结果就是:同一个"月活用户"指标,市场部算出来 500 万,产品部算出来 300 万——因为定义不一样。

数据治理的四个支柱

  1. 组织:明确数据 Owner、数据管家(Data Steward)的角色和职责
  2. 流程:建立数据接入、变更、下线的标准流程
  3. 技术:部署数据质量监控、元数据管理、血缘追踪等工具
  4. 文化:让全公司认同"数据是资产",而不是"数据是副产品"

1. 数据质量的六个维度

数据质量不是一个模糊的概念,而是可以从六个具体维度来衡量的。每个维度都有明确的定义和检测方法。

数据质量检测器
点击不同维度,查看数据质量问题示例
📋
完整性
🎯
准确性
🔗
一致性
时效性
🔑
唯一性
有效性
📋完整性数据是否存在缺失值
问题数据
用户ID姓名邮箱手机号
001张三zhang@mail.com138xxxx1234
002李四
003wang@mail.com139xxxx5678
治理后
用户ID姓名邮箱手机号
001张三zhang@mail.com138xxxx1234
002李四li@mail.com137xxxx9012
003王五wang@mail.com139xxxx5678
质量评分
72%
维度定义检测方法常见问题
完整性数据是否存在缺失空值率检查必填字段为空、关联数据缺失
准确性数据是否正确规则校验、抽样核对金额为负、日期不合法
一致性多源数据是否一致跨系统比对CRM 和订单系统用户名不同
时效性数据是否及时更新更新时间检查库存数据滞后、价格未同步
唯一性是否存在重复记录去重检查同一用户注册两次
有效性是否符合格式规则正则/范围校验邮箱格式错误、年龄为负数

数据质量的 1-10-100 法则

  • 1 元:在数据入口做校验,预防脏数据进入
  • 10 元:在数据仓库中清洗已有的脏数据
  • 100 元:因为脏数据导致错误决策的损失

越早发现和修复数据质量问题,成本越低。


2. 数据治理框架:全生命周期管理

数据治理不是一次性项目,而是贯穿数据全生命周期的持续过程。从数据的产生到销毁,每个阶段都需要明确的规范和责任人。

数据治理框架
点击各阶段查看详情
1
定义标准
2
采集接入
3
存储管理
4
使用消费
5
归档销毁
定义标准
制定数据标准、命名规范、数据字典
📖
数据字典
定义每个字段的含义、类型、取值范围
📏
命名规范
统一字段命名:snake_case、驼峰、前缀约定
🏷️
分类分级
按敏感度分级:公开、内部、机密、绝密
阶段核心产出关键角色
定义标准数据字典、命名规范、分类分级标准数据架构师
采集接入接入规范、校验规则、血缘记录数据工程师
存储管理分层模型、权限矩阵、生命周期策略DBA / 平台工程师
使用消费数据目录、脱敏规则、质量报告数据分析师 / 业务方
归档销毁归档策略、删除记录、审计日志安全合规团队

2. 数据治理框架

数据治理不是买一个工具就能解决的,它需要一套完整的框架来支撑。业界最常用的参考框架是 DAMA-DMBOK(数据管理知识体系)。

治理领域核心内容关键产出
数据架构定义数据模型、数据流、存储策略数据架构图、ER 图
数据标准统一命名规范、编码规范、指标定义数据字典、指标库
数据质量建立质量规则、监控告警、修复流程质量报告、SLA 仪表盘
数据安全分级分类、访问控制、脱敏加密安全策略、审计日志
主数据管理统一客户、商品等核心实体的"黄金记录"主数据中心
数据生命周期管理数据从创建到归档到销毁的全过程保留策略、归档规则

数据治理的成熟度模型

  • Level 1 - 初始级:没有统一标准,各团队各自为政
  • Level 2 - 可重复级:有基本的规范文档,但执行不一致
  • Level 3 - 已定义级:有统一的治理流程和工具,大部分团队遵守
  • Level 4 - 已管理级:有量化的质量指标和自动化监控
  • Level 5 - 优化级:持续改进,数据治理融入日常开发流程

3. 数据血缘:从哪来,到哪去

数据血缘(Data Lineage)记录了数据从源头到最终消费的完整流转路径。它就像数据的"族谱",让你能追溯任何一个数据的来龙去脉。

数据血缘追踪
点击任意节点,查看上下游依赖关系
数据源
🗄️
MySQL 用户表
🗄️
MySQL 订单表
📝
点击日志
ODS 层
📥
ODS 用户
📥
ODS 订单
📥
ODS 点击
DWD 层
🔧
DWD 用户明细
🔧
DWD 订单明细
🔧
DWD 点击明细
DWS 层
📊
DWS 用户画像
📊
DWS GMV 汇总
ADS 层
📈
ADS 经营报表

数据血缘在实际工作中有三个核心应用场景:

场景问题血缘如何帮助
影响分析要修改用户表的字段,会影响哪些下游报表?沿血缘向下追踪所有依赖
根因定位今天的 GMV 报表数据异常,问题出在哪一步?沿血缘向上回溯每个环节
合规审计用户的手机号经过了哪些系统?是否都做了脱敏?追踪敏感字段的全链路流转

血缘采集的两种方式

  • 主动采集:解析 SQL 语句、ETL 配置,自动提取表级/字段级血缘关系
  • 被动采集:通过 Hook 拦截查询引擎(如 Hive、Spark)的执行计划,实时记录血缘

主流工具如 Apache Atlas、DataHub、OpenLineage 都支持自动化血缘采集。


4. 元数据管理:"描述数据的数据"

元数据(Metadata)是关于数据的数据。如果数据是一本书的内容,元数据就是书的目录、作者、出版日期、ISBN 号。没有元数据,数据就是一堆无法理解的数字和字符串。

元数据类型描述示例
技术元数据数据的物理存储信息表名、字段类型、分区方式、存储位置
业务元数据数据的业务含义字段中文名、业务定义、计算口径
操作元数据数据的运行状态ETL 执行时间、数据量、更新频率

数据字典的重要性

数据字典是元数据管理最基础的产出。一个好的数据字典应该包含:

  • 字段名:英文名和中文名
  • 数据类型:VARCHAR(50)、INT、DATETIME 等
  • 业务定义:这个字段代表什么?怎么计算的?
  • 取值范围:有效值是什么?空值是否允许?
  • 负责人:谁维护这个字段?有问题找谁?

没有数据字典的团队,新人入职后理解一张表的含义可能需要一周;有数据字典的团队,10 分钟就够了。


5. 数据分层架构:ODS → DWD → DWS → ADS

数据仓库不是把所有数据堆在一起,而是按照加工程度分层存储。每一层有明确的职责,上层依赖下层,逐步从原始数据提炼为业务可用的数据。

层级全称职责数据特点
ODS操作数据层原样同步业务数据库最原始,未经处理
DWD明细数据层清洗、标准化、去重干净的明细记录
DWS汇总数据层按主题聚合(日/周/月)预计算的聚合指标
ADS应用数据层面向具体报表/接口直接可用的结果数据

为什么要分层?

  • 复用:DWD 层清洗一次,所有上层共享,避免重复清洗
  • 解耦:业务库表结构变更只影响 ODS 层,不会波及报表
  • 性能:DWS 层预聚合,报表查询直接读取,不需要实时计算
  • 可追溯:每一层都保留,出问题时可以逐层排查

6. 治理工具与实践

工具定位核心能力适用场景
Great Expectations数据质量声明式数据校验规则,自动生成质量报告Python 数据管道
dbt数据转换SQL 模型化开发,内置测试和文档生成数仓建模
DataHub元数据管理数据目录、血缘追踪、数据发现企业级数据治理
Apache Atlas元数据管理Hadoop 生态血缘追踪大数据平台
OpenMetadata元数据管理开源数据目录,支持多种数据源中小团队
Amundsen数据发现搜索式数据发现平台数据民主化

从零开始的治理路径

如果你的团队还没有数据治理,建议按这个顺序推进:

  1. 先建数据字典:把现有的表和字段含义记录下来(哪怕用 Excel)
  2. 加质量检查:在关键数据管道中加入基本的空值、范围校验
  3. 统一指标定义:把"日活""月活""GMV"等核心指标的计算口径统一
  4. 引入工具:当手动管理成本太高时,引入 DataHub 或 dbt 等工具
  5. 建立流程:数据变更需要评审,质量问题有 SLA 和告警

总结

数据治理是让数据从"能用"变成"好用、可信、可追溯"的系统性工程。它不是一次性项目,而是持续运营的过程。

回顾本章的关键要点:

  1. 六大质量维度:完整性、准确性、一致性、时效性、唯一性、有效性
  2. 治理四支柱:组织、流程、技术、文化缺一不可
  3. 数据血缘:追踪数据的来龙去脉,支撑影响分析和问题排查
  4. 元数据管理:数据字典是最基础也最重要的治理产出
  5. 分层架构:ODS → DWD → DWS → ADS,逐层提炼数据价值
  6. 渐进式落地:从数据字典开始,逐步引入工具和流程

延伸阅读