데이터 거버넌스와 데이터 품질
서문
이런 경험이 있으신가요? 보고서의 숫자가 실제 비즈니스와 맞지 않고, 두 시스템에서 같은 사용자의 정보가 다르거나, 더러운 데이터로 인해 분석 결과를 전혀 신뢰할 수 없는 경우? 데이터 거버넌스는 바로 이러한 문제를 해결하는 체계적인 방법입니다. "데이터 기반 의사결정" 시대에 데이터 품질은 의사결정 품질을 직접적으로 결정합니다 — 가비지 인, 가비지 아웃(Garbage In, Garbage Out).
이 글에서 무엇을 배우게 될까요?
이 장을 마치면 다음을 얻게 됩니다:
- 데이터 품질 차원: 완전성, 정확성, 일관성 등 6대 품질 차원 이해
- 데이터 거버넌스 체계: 조직, 프로세스, 기술의 거버넌스 프레임워크 이해
- 데이터 계보: 소스부터 소비까지의 전체 경로 추적 파악
- 메타데이터 관리: "데이터를 설명하는 데이터"의 중요성 이해
- 데이터 계층 아키텍처: ODS → DWD → DWS → ADS 데이터 웨어하우스 계층 모델 파악
- 실무 역량: 프로젝트에서 데이터 거버넌스를 구현하는 방법 습득
| 장 | 내용 | 핵심 개념 |
|---|---|---|
| 제 1장 | 데이터 품질 차원 | 완전성, 정확성, 일관성, 적시성 |
| 제 2장 | 데이터 거버넌스 프레임워크 | 조직, 프로세스, 기술, 문화 |
| 제 3장 | 데이터 계보 추적 | 영향 분석, 문제 조사, 규정 준수 감사 |
| 제 4장 | 메타데이터 관리 | 기술 메타데이터, 비즈니스 메타데이터, 운영 메타데이터 |
| 제 5장 | 데이터 계층 아키텍처 | ODS, DWD, DWS, ADS |
| 제 6장 | 거버넌스 도구와 실무 | Great Expectations, dbt, DataHub |
0. 전체 그림: 왜 데이터 거버넌스가 필요한가?
데이터 거버넌스는 기술적 문제가 아니라 관리 문제입니다. 핵심 질문에 답합니다: 누가 데이터에 책임지는가? 데이터의 기준은 무엇인가? 어떻게 데이터의 지속적 신뢰성을 보장하는가?
한 회사에 100개의 데이터 테이블이 있고, 각 테이블을 다른 팀이 관리하며, 통일된 명명 규칙, 데이터 사전, 품질 검사가 없다고 상상해 보세요. 결과적으로 같은 "월간 활성 사용자" 지표도 마케팅 부서는 500만 명으로, 제품 부서는 300만 명으로 계산합니다 — 정의가 다르기 때문입니다.
데이터 거버넌스의 네 기둥
- 조직: 데이터 Owner, 데이터 관리자(Data Steward)의 역할과 책임 명확화
- 프로세스: 데이터 수집, 변경, 폐지의 표준 프로세스 구축
- 기술: 데이터 품질 모니터링, 메타데이터 관리, 계보 추적 등의 도구 배포
- 문화: 전사적으로 "데이터는 자산"이라는 인식 확산, "데이터는 부산물"이라는 인식 전환
1. 데이터 품질의 6가지 차원
데이터 품질은 모호한 개념이 아니라 6가지 구체적 차원에서 측정할 수 있습니다. 각 차원에는 명확한 정의와 검출 방법이 있습니다.
| User ID | Name | Phone | |
|---|---|---|---|
| 001 | Alice | alice@mail.com | 138xxxx1234 |
| 002 | Bob | ||
| 003 | carol@mail.com | 139xxxx5678 |
| User ID | Name | Phone | |
|---|---|---|---|
| 001 | Alice | alice@mail.com | 138xxxx1234 |
| 002 | Bob | bob@mail.com | 137xxxx9012 |
| 003 | Carol | carol@mail.com | 139xxxx5678 |
| 차원 | 정의 | 검출 방법 | 일반적인 문제 |
|---|---|---|---|
| 완전성 | 데이터에 누락이 있는지 | 결측치 비율 확인 | 필수 필드가 비어 있음, 연관 데이터 누락 |
| 정확성 | 데이터가 올바른지 | 규칙 검증, 샘플링 대조 | 금액이 음수, 날짜가 유효하지 않음 |
| 일관성 | 다중 소스 데이터가 일치하는지 | 시스템 간 비교 | CRM과 주문 시스템의 사용자명 불일치 |
| 적시성 | 데이터가 제때 업데이트되는지 | 업데이트 시간 확인 | 재고 데이터 지연, 가격 미동기화 |
| 유일성 | 중복 기록이 있는지 | 중복 제거 확인 | 같은 사용자가 두 번 가입 |
| 유효성 | 형식 규칙을 준수하는지 | 정규식/범위 검증 | 이메일 형식 오류, 나이가 음수 |
데이터 품질의 1-10-100 법칙
- 1원: 데이터 입력 단계에서 검증하여 더러운 데이터의 유입을 예방
- 10원: 데이터 웨어하우스에서 기존 더러운 데이터를 정제
- 100원: 더러운 데이터로 인한 잘못된 의사결정의 손실
데이터 품질 문제를 조기에 발견하고 수정할수록 비용이 낮아집니다.
2. 데이터 거버넌스 프레임워크: 전체 라이프사이클 관리
데이터 거버넌스는 일회성 프로젝트가 아니라 데이터의 전체 라이프사이클에 걸친 지속적 과정입니다. 데이터 생성부터 폐기까지 각 단계에 명확한 규범과 책임자가 필요합니다.
| 단계 | 핵심 산출물 | 주요 역할 |
|---|---|---|
| 표준 정의 | 데이터 사전, 명명 규칙, 분류 등급 기준 | 데이터 아키텍트 |
| 수집 연동 | 연동 규범, 검증 규칙, 계보 기록 | 데이터 엔지니어 |
| 저장 관리 | 계층 모델, 권한 매트릭스, 라이프사이클 정책 | DBA / 플랫폼 엔지니어 |
| 사용 소비 | 데이터 카탈로그, 마스킹 규칙, 품질 보고서 | 데이터 분석가 / 비즈니스 담당자 |
| 보관 폐기 | 보관 전략, 삭제 기록, 감사 로그 | 보안 규정 준수 팀 |
2. 데이터 거버넌스 프레임워크
데이터 거버넌스는 도구 하나를 구매한다고 해결되지 않습니다. 이를 지탱하는 완전한 프레임워크가 필요합니다. 업계에서 가장 널리 사용되는 참조 프레임워크는 DAMA-DMBOK(데이터 관리 지식체계)입니다.
| 거버넌스 영역 | 핵심 내용 | 주요 산출물 |
|---|---|---|
| 데이터 아키텍처 | 데이터 모델, 데이터 흐름, 저장 전략 정의 | 데이터 아키텍처 다이어그램, ER 다이어그램 |
| 데이터 표준 | 통일된 명명 규칙, 인코딩 규칙, 지표 정의 | 데이터 사전, 지표 라이브러리 |
| 데이터 품질 | 품질 규칙, 모니터링 알림, 수정 프로세스 구축 | 품질 보고서, SLA 대시보드 |
| 데이터 보안 | 등급 분류, 접근 제어, 마스킹 암호화 | 보안 정책, 감사 로그 |
| 마스터 데이터 관리 | 고객, 상품 등 핵심 엔티티의 "골든 레코드" 통합 | 마스터 데이터 센터 |
| 데이터 라이프사이클 | 데이터 생성부터 보관, 폐기까지의 전체 과정 관리 | 보유 정책, 보관 규칙 |
데이터 거버넌스의 성숙도 모델
- Level 1 - 초기: 통일된 표준이 없고 각 팀이 독자적으로 운영
- Level 2 - 반복 가능: 기본적인 규범 문서가 있으나 실행이 일관되지 않음
- Level 3 - 정의됨: 통일된 거버넌스 프로세스와 도구가 있고 대부분의 팀이 준수
- Level 4 - 관리됨: 정량적 품질 지표와 자동화된 모니터링이 있음
- Level 5 - 최적화됨: 지속적 개선, 데이터 거버넌스가 일상 개발 프로세스에 통합됨
3. 데이터 계보: 어디서 왔고, 어디로 가는가
데이터 계보(Data Lineage)는 데이터가 소스부터 최종 소비까지의 완전한 이동 경로를 기록합니다. 데이터의 "족보"와 같아, 어떤 데이터든 출처와 연결을 추적할 수 있게 해줍니다.
데이터 계보는 실무에서 세 가지 핵심 적용 시나리오가 있습니다:
| 시나리오 | 문제 | 계보가 어떻게 도움이 되는가 |
|---|---|---|
| 영향 분석 | 사용자 테이블의 필드를 수정하면 어떤 하위 보고서에 영향을 미치는가? | 계보를 따라 모든 종속성 추적 |
| 근본 원인 파악 | 오늘 GMV 보고서 데이터가 비정상인데 어느 단계에서 문제가 발생했는가? | 계보를 따라 각 단계별 역추적 |
| 규정 준수 감사 | 사용자의 휴대전화 번호가 어떤 시스템을 거쳤는가? 모두 마스킹되었는가? | 민감 필드의 전체 경로 이동 추적 |
계보 수집의 두 가지 방식
- 능동 수집: SQL 문, ETL 설정을 파싱하여 테이블/필드 수준의 계보 관계를 자동 추출
- 수동 수집: Hook을 통해 쿼리 엔진(예: Hive, Spark)의 실행 계획을 가로채 실시간으로 계보 기록
Apache Atlas, DataHub, OpenLineage 등 주류 도구는 모두 자동화된 계보 수집을 지원합니다.
4. 메타데이터 관리: "데이터를 설명하는 데이터"
메타데이터(Metadata)는 데이터에 대한 데이터입니다. 데이터가 책의 내용이라면, 메타데이터는 책의 목차, 저자, 출판일, ISBN 번호입니다. 메타데이터 없이 데이터는 이해할 수 없는 숫자와 문자열의 묶음입니다.
| 메타데이터 유형 | 설명 | 예시 |
|---|---|---|
| 기술 메타데이터 | 데이터의 물리적 저장 정보 | 테이블명, 필드 유형, 파티션 방식, 저장 위치 |
| 비즈니스 메타데이터 | 데이터의 비즈니스 의미 | 필드의 한국어명, 비즈니스 정의, 산정 기준 |
| 운영 메타데이터 | 데이터의 운영 상태 | ETL 실행 시간, 데이터량, 업데이트 빈도 |
데이터 사전의 중요성
데이터 사전은 메타데이터 관리의 가장 기본적인 산출물입니다. 좋은 데이터 사전에는 다음이 포함되어야 합니다:
- 필드명: 영문명과 한국어명
- 데이터 유형: VARCHAR(50), INT, DATETIME 등
- 비즈니스 정의: 이 필드는 무엇을 나타내는가? 어떻게 계산되는가?
- 값 범위: 유효한 값은 무엇인가? 결측치가 허용되는가?
- 담당자: 이 필드를 누가 관리하는가? 문제가 있으면 누구에게 연락하는가?
데이터 사전이 없는 팀은 신규 입사자가 한 테이블의 의미를 이해하는 데 1주일이 걸릴 수 있습니다. 데이터 사전이 있는 팀은 10분이면 충분합니다.
5. 데이터 계층 아키텍처: ODS → DWD → DWS → ADS
데이터 웨어하우스는 모든 데이터를 한곳에 쌓는 것이 아니라 가공 정도에 따라 계층별로 저장합니다. 각 계층에 명확한 책임이 있고, 상위 계층은 하위 계층에 의존하며, 원시 데이터에서 비즈니스 활용 가능한 데이터로 점진적으로 정제됩니다.
| 계층 | 전체 명칭 | 책임 | 데이터 특징 |
|---|---|---|---|
| ODS | 운영 데이터 계층 | 비즈니스 데이터베이스를 그대로 동기화 | 가장 원시적, 미가공 |
| DWD | 상세 데이터 계층 | 정제, 표준화, 중복 제거 | 깨끗한 상세 기록 |
| DWS | 집계 데이터 계층 | 주제별 집계(일/주/월) | 사전 계산된 집계 지표 |
| ADS | 응용 데이터 계층 | 특정 보고서/API 지향 | 바로 사용 가능한 결과 데이터 |
왜 계층화해야 하는가?
- 재사용: DWD 계층에서 한 번 정제하면 모든 상위 계층이 공유하여 중복 정제 방지
- 분리: 비즈니스 DB 테이블 구조 변경이 ODS 계층에만 영향, 보고서에는 파급되지 않음
- 성능: DWS 계층에서 사전 집계하여 보고서 쿼리가 실시간 계산 없이 직접 읽기
- 추적 가능: 각 계층이 모두 보존되어 문제 발생 시 계층별 점검 가능
6. 거버넌스 도구와 실무
| 도구 | 포지션 | 핵심 역량 | 적용 시나리오 |
|---|---|---|---|
| Great Expectations | 데이터 품질 | 선언적 데이터 검증 규칙, 품질 보고서 자동 생성 | Python 데이터 파이프라인 |
| dbt | 데이터 변환 | SQL 모델 기반 개발, 내장 테스트 및 문서 생성 | 데이터 웨어하우스 모델링 |
| DataHub | 메타데이터 관리 | 데이터 카탈로그, 계보 추적, 데이터 디스커버리 | 엔터프라이즈급 데이터 거버넌스 |
| Apache Atlas | 메타데이터 관리 | Hadoop 생태계 계보 추적 | 빅데이터 플랫폼 |
| OpenMetadata | 메타데이터 관리 | 오픈소스 데이터 카탈로그, 다양한 데이터 소스 지원 | 중소 팀 |
| Amundsen | 데이터 디스커버리 | 검색 기반 데이터 디스커버리 플랫폼 | 데이터 민주화 |
제로에서 시작하는 거버넌스 경로
팀에 아직 데이터 거버넌스가 없다면 다음 순서로 추진하는 것을 권장합니다:
- 먼저 데이터 사전 구축: 기존 테이블과 필드의 의미를 기록 (Excel이라도 좋습니다)
- 품질 검사 추가: 핵심 데이터 파이프라인에 기본적인 결측치, 범위 검증 추가
- 지표 정의 통일: "일간 활성", "월간 활성", "GMV" 등 핵심 지표의 산정 기준 통일
- 도구 도입: 수동 관리 비용이 너무 높아지면 DataHub나 dbt 등의 도구 도입
- 프로세스 구축: 데이터 변경 시 검토 필요, 품질 문제에 대한 SLA 및 알림 설정
요약
데이터 거버넌스는 데이터를 "사용 가능"에서 "사용하기 좋고, 신뢰할 수 있으며, 추적 가능한" 상태로 만드는 체계적 엔지니어링입니다. 일회성 프로젝트가 아니라 지속적인 운영 과정입니다.
이 장의 핵심 포인트를 되돌아보면:
- 6대 품질 차원: 완전성, 정확성, 일관성, 적시성, 유일성, 유효성
- 거버넌스 네 기둥: 조직, 프로세스, 기술, 문화가 모두 필요
- 데이터 계보: 데이터의 출처와 흐름을 추적하여 영향 분석과 문제 조사를 지원
- 메타데이터 관리: 데이터 사전은 가장 기본적이면서도 가장 중요한 거버넌스 산출물
- 계층 아키텍처: ODS → DWD → DWS → ADS, 계층별로 데이터 가치 정제
- 점진적 구현: 데이터 사전부터 시작하여 점진적으로 도구와 프로세스 도입
추가 읽기
- DAMA-DMBOK - 데이터 관리 지식체계, 데이터 거버넌스의 "바이블"
- DataHub - LinkedIn 오픈소스 메타데이터 관리 플랫폼
- Great Expectations - Python 데이터 품질 프레임워크
- dbt - 데이터 변환 도구, 내장 테스트 및 문서 제공
- Apache Atlas - Hadoop 생태계의 메타데이터 거버넌스 프레임워크
- The Data Warehouse Toolkit - Kimball 데이터 웨어하우스 모델링 고전