Skip to content

데이터 거버넌스와 데이터 품질

서문

이런 경험이 있으신가요? 보고서의 숫자가 실제 비즈니스와 맞지 않고, 두 시스템에서 같은 사용자의 정보가 다르거나, 더러운 데이터로 인해 분석 결과를 전혀 신뢰할 수 없는 경우? 데이터 거버넌스는 바로 이러한 문제를 해결하는 체계적인 방법입니다. "데이터 기반 의사결정" 시대에 데이터 품질은 의사결정 품질을 직접적으로 결정합니다 — 가비지 인, 가비지 아웃(Garbage In, Garbage Out).

이 글에서 무엇을 배우게 될까요?

이 장을 마치면 다음을 얻게 됩니다:

  • 데이터 품질 차원: 완전성, 정확성, 일관성 등 6대 품질 차원 이해
  • 데이터 거버넌스 체계: 조직, 프로세스, 기술의 거버넌스 프레임워크 이해
  • 데이터 계보: 소스부터 소비까지의 전체 경로 추적 파악
  • 메타데이터 관리: "데이터를 설명하는 데이터"의 중요성 이해
  • 데이터 계층 아키텍처: ODS → DWD → DWS → ADS 데이터 웨어하우스 계층 모델 파악
  • 실무 역량: 프로젝트에서 데이터 거버넌스를 구현하는 방법 습득
내용핵심 개념
제 1장데이터 품질 차원완전성, 정확성, 일관성, 적시성
제 2장데이터 거버넌스 프레임워크조직, 프로세스, 기술, 문화
제 3장데이터 계보 추적영향 분석, 문제 조사, 규정 준수 감사
제 4장메타데이터 관리기술 메타데이터, 비즈니스 메타데이터, 운영 메타데이터
제 5장데이터 계층 아키텍처ODS, DWD, DWS, ADS
제 6장거버넌스 도구와 실무Great Expectations, dbt, DataHub

0. 전체 그림: 왜 데이터 거버넌스가 필요한가?

데이터 거버넌스는 기술적 문제가 아니라 관리 문제입니다. 핵심 질문에 답합니다: 누가 데이터에 책임지는가? 데이터의 기준은 무엇인가? 어떻게 데이터의 지속적 신뢰성을 보장하는가?

한 회사에 100개의 데이터 테이블이 있고, 각 테이블을 다른 팀이 관리하며, 통일된 명명 규칙, 데이터 사전, 품질 검사가 없다고 상상해 보세요. 결과적으로 같은 "월간 활성 사용자" 지표도 마케팅 부서는 500만 명으로, 제품 부서는 300만 명으로 계산합니다 — 정의가 다르기 때문입니다.

데이터 거버넌스의 네 기둥

  1. 조직: 데이터 Owner, 데이터 관리자(Data Steward)의 역할과 책임 명확화
  2. 프로세스: 데이터 수집, 변경, 폐지의 표준 프로세스 구축
  3. 기술: 데이터 품질 모니터링, 메타데이터 관리, 계보 추적 등의 도구 배포
  4. 문화: 전사적으로 "데이터는 자산"이라는 인식 확산, "데이터는 부산물"이라는 인식 전환

1. 데이터 품질의 6가지 차원

데이터 품질은 모호한 개념이 아니라 6가지 구체적 차원에서 측정할 수 있습니다. 각 차원에는 명확한 정의와 검출 방법이 있습니다.

Data Quality Checker
Click a dimension to inspect example data quality issues
📋
Completeness
🎯
Accuracy
🔗
Consistency
Timeliness
🔑
Uniqueness
Validity
📋CompletenessWhether required values are missing
Problem data
User IDNameEmailPhone
001Alicealice@mail.com138xxxx1234
002Bob
003carol@mail.com139xxxx5678
After governance
User IDNameEmailPhone
001Alicealice@mail.com138xxxx1234
002Bobbob@mail.com137xxxx9012
003Carolcarol@mail.com139xxxx5678
Quality score
72%
차원정의검출 방법일반적인 문제
완전성데이터에 누락이 있는지결측치 비율 확인필수 필드가 비어 있음, 연관 데이터 누락
정확성데이터가 올바른지규칙 검증, 샘플링 대조금액이 음수, 날짜가 유효하지 않음
일관성다중 소스 데이터가 일치하는지시스템 간 비교CRM과 주문 시스템의 사용자명 불일치
적시성데이터가 제때 업데이트되는지업데이트 시간 확인재고 데이터 지연, 가격 미동기화
유일성중복 기록이 있는지중복 제거 확인같은 사용자가 두 번 가입
유효성형식 규칙을 준수하는지정규식/범위 검증이메일 형식 오류, 나이가 음수

데이터 품질의 1-10-100 법칙

  • 1원: 데이터 입력 단계에서 검증하여 더러운 데이터의 유입을 예방
  • 10원: 데이터 웨어하우스에서 기존 더러운 데이터를 정제
  • 100원: 더러운 데이터로 인한 잘못된 의사결정의 손실

데이터 품질 문제를 조기에 발견하고 수정할수록 비용이 낮아집니다.


2. 데이터 거버넌스 프레임워크: 전체 라이프사이클 관리

데이터 거버넌스는 일회성 프로젝트가 아니라 데이터의 전체 라이프사이클에 걸친 지속적 과정입니다. 데이터 생성부터 폐기까지 각 단계에 명확한 규범과 책임자가 필요합니다.

Data Governance Framework
Click each stage to inspect the details
1
Define standards
2
Collect and ingest
3
Manage storage
4
Use and consume
5
Archive and destroy
Define standards
Create data standards, naming rules, and data dictionaries
📖
Data dictionary
Define meaning, type, and allowed values for each field
📏
Naming rules
Unify field naming conventions such as snake_case, camelCase, and prefixes
🏷️
Classification
Classify data by sensitivity: public, internal, confidential, restricted
단계핵심 산출물주요 역할
표준 정의데이터 사전, 명명 규칙, 분류 등급 기준데이터 아키텍트
수집 연동연동 규범, 검증 규칙, 계보 기록데이터 엔지니어
저장 관리계층 모델, 권한 매트릭스, 라이프사이클 정책DBA / 플랫폼 엔지니어
사용 소비데이터 카탈로그, 마스킹 규칙, 품질 보고서데이터 분석가 / 비즈니스 담당자
보관 폐기보관 전략, 삭제 기록, 감사 로그보안 규정 준수 팀

2. 데이터 거버넌스 프레임워크

데이터 거버넌스는 도구 하나를 구매한다고 해결되지 않습니다. 이를 지탱하는 완전한 프레임워크가 필요합니다. 업계에서 가장 널리 사용되는 참조 프레임워크는 DAMA-DMBOK(데이터 관리 지식체계)입니다.

거버넌스 영역핵심 내용주요 산출물
데이터 아키텍처데이터 모델, 데이터 흐름, 저장 전략 정의데이터 아키텍처 다이어그램, ER 다이어그램
데이터 표준통일된 명명 규칙, 인코딩 규칙, 지표 정의데이터 사전, 지표 라이브러리
데이터 품질품질 규칙, 모니터링 알림, 수정 프로세스 구축품질 보고서, SLA 대시보드
데이터 보안등급 분류, 접근 제어, 마스킹 암호화보안 정책, 감사 로그
마스터 데이터 관리고객, 상품 등 핵심 엔티티의 "골든 레코드" 통합마스터 데이터 센터
데이터 라이프사이클데이터 생성부터 보관, 폐기까지의 전체 과정 관리보유 정책, 보관 규칙

데이터 거버넌스의 성숙도 모델

  • Level 1 - 초기: 통일된 표준이 없고 각 팀이 독자적으로 운영
  • Level 2 - 반복 가능: 기본적인 규범 문서가 있으나 실행이 일관되지 않음
  • Level 3 - 정의됨: 통일된 거버넌스 프로세스와 도구가 있고 대부분의 팀이 준수
  • Level 4 - 관리됨: 정량적 품질 지표와 자동화된 모니터링이 있음
  • Level 5 - 최적화됨: 지속적 개선, 데이터 거버넌스가 일상 개발 프로세스에 통합됨

3. 데이터 계보: 어디서 왔고, 어디로 가는가

데이터 계보(Data Lineage)는 데이터가 소스부터 최종 소비까지의 완전한 이동 경로를 기록합니다. 데이터의 "족보"와 같아, 어떤 데이터든 출처와 연결을 추적할 수 있게 해줍니다.

Data Lineage Tracing
Click any node to inspect upstream and downstream dependencies
Data sources
🗄️
MySQL user table
🗄️
MySQL order table
📝
Click log
ODS layer
📥
ODS users
📥
ODS orders
📥
ODS clicks
DWD layer
🔧
DWD user detail
🔧
DWD order detail
🔧
DWD click detail
DWS layer
📊
DWS user profile
📊
DWS GMV summary
ADS layer
📈
ADS business report

데이터 계보는 실무에서 세 가지 핵심 적용 시나리오가 있습니다:

시나리오문제계보가 어떻게 도움이 되는가
영향 분석사용자 테이블의 필드를 수정하면 어떤 하위 보고서에 영향을 미치는가?계보를 따라 모든 종속성 추적
근본 원인 파악오늘 GMV 보고서 데이터가 비정상인데 어느 단계에서 문제가 발생했는가?계보를 따라 각 단계별 역추적
규정 준수 감사사용자의 휴대전화 번호가 어떤 시스템을 거쳤는가? 모두 마스킹되었는가?민감 필드의 전체 경로 이동 추적

계보 수집의 두 가지 방식

  • 능동 수집: SQL 문, ETL 설정을 파싱하여 테이블/필드 수준의 계보 관계를 자동 추출
  • 수동 수집: Hook을 통해 쿼리 엔진(예: Hive, Spark)의 실행 계획을 가로채 실시간으로 계보 기록

Apache Atlas, DataHub, OpenLineage 등 주류 도구는 모두 자동화된 계보 수집을 지원합니다.


4. 메타데이터 관리: "데이터를 설명하는 데이터"

메타데이터(Metadata)는 데이터에 대한 데이터입니다. 데이터가 책의 내용이라면, 메타데이터는 책의 목차, 저자, 출판일, ISBN 번호입니다. 메타데이터 없이 데이터는 이해할 수 없는 숫자와 문자열의 묶음입니다.

메타데이터 유형설명예시
기술 메타데이터데이터의 물리적 저장 정보테이블명, 필드 유형, 파티션 방식, 저장 위치
비즈니스 메타데이터데이터의 비즈니스 의미필드의 한국어명, 비즈니스 정의, 산정 기준
운영 메타데이터데이터의 운영 상태ETL 실행 시간, 데이터량, 업데이트 빈도

데이터 사전의 중요성

데이터 사전은 메타데이터 관리의 가장 기본적인 산출물입니다. 좋은 데이터 사전에는 다음이 포함되어야 합니다:

  • 필드명: 영문명과 한국어명
  • 데이터 유형: VARCHAR(50), INT, DATETIME 등
  • 비즈니스 정의: 이 필드는 무엇을 나타내는가? 어떻게 계산되는가?
  • 값 범위: 유효한 값은 무엇인가? 결측치가 허용되는가?
  • 담당자: 이 필드를 누가 관리하는가? 문제가 있으면 누구에게 연락하는가?

데이터 사전이 없는 팀은 신규 입사자가 한 테이블의 의미를 이해하는 데 1주일이 걸릴 수 있습니다. 데이터 사전이 있는 팀은 10분이면 충분합니다.


5. 데이터 계층 아키텍처: ODS → DWD → DWS → ADS

데이터 웨어하우스는 모든 데이터를 한곳에 쌓는 것이 아니라 가공 정도에 따라 계층별로 저장합니다. 각 계층에 명확한 책임이 있고, 상위 계층은 하위 계층에 의존하며, 원시 데이터에서 비즈니스 활용 가능한 데이터로 점진적으로 정제됩니다.

계층전체 명칭책임데이터 특징
ODS운영 데이터 계층비즈니스 데이터베이스를 그대로 동기화가장 원시적, 미가공
DWD상세 데이터 계층정제, 표준화, 중복 제거깨끗한 상세 기록
DWS집계 데이터 계층주제별 집계(일/주/월)사전 계산된 집계 지표
ADS응용 데이터 계층특정 보고서/API 지향바로 사용 가능한 결과 데이터

왜 계층화해야 하는가?

  • 재사용: DWD 계층에서 한 번 정제하면 모든 상위 계층이 공유하여 중복 정제 방지
  • 분리: 비즈니스 DB 테이블 구조 변경이 ODS 계층에만 영향, 보고서에는 파급되지 않음
  • 성능: DWS 계층에서 사전 집계하여 보고서 쿼리가 실시간 계산 없이 직접 읽기
  • 추적 가능: 각 계층이 모두 보존되어 문제 발생 시 계층별 점검 가능

6. 거버넌스 도구와 실무

도구포지션핵심 역량적용 시나리오
Great Expectations데이터 품질선언적 데이터 검증 규칙, 품질 보고서 자동 생성Python 데이터 파이프라인
dbt데이터 변환SQL 모델 기반 개발, 내장 테스트 및 문서 생성데이터 웨어하우스 모델링
DataHub메타데이터 관리데이터 카탈로그, 계보 추적, 데이터 디스커버리엔터프라이즈급 데이터 거버넌스
Apache Atlas메타데이터 관리Hadoop 생태계 계보 추적빅데이터 플랫폼
OpenMetadata메타데이터 관리오픈소스 데이터 카탈로그, 다양한 데이터 소스 지원중소 팀
Amundsen데이터 디스커버리검색 기반 데이터 디스커버리 플랫폼데이터 민주화

제로에서 시작하는 거버넌스 경로

팀에 아직 데이터 거버넌스가 없다면 다음 순서로 추진하는 것을 권장합니다:

  1. 먼저 데이터 사전 구축: 기존 테이블과 필드의 의미를 기록 (Excel이라도 좋습니다)
  2. 품질 검사 추가: 핵심 데이터 파이프라인에 기본적인 결측치, 범위 검증 추가
  3. 지표 정의 통일: "일간 활성", "월간 활성", "GMV" 등 핵심 지표의 산정 기준 통일
  4. 도구 도입: 수동 관리 비용이 너무 높아지면 DataHub나 dbt 등의 도구 도입
  5. 프로세스 구축: 데이터 변경 시 검토 필요, 품질 문제에 대한 SLA 및 알림 설정

요약

데이터 거버넌스는 데이터를 "사용 가능"에서 "사용하기 좋고, 신뢰할 수 있으며, 추적 가능한" 상태로 만드는 체계적 엔지니어링입니다. 일회성 프로젝트가 아니라 지속적인 운영 과정입니다.

이 장의 핵심 포인트를 되돌아보면:

  1. 6대 품질 차원: 완전성, 정확성, 일관성, 적시성, 유일성, 유효성
  2. 거버넌스 네 기둥: 조직, 프로세스, 기술, 문화가 모두 필요
  3. 데이터 계보: 데이터의 출처와 흐름을 추적하여 영향 분석과 문제 조사를 지원
  4. 메타데이터 관리: 데이터 사전은 가장 기본적이면서도 가장 중요한 거버넌스 산출물
  5. 계층 아키텍처: ODS → DWD → DWS → ADS, 계층별로 데이터 가치 정제
  6. 점진적 구현: 데이터 사전부터 시작하여 점진적으로 도구와 프로세스 도입

추가 읽기

  • DAMA-DMBOK - 데이터 관리 지식체계, 데이터 거버넌스의 "바이블"
  • DataHub - LinkedIn 오픈소스 메타데이터 관리 플랫폼
  • Great Expectations - Python 데이터 품질 프레임워크
  • dbt - 데이터 변환 도구, 내장 테스트 및 문서 제공
  • Apache Atlas - Hadoop 생태계의 메타데이터 거버넌스 프레임워크
  • The Data Warehouse Toolkit - Kimball 데이터 웨어하우스 모델링 고전