데이터 거버넌스와 데이터 품질

서문

이런 경험이 있으신가요? 보고서의 숫자가 실제 비즈니스와 맞지 않고, 두 시스템에서 같은 사용자의 정보가 다르거나, 더러운 데이터로 인해 분석 결과를 전혀 신뢰할 수 없는 경우? 데이터 거버넌스는 바로 이러한 문제를 해결하는 체계적인 방법입니다. "데이터 기반 의사결정" 시대에 데이터 품질은 의사결정 품질을 직접적으로 결정합니다 — 가비지 인, 가비지 아웃(Garbage In, Garbage Out).

이 글에서 무엇을 배우게 될까요?

이 장을 마치면 다음을 얻게 됩니다:

데이터 품질 차원: 완전성, 정확성, 일관성 등 6대 품질 차원 이해
데이터 거버넌스 체계: 조직, 프로세스, 기술의 거버넌스 프레임워크 이해
데이터 계보: 소스부터 소비까지의 전체 경로 추적 파악
메타데이터 관리: "데이터를 설명하는 데이터"의 중요성 이해
데이터 계층 아키텍처: ODS → DWD → DWS → ADS 데이터 웨어하우스 계층 모델 파악
실무 역량: 프로젝트에서 데이터 거버넌스를 구현하는 방법 습득

장	내용	핵심 개념
제 1장	데이터 품질 차원	완전성, 정확성, 일관성, 적시성
제 2장	데이터 거버넌스 프레임워크	조직, 프로세스, 기술, 문화
제 3장	데이터 계보 추적	영향 분석, 문제 조사, 규정 준수 감사
제 4장	메타데이터 관리	기술 메타데이터, 비즈니스 메타데이터, 운영 메타데이터
제 5장	데이터 계층 아키텍처	ODS, DWD, DWS, ADS
제 6장	거버넌스 도구와 실무	Great Expectations, dbt, DataHub

0. 전체 그림: 왜 데이터 거버넌스가 필요한가?

데이터 거버넌스는 기술적 문제가 아니라 관리 문제입니다. 핵심 질문에 답합니다: 누가 데이터에 책임지는가? 데이터의 기준은 무엇인가? 어떻게 데이터의 지속적 신뢰성을 보장하는가?

한 회사에 100개의 데이터 테이블이 있고, 각 테이블을 다른 팀이 관리하며, 통일된 명명 규칙, 데이터 사전, 품질 검사가 없다고 상상해 보세요. 결과적으로 같은 "월간 활성 사용자" 지표도 마케팅 부서는 500만 명으로, 제품 부서는 300만 명으로 계산합니다 — 정의가 다르기 때문입니다.

데이터 거버넌스의 네 기둥

조직: 데이터 Owner, 데이터 관리자(Data Steward)의 역할과 책임 명확화
프로세스: 데이터 수집, 변경, 폐지의 표준 프로세스 구축
기술: 데이터 품질 모니터링, 메타데이터 관리, 계보 추적 등의 도구 배포
문화: 전사적으로 "데이터는 자산"이라는 인식 확산, "데이터는 부산물"이라는 인식 전환

1. 데이터 품질의 6가지 차원

데이터 품질은 모호한 개념이 아니라 6가지 구체적 차원에서 측정할 수 있습니다. 각 차원에는 명확한 정의와 검출 방법이 있습니다.

📋

Completeness

🎯

Accuracy

🔗

Consistency

⏰

Timeliness

🔑

Uniqueness

✅

Validity

📋CompletenessWhether required values are missing

Problem data

User ID	Name	Email	Phone
001	Alice	alice@mail.com	138xxxx1234
002	Bob
003		carol@mail.com	139xxxx5678

After governance

User ID	Name	Email	Phone
001	Alice	alice@mail.com	138xxxx1234
002	Bob	bob@mail.com	137xxxx9012
003	Carol	carol@mail.com	139xxxx5678

Quality score

72%

차원	정의	검출 방법	일반적인 문제
완전성	데이터에 누락이 있는지	결측치 비율 확인	필수 필드가 비어 있음, 연관 데이터 누락
정확성	데이터가 올바른지	규칙 검증, 샘플링 대조	금액이 음수, 날짜가 유효하지 않음
일관성	다중 소스 데이터가 일치하는지	시스템 간 비교	CRM과 주문 시스템의 사용자명 불일치
적시성	데이터가 제때 업데이트되는지	업데이트 시간 확인	재고 데이터 지연, 가격 미동기화
유일성	중복 기록이 있는지	중복 제거 확인	같은 사용자가 두 번 가입
유효성	형식 규칙을 준수하는지	정규식/범위 검증	이메일 형식 오류, 나이가 음수

데이터 품질의 1-10-100 법칙

1원: 데이터 입력 단계에서 검증하여 더러운 데이터의 유입을 예방
10원: 데이터 웨어하우스에서 기존 더러운 데이터를 정제
100원: 더러운 데이터로 인한 잘못된 의사결정의 손실

데이터 품질 문제를 조기에 발견하고 수정할수록 비용이 낮아집니다.

2. 데이터 거버넌스 프레임워크: 전체 라이프사이클 관리

데이터 거버넌스는 일회성 프로젝트가 아니라 데이터의 전체 라이프사이클에 걸친 지속적 과정입니다. 데이터 생성부터 폐기까지 각 단계에 명확한 규범과 책임자가 필요합니다.

Define standards

→

Collect and ingest

→

Manage storage

→

Use and consume

→

Archive and destroy

Define standards

Create data standards, naming rules, and data dictionaries

📖

Data dictionary

Define meaning, type, and allowed values for each field

📏

Naming rules

Unify field naming conventions such as snake_case, camelCase, and prefixes

🏷️

Classification

Classify data by sensitivity: public, internal, confidential, restricted

단계	핵심 산출물	주요 역할
표준 정의	데이터 사전, 명명 규칙, 분류 등급 기준	데이터 아키텍트
수집 연동	연동 규범, 검증 규칙, 계보 기록	데이터 엔지니어
저장 관리	계층 모델, 권한 매트릭스, 라이프사이클 정책	DBA / 플랫폼 엔지니어
사용 소비	데이터 카탈로그, 마스킹 규칙, 품질 보고서	데이터 분석가 / 비즈니스 담당자
보관 폐기	보관 전략, 삭제 기록, 감사 로그	보안 규정 준수 팀

2. 데이터 거버넌스 프레임워크

데이터 거버넌스는 도구 하나를 구매한다고 해결되지 않습니다. 이를 지탱하는 완전한 프레임워크가 필요합니다. 업계에서 가장 널리 사용되는 참조 프레임워크는 DAMA-DMBOK(데이터 관리 지식체계)입니다.

거버넌스 영역	핵심 내용	주요 산출물
데이터 아키텍처	데이터 모델, 데이터 흐름, 저장 전략 정의	데이터 아키텍처 다이어그램, ER 다이어그램
데이터 표준	통일된 명명 규칙, 인코딩 규칙, 지표 정의	데이터 사전, 지표 라이브러리
데이터 품질	품질 규칙, 모니터링 알림, 수정 프로세스 구축	품질 보고서, SLA 대시보드
데이터 보안	등급 분류, 접근 제어, 마스킹 암호화	보안 정책, 감사 로그
마스터 데이터 관리	고객, 상품 등 핵심 엔티티의 "골든 레코드" 통합	마스터 데이터 센터
데이터 라이프사이클	데이터 생성부터 보관, 폐기까지의 전체 과정 관리	보유 정책, 보관 규칙

데이터 거버넌스의 성숙도 모델

Level 1 - 초기: 통일된 표준이 없고 각 팀이 독자적으로 운영
Level 2 - 반복 가능: 기본적인 규범 문서가 있으나 실행이 일관되지 않음
Level 3 - 정의됨: 통일된 거버넌스 프로세스와 도구가 있고 대부분의 팀이 준수
Level 4 - 관리됨: 정량적 품질 지표와 자동화된 모니터링이 있음
Level 5 - 최적화됨: 지속적 개선, 데이터 거버넌스가 일상 개발 프로세스에 통합됨

3. 데이터 계보: 어디서 왔고, 어디로 가는가

데이터 계보(Data Lineage)는 데이터가 소스부터 최종 소비까지의 완전한 이동 경로를 기록합니다. 데이터의 "족보"와 같아, 어떤 데이터든 출처와 연결을 추적할 수 있게 해줍니다.

Data sources

🗄️

MySQL user table

🗄️

MySQL order table

📝

Click log

ODS layer

📥

ODS users

📥

ODS orders

📥

ODS clicks

DWD layer

🔧

DWD user detail

🔧

DWD order detail

🔧

DWD click detail

DWS layer

📊

DWS user profile

📊

DWS GMV summary

ADS layer

📈

ADS business report

데이터 계보는 실무에서 세 가지 핵심 적용 시나리오가 있습니다:

시나리오	문제	계보가 어떻게 도움이 되는가
영향 분석	사용자 테이블의 필드를 수정하면 어떤 하위 보고서에 영향을 미치는가?	계보를 따라 모든 종속성 추적
근본 원인 파악	오늘 GMV 보고서 데이터가 비정상인데 어느 단계에서 문제가 발생했는가?	계보를 따라 각 단계별 역추적
규정 준수 감사	사용자의 휴대전화 번호가 어떤 시스템을 거쳤는가? 모두 마스킹되었는가?	민감 필드의 전체 경로 이동 추적

계보 수집의 두 가지 방식

능동 수집: SQL 문, ETL 설정을 파싱하여 테이블/필드 수준의 계보 관계를 자동 추출
수동 수집: Hook을 통해 쿼리 엔진(예: Hive, Spark)의 실행 계획을 가로채 실시간으로 계보 기록

Apache Atlas, DataHub, OpenLineage 등 주류 도구는 모두 자동화된 계보 수집을 지원합니다.

4. 메타데이터 관리: "데이터를 설명하는 데이터"

메타데이터(Metadata)는 데이터에 대한 데이터입니다. 데이터가 책의 내용이라면, 메타데이터는 책의 목차, 저자, 출판일, ISBN 번호입니다. 메타데이터 없이 데이터는 이해할 수 없는 숫자와 문자열의 묶음입니다.

메타데이터 유형	설명	예시
기술 메타데이터	데이터의 물리적 저장 정보	테이블명, 필드 유형, 파티션 방식, 저장 위치
비즈니스 메타데이터	데이터의 비즈니스 의미	필드의 한국어명, 비즈니스 정의, 산정 기준
운영 메타데이터	데이터의 운영 상태	ETL 실행 시간, 데이터량, 업데이트 빈도

데이터 사전의 중요성

데이터 사전은 메타데이터 관리의 가장 기본적인 산출물입니다. 좋은 데이터 사전에는 다음이 포함되어야 합니다:

필드명: 영문명과 한국어명
데이터 유형: VARCHAR(50), INT, DATETIME 등
비즈니스 정의: 이 필드는 무엇을 나타내는가? 어떻게 계산되는가?
값 범위: 유효한 값은 무엇인가? 결측치가 허용되는가?
담당자: 이 필드를 누가 관리하는가? 문제가 있으면 누구에게 연락하는가?

데이터 사전이 없는 팀은 신규 입사자가 한 테이블의 의미를 이해하는 데 1주일이 걸릴 수 있습니다. 데이터 사전이 있는 팀은 10분이면 충분합니다.

5. 데이터 계층 아키텍처: ODS → DWD → DWS → ADS

데이터 웨어하우스는 모든 데이터를 한곳에 쌓는 것이 아니라 가공 정도에 따라 계층별로 저장합니다. 각 계층에 명확한 책임이 있고, 상위 계층은 하위 계층에 의존하며, 원시 데이터에서 비즈니스 활용 가능한 데이터로 점진적으로 정제됩니다.

계층	전체 명칭	책임	데이터 특징
ODS	운영 데이터 계층	비즈니스 데이터베이스를 그대로 동기화	가장 원시적, 미가공
DWD	상세 데이터 계층	정제, 표준화, 중복 제거	깨끗한 상세 기록
DWS	집계 데이터 계층	주제별 집계(일/주/월)	사전 계산된 집계 지표
ADS	응용 데이터 계층	특정 보고서/API 지향	바로 사용 가능한 결과 데이터

왜 계층화해야 하는가?

재사용: DWD 계층에서 한 번 정제하면 모든 상위 계층이 공유하여 중복 정제 방지
분리: 비즈니스 DB 테이블 구조 변경이 ODS 계층에만 영향, 보고서에는 파급되지 않음
성능: DWS 계층에서 사전 집계하여 보고서 쿼리가 실시간 계산 없이 직접 읽기
추적 가능: 각 계층이 모두 보존되어 문제 발생 시 계층별 점검 가능

6. 거버넌스 도구와 실무

도구	포지션	핵심 역량	적용 시나리오
Great Expectations	데이터 품질	선언적 데이터 검증 규칙, 품질 보고서 자동 생성	Python 데이터 파이프라인
dbt	데이터 변환	SQL 모델 기반 개발, 내장 테스트 및 문서 생성	데이터 웨어하우스 모델링
DataHub	메타데이터 관리	데이터 카탈로그, 계보 추적, 데이터 디스커버리	엔터프라이즈급 데이터 거버넌스
Apache Atlas	메타데이터 관리	Hadoop 생태계 계보 추적	빅데이터 플랫폼
OpenMetadata	메타데이터 관리	오픈소스 데이터 카탈로그, 다양한 데이터 소스 지원	중소 팀
Amundsen	데이터 디스커버리	검색 기반 데이터 디스커버리 플랫폼	데이터 민주화

제로에서 시작하는 거버넌스 경로

팀에 아직 데이터 거버넌스가 없다면 다음 순서로 추진하는 것을 권장합니다:

먼저 데이터 사전 구축: 기존 테이블과 필드의 의미를 기록 (Excel이라도 좋습니다)
품질 검사 추가: 핵심 데이터 파이프라인에 기본적인 결측치, 범위 검증 추가
지표 정의 통일: "일간 활성", "월간 활성", "GMV" 등 핵심 지표의 산정 기준 통일
도구 도입: 수동 관리 비용이 너무 높아지면 DataHub나 dbt 등의 도구 도입
프로세스 구축: 데이터 변경 시 검토 필요, 품질 문제에 대한 SLA 및 알림 설정

요약

데이터 거버넌스는 데이터를 "사용 가능"에서 "사용하기 좋고, 신뢰할 수 있으며, 추적 가능한" 상태로 만드는 체계적 엔지니어링입니다. 일회성 프로젝트가 아니라 지속적인 운영 과정입니다.

이 장의 핵심 포인트를 되돌아보면:

6대 품질 차원: 완전성, 정확성, 일관성, 적시성, 유일성, 유효성
거버넌스 네 기둥: 조직, 프로세스, 기술, 문화가 모두 필요
데이터 계보: 데이터의 출처와 흐름을 추적하여 영향 분석과 문제 조사를 지원
메타데이터 관리: 데이터 사전은 가장 기본적이면서도 가장 중요한 거버넌스 산출물
계층 아키텍처: ODS → DWD → DWS → ADS, 계층별로 데이터 가치 정제
점진적 구현: 데이터 사전부터 시작하여 점진적으로 도구와 프로세스 도입

추가 읽기

DAMA-DMBOK - 데이터 관리 지식체계, 데이터 거버넌스의 "바이블"
DataHub - LinkedIn 오픈소스 메타데이터 관리 플랫폼
Great Expectations - Python 데이터 품질 프레임워크
dbt - 데이터 변환 도구, 내장 테스트 및 문서 제공
Apache Atlas - Hadoop 생태계의 메타데이터 거버넌스 프레임워크
The Data Warehouse Toolkit - Kimball 데이터 웨어하우스 모델링 고전

데이터 거버넌스와 데이터 품질 ​

0. 전체 그림: 왜 데이터 거버넌스가 필요한가? ​

1. 데이터 품질의 6가지 차원 ​

2. 데이터 거버넌스 프레임워크: 전체 라이프사이클 관리 ​

2. 데이터 거버넌스 프레임워크 ​

3. 데이터 계보: 어디서 왔고, 어디로 가는가 ​

4. 메타데이터 관리: "데이터를 설명하는 데이터" ​

5. 데이터 계층 아키텍처: ODS → DWD → DWS → ADS ​

6. 거버넌스 도구와 실무 ​

요약 ​

추가 읽기 ​