データガバナンスとデータ品質

はじめに

こんな経験はありませんか？レポートの数字が実際のビジネスと合わない、2つのシステムで同じユーザーの情報が異なる、あるいはダーティーデータのせいで分析結果が全く信頼できない？データガバナンスは、これらの問題を解決する体系的なアプローチです。「データ駆動の意思決定」の時代において、データ品質は意思決定の品質を直接左右します——Garbage In, Garbage Out（ゴミを入れればゴミが出る）。

この記事で学ぶこと

この章を修了すると、以下の知識が得られます：

データ品質の次元：完全性、正確性、一貫性など6つの品質次元を理解する
データガバナンス体系：組織、プロセス、技術にわたるガバナンスフレームワークを理解する
データリネージ：データソースから消費までのフルチェーン追跡を習得する
メタデータ管理：「データに関するデータ」の重要性を理解する
データレイヤードアーキテクチャ：ODS → DWD → DWS → ADSのデータウェアハウス階層モデルを習得する
実践的スキル：プロジェクトでデータガバナンスをどのように実装するかを知る

章	内容	中核概念
第1章	データ品質の次元	完全性、正確性、一貫性、適時性
第2章	データガバナンスフレームワーク	組織、プロセス、技術、文化
第3章	データリネージ追跡	影響分析、原因調査、コンプライアンス監査
第4章	メタデータ管理	技術メタデータ、ビジネスメタデータ、運用メタデータ
第5章	データレイヤードアーキテクチャ	ODS、DWD、DWS、ADS
第6章	ガバナンスツールと実践	Great Expectations、dbt、DataHub

0. 全体像：なぜデータガバナンスが必要なのか？

データガバナンスは技術的な問題ではなく、経営問題です。その核心的な問いは、誰がデータに責任を持つのか？データの基準は何か？データが継続的に信頼できることをどう保証するか？ です。

100のデータテーブルがあり、それぞれ異なるチームが管理し、統一的な命名規則も、データ辞書も、品質チェックもない会社を想像してください。結果として、「月間アクティブユーザー」という同じ指標でも、マーケティング部門は500万、プロダクト部門は300万と算出されます——定義が違うからです。

データガバナンスの4つの柱

組織：データオーナー、データスチュワード（Data Steward）の役割と責任を明確にする
プロセス：データの取り込み、変更、廃止の標準プロセスを確立する
技術：データ品質監視、メタデータ管理、リネージ追跡などのツールを導入する
文化：会社全体に「データは資産である」と認識させ、「データは副産物ではない」とする

1. データ品質の6つの次元

データ品質は曖昧な概念ではなく、6つの具体的な次元から測定できます。各次元には明確な定義と検出方法があります。

📋

Completeness

🎯

Accuracy

🔗

Consistency

⏰

Timeliness

🔑

Uniqueness

✅

Validity

📋CompletenessWhether required values are missing

Problem data

User ID	Name	Email	Phone
001	Alice	alice@mail.com	138xxxx1234
002	Bob
003		carol@mail.com	139xxxx5678

After governance

User ID	Name	Email	Phone
001	Alice	alice@mail.com	138xxxx1234
002	Bob	bob@mail.com	137xxxx9012
003	Carol	carol@mail.com	139xxxx5678

Quality score

72%

次元	定義	検出方法	よくある問題
完全性	データに欠落がないか	NULL率チェック	必須フィールドが空、関連データの欠落
正確性	データが正しいか	ルール検証、サンプリング照合	金額が負、日付が不正
一貫性	複数ソースのデータが一致しているか	クロスシステム比較	CRMと受注システムでユーザー名が異なる
適時性	データがタイムリーに更新されているか	更新時刻チェック	在庫データの遅延、価格が未同期
一意性	重複レコードが存在しないか	重複排除チェック	同じユーザーが2回登録
妥当性	フォーマットルールに準拠しているか	正規表現/範囲検証	メール形式エラー、年齢が負の数

データ品質の1-10-100の法則

1：データの入口で検証し、ダーティーデータの侵入を予防する
10：データウェアハウス内の既存のダーティーデータをクレンジングする
100：ダーティーデータによる誤った意思決定による損失

データ品質の問題を早期に発見・修正するほど、コストは低く抑えられます。

2. データガバナンスフレームワーク：ライフサイクル全体の管理

データガバナンスは一度きりのプロジェクトではなく、データライフサイクル全体にわたる継続的なプロセスです。データの生成から破棄まで、各段階で明確な基準と責任者が必要です。

Define standards

→

Collect and ingest

→

Manage storage

→

Use and consume

→

Archive and destroy

Define standards

Create data standards, naming rules, and data dictionaries

📖

Data dictionary

Define meaning, type, and allowed values for each field

📏

Naming rules

Unify field naming conventions such as snake_case, camelCase, and prefixes

🏷️

Classification

Classify data by sensitivity: public, internal, confidential, restricted

段階	主要な成果物	主要な役割
標準定義	データ辞書、命名規則、分類・等級基準	データアーキテクト
データ収集	取り込み基準、検証ルール、リネージ記録	データエンジニア
ストレージ管理	階層モデル、権限マトリクス、ライフサイクルポリシー	DBA / プラットフォームエンジニア
データ消費	データカタログ、マスキングルール、品質レポート	データアナリスト / ビジネス側
アーカイブ・破棄	アーカイブポリシー、削除記録、監査ログ	セキュリティ・コンプライアンスチーム

2. データガバナンスフレームワーク

データガバナンスはツールを購入するだけで解決するものではありません。完全なフレームワークによる裏付けが必要です。業界で最も一般的な参照フレームワークはDAMA-DMBOK（データ管理知識体系）です。

ガバナンス領域	中核内容	主要な成果物
データアーキテクチャ	データモデル、データフロー、ストレージ戦略を定義	データアーキテクチャ図、ER図
データ標準	統一的な命名規則、コーディング規則、指標定義	データ辞書、指標ライブラリ
データ品質	品質ルール、監視アラート、修復プロセスの確立	品質レポート、SLAダッシュボード
データセキュリティ	分類・等級付け、アクセス制御、マスキング・暗号化	セキュリティポリシー、監査ログ
マスターデータ管理	顧客、商品などの中核エンティティの統一的な「ゴールデンレコード」	マスターデータハブ
データライフサイクル	データの作成からアーカイブ、破棄までの全プロセスを管理	保持ポリシー、アーカイブルール

データガバナンスの成熟度モデル

レベル1 - 初期段階：統一的な基準がなく、各チームが独自に運用
レベル2 - 反復可能：基本的なドキュメントはあるが、実行に一貫性がない
レベル3 - 定義済み：統一的なガバナンスプロセスとツールがあり、大部分のチームが遵守
レベル4 - 管理済み：定量的な品質指標と自動監視がある
レベル5 - 最適化：継続的改善、データガバナンスが日常の開発フローに組み込まれている

3. データリネージ：どこから来て、どこへ行くのか

データリネージ（Data Lineage）は、データのソースから最終的な消費までの完全な流れの経路を記録します。これはデータの「系図」のようなもので、任意のデータの出所と行方を追跡できます。

Data sources

🗄️

MySQL user table

🗄️

MySQL order table

📝

Click log

ODS layer

📥

ODS users

📥

ODS orders

📥

ODS clicks

DWD layer

🔧

DWD user detail

🔧

DWD order detail

🔧

DWD click detail

DWS layer

📊

DWS user profile

📊

DWS GMV summary

ADS layer

📈

ADS business report

データリネージには、実際の業務で3つの中核的な応用シナリオがあります：

シナリオ	課題	リネージがどう役立つか
影響分析	ユーザーテーブルのフィールドを変更すると、どの下流レポートに影響するか？	リネージに沿って下流のすべての依存関係を追跡
原因特定	本日のGMVレポートのデータが異常だが、問題はどの工程で発生したか？	リネージに沿って上流の各工程を遡及
コンプライアンス監査	ユーザーの電話番号はどのシステムを通過したか？すべてマスキングされているか？	機密フィールドのフルチェーンの流れを追跡

リネージ収集の2つの方法

能動的収集：SQL文やETL設定を解析し、テーブルレベル/フィールドレベルのリネージ関係を自動抽出
受動的収集：Hookを通じてクエリエンジン（Hive、Sparkなど）の実行計画を傍受し、リアルタイムでリネージを記録

Apache Atlas、DataHub、OpenLineageなどの主流ツールはすべて自動リネージ収集をサポートしています。

4. メタデータ管理：「データについてのデータ」

メタデータ（Metadata）とは、データに関するデータのことです。データが本の内容だとすれば、メタデータは本の目次、著者、出版日、ISBN番号です。メタデータがなければ、データは理解不可能な数字と文字列の山に過ぎません。

メタデータの種類	説明	例
技術メタデータ	データの物理的な保存情報	テーブル名、フィールド型、パーティション方式、保存場所
ビジネスメタデータ	データのビジネス的意味	フィールドの表示名、ビジネス定義、計算基準
運用メタデータ	データの実行状態	ETL実行時間、データ量、更新頻度

データ辞書の重要性

データ辞書はメタデータ管理の最も基礎的な成果物です。良いデータ辞書には以下を含めるべきです：

フィールド名：英語名と表示名
データ型：VARCHAR(50)、INT、DATETIMEなど
ビジネス定義：このフィールドは何を表しているか？どのように計算されるか？
値の範囲：有効な値は何か？NULLは許可されるか？
担当者：このフィールドを誰が保守しているか？問題があれば誰に連絡するか？

データ辞書のないチームでは、新入社員が1つのテーブルの意味を理解するのに1週間かかるかもしれません。データ辞書があれば、10分で十分です。

5. データレイヤードアーキテクチャ：ODS → DWD → DWS → ADS

データウェアハウスは、すべてのデータを一つの場所に積み上げるのではなく、加工度に応じて階層的に保存します。各層には明確な責任があり、上位層は下位層に依存し、生データからビジネスで利用可能なデータへと段階的に洗練されます。

層	フルネーム	責任	データの特徴
ODS	Operational Data Store	ビジネスデータベースをそのまま同期	最も生の、未処理のデータ
DWD	Data Warehouse Detail	クレンジング、標準化、重複排除	クリーンな詳細レコード
DWS	Data Warehouse Summary	主題別に集約（日/週/月）	事前計算された集約指標
ADS	Application Data Store	特定のレポート/API向け	そのまま使える結果データ

なぜ階層化するのか？

再利用：DWD層は一度クレンジングすれば、全上位層で共有され、重複クレンジングを回避
疎結合：ビジネスDBのスキーマ変更はODS層にのみ影響し、レポートには波及しない
パフォーマンス：DWS層が事前集約するため、レポートクエリはリアルタイム計算なしで直接読み取り可能
トレーサビリティ：各層が保存されるため、問題発生時に層ごとに調査可能

6. ガバナンスツールと実践

ツール	位置づけ	中核機能	適用シナリオ
Great Expectations	データ品質	宣言型データ検証ルール、品質レポートの自動生成	Pythonデータパイプライン
dbt	データ変換	SQLモデル化開発、内蔵テストとドキュメント生成	データウェアハウスモデリング
DataHub	メタデータ管理	データカタログ、リネージ追跡、データディスカバリー	エンタープライズデータガバナンス
Apache Atlas	メタデータ管理	Hadoopエコシステムのリネージ追跡	ビッグデータプラットフォーム
OpenMetadata	メタデータ管理	オープンソースデータカタログ、複数データソース対応	中小チーム
Amundsen	データディスカバリー	検索ベースのデータディスカバリープラットフォーム	データ民主化

ゼロからのガバナンス導入パス

あなたのチームにまだデータガバナンスがない場合、以下の順序で進めることをお勧めします：

まずデータ辞書を作成する：既存のテーブルとフィールドの意味を記録する（Excelでも可）
品質チェックを追加する：重要なデータパイプラインに基本的なNULLチェックや範囲検証を追加
指標定義を統一する：「DAU」「MAU」「GMV」などの中核指標の計算基準を統一
ツールを導入する：手動管理のコストが高くなったら、DataHubやdbtなどのツールを導入
プロセスを確立する：データ変更にはレビューが必要、品質問題にはSLAとアラートを設定

まとめ

データガバナンスは、データを「使える」ものから「使いやすく、信頼でき、トレース可能な」ものにする体系的な取り組みです。一度きりのプロジェクトではなく、継続的な運用プロセスです。

本章の主要なポイントを振り返りましょう：

6つの品質次元：完全性、正確性、一貫性、適時性、一意性、妥当性
ガバナンスの4つの柱：組織、プロセス、技術、文化 — すべて不可欠
データリネージ：データの出所と行方を追跡し、影響分析と原因調査を支援
メタデータ管理：データ辞書は最も基礎的かつ重要なガバナンスの成果物
レイヤードアーキテクチャ：ODS → DWD → DWS → ADS、段階的にデータ価値を洗練
段階的導入：データ辞書から始め、ツールとプロセスを徐々に導入

参考資料

DAMA-DMBOK - データ管理知識体系、データガバナンスの「バイブル」
DataHub - LinkedInのオープンソースメタデータ管理プラットフォーム
Great Expectations - Pythonデータ品質フレームワーク
dbt - データ変換ツール、内蔵テストとドキュメント
Apache Atlas - Hadoopエコシステムのメタデータガバナンスフレームワーク
The Data Warehouse Toolkit - Kimballのデータウェアハウスモデリングの古典

データガバナンスとデータ品質 ​

0. 全体像：なぜデータガバナンスが必要なのか？ ​

1. データ品質の6つの次元 ​

2. データガバナンスフレームワーク：ライフサイクル全体の管理 ​

2. データガバナンスフレームワーク ​

3. データリネージ：どこから来て、どこへ行くのか ​

4. メタデータ管理：「データについてのデータ」 ​

5. データレイヤードアーキテクチャ：ODS → DWD → DWS → ADS ​

6. ガバナンスツールと実践 ​

まとめ ​

参考資料 ​