Skip to content

データガバナンスとデータ品質

はじめに

こんな経験はありませんか?レポートの数字が実際のビジネスと合わない、2つのシステムで同じユーザーの情報が異なる、あるいはダーティーデータのせいで分析結果が全く信頼できない? データガバナンスは、これらの問題を解決する体系的なアプローチです。「データ駆動の意思決定」の時代において、データ品質は意思決定の品質を直接左右します——Garbage In, Garbage Out(ゴミを入れればゴミが出る)。

この記事で学ぶこと

この章を修了すると、以下の知識が得られます:

  • データ品質の次元:完全性、正確性、一貫性など6つの品質次元を理解する
  • データガバナンス体系:組織、プロセス、技術にわたるガバナンスフレームワークを理解する
  • データリネージ:データソースから消費までのフルチェーン追跡を習得する
  • メタデータ管理:「データに関するデータ」の重要性を理解する
  • データレイヤードアーキテクチャ:ODS → DWD → DWS → ADSのデータウェアハウス階層モデルを習得する
  • 実践的スキル:プロジェクトでデータガバナンスをどのように実装するかを知る
内容中核概念
第1章データ品質の次元完全性、正確性、一貫性、適時性
第2章データガバナンスフレームワーク組織、プロセス、技術、文化
第3章データリネージ追跡影響分析、原因調査、コンプライアンス監査
第4章メタデータ管理技術メタデータ、ビジネスメタデータ、運用メタデータ
第5章データレイヤードアーキテクチャODS、DWD、DWS、ADS
第6章ガバナンスツールと実践Great Expectations、dbt、DataHub

0. 全体像:なぜデータガバナンスが必要なのか?

データガバナンスは技術的な問題ではなく、経営問題です。その核心的な問いは、誰がデータに責任を持つのか?データの基準は何か?データが継続的に信頼できることをどう保証するか? です。

100のデータテーブルがあり、それぞれ異なるチームが管理し、統一的な命名規則も、データ辞書も、品質チェックもない会社を想像してください。結果として、「月間アクティブユーザー」という同じ指標でも、マーケティング部門は500万、プロダクト部門は300万と算出されます——定義が違うからです。

データガバナンスの4つの柱

  1. 組織:データオーナー、データスチュワード(Data Steward)の役割と責任を明確にする
  2. プロセス:データの取り込み、変更、廃止の標準プロセスを確立する
  3. 技術:データ品質監視、メタデータ管理、リネージ追跡などのツールを導入する
  4. 文化:会社全体に「データは資産である」と認識させ、「データは副産物ではない」とする

1. データ品質の6つの次元

データ品質は曖昧な概念ではなく、6つの具体的な次元から測定できます。各次元には明確な定義と検出方法があります。

Data Quality Checker
Click a dimension to inspect example data quality issues
📋
Completeness
🎯
Accuracy
🔗
Consistency
Timeliness
🔑
Uniqueness
Validity
📋CompletenessWhether required values are missing
Problem data
User IDNameEmailPhone
001Alicealice@mail.com138xxxx1234
002Bob
003carol@mail.com139xxxx5678
After governance
User IDNameEmailPhone
001Alicealice@mail.com138xxxx1234
002Bobbob@mail.com137xxxx9012
003Carolcarol@mail.com139xxxx5678
Quality score
72%
次元定義検出方法よくある問題
完全性データに欠落がないかNULL率チェック必須フィールドが空、関連データの欠落
正確性データが正しいかルール検証、サンプリング照合金額が負、日付が不正
一貫性複数ソースのデータが一致しているかクロスシステム比較CRMと受注システムでユーザー名が異なる
適時性データがタイムリーに更新されているか更新時刻チェック在庫データの遅延、価格が未同期
一意性重複レコードが存在しないか重複排除チェック同じユーザーが2回登録
妥当性フォーマットルールに準拠しているか正規表現/範囲検証メール形式エラー、年齢が負の数

データ品質の1-10-100の法則

  • 1:データの入口で検証し、ダーティーデータの侵入を予防する
  • 10:データウェアハウス内の既存のダーティーデータをクレンジングする
  • 100:ダーティーデータによる誤った意思決定による損失

データ品質の問題を早期に発見・修正するほど、コストは低く抑えられます。


2. データガバナンスフレームワーク:ライフサイクル全体の管理

データガバナンスは一度きりのプロジェクトではなく、データライフサイクル全体にわたる継続的なプロセスです。データの生成から破棄まで、各段階で明確な基準と責任者が必要です。

Data Governance Framework
Click each stage to inspect the details
1
Define standards
2
Collect and ingest
3
Manage storage
4
Use and consume
5
Archive and destroy
Define standards
Create data standards, naming rules, and data dictionaries
📖
Data dictionary
Define meaning, type, and allowed values for each field
📏
Naming rules
Unify field naming conventions such as snake_case, camelCase, and prefixes
🏷️
Classification
Classify data by sensitivity: public, internal, confidential, restricted
段階主要な成果物主要な役割
標準定義データ辞書、命名規則、分類・等級基準データアーキテクト
データ収集取り込み基準、検証ルール、リネージ記録データエンジニア
ストレージ管理階層モデル、権限マトリクス、ライフサイクルポリシーDBA / プラットフォームエンジニア
データ消費データカタログ、マスキングルール、品質レポートデータアナリスト / ビジネス側
アーカイブ・破棄アーカイブポリシー、削除記録、監査ログセキュリティ・コンプライアンスチーム

2. データガバナンスフレームワーク

データガバナンスはツールを購入するだけで解決するものではありません。完全なフレームワークによる裏付けが必要です。業界で最も一般的な参照フレームワークはDAMA-DMBOK(データ管理知識体系)です。

ガバナンス領域中核内容主要な成果物
データアーキテクチャデータモデル、データフロー、ストレージ戦略を定義データアーキテクチャ図、ER図
データ標準統一的な命名規則、コーディング規則、指標定義データ辞書、指標ライブラリ
データ品質品質ルール、監視アラート、修復プロセスの確立品質レポート、SLAダッシュボード
データセキュリティ分類・等級付け、アクセス制御、マスキング・暗号化セキュリティポリシー、監査ログ
マスターデータ管理顧客、商品などの中核エンティティの統一的な「ゴールデンレコード」マスターデータハブ
データライフサイクルデータの作成からアーカイブ、破棄までの全プロセスを管理保持ポリシー、アーカイブルール

データガバナンスの成熟度モデル

  • レベル1 - 初期段階:統一的な基準がなく、各チームが独自に運用
  • レベル2 - 反復可能:基本的なドキュメントはあるが、実行に一貫性がない
  • レベル3 - 定義済み:統一的なガバナンスプロセスとツールがあり、大部分のチームが遵守
  • レベル4 - 管理済み:定量的な品質指標と自動監視がある
  • レベル5 - 最適化:継続的改善、データガバナンスが日常の開発フローに組み込まれている

3. データリネージ:どこから来て、どこへ行くのか

データリネージ(Data Lineage)は、データのソースから最終的な消費までの完全な流れの経路を記録します。これはデータの「系図」のようなもので、任意のデータの出所と行方を追跡できます。

Data Lineage Tracing
Click any node to inspect upstream and downstream dependencies
Data sources
🗄️
MySQL user table
🗄️
MySQL order table
📝
Click log
ODS layer
📥
ODS users
📥
ODS orders
📥
ODS clicks
DWD layer
🔧
DWD user detail
🔧
DWD order detail
🔧
DWD click detail
DWS layer
📊
DWS user profile
📊
DWS GMV summary
ADS layer
📈
ADS business report

データリネージには、実際の業務で3つの中核的な応用シナリオがあります:

シナリオ課題リネージがどう役立つか
影響分析ユーザーテーブルのフィールドを変更すると、どの下流レポートに影響するか?リネージに沿って下流のすべての依存関係を追跡
原因特定本日のGMVレポートのデータが異常だが、問題はどの工程で発生したか?リネージに沿って上流の各工程を遡及
コンプライアンス監査ユーザーの電話番号はどのシステムを通過したか?すべてマスキングされているか?機密フィールドのフルチェーンの流れを追跡

リネージ収集の2つの方法

  • 能動的収集:SQL文やETL設定を解析し、テーブルレベル/フィールドレベルのリネージ関係を自動抽出
  • 受動的収集:Hookを通じてクエリエンジン(Hive、Sparkなど)の実行計画を傍受し、リアルタイムでリネージを記録

Apache Atlas、DataHub、OpenLineageなどの主流ツールはすべて自動リネージ収集をサポートしています。


4. メタデータ管理:「データについてのデータ」

メタデータ(Metadata)とは、データに関するデータのことです。データが本の内容だとすれば、メタデータは本の目次、著者、出版日、ISBN番号です。メタデータがなければ、データは理解不可能な数字と文字列の山に過ぎません。

メタデータの種類説明
技術メタデータデータの物理的な保存情報テーブル名、フィールド型、パーティション方式、保存場所
ビジネスメタデータデータのビジネス的意味フィールドの表示名、ビジネス定義、計算基準
運用メタデータデータの実行状態ETL実行時間、データ量、更新頻度

データ辞書の重要性

データ辞書はメタデータ管理の最も基礎的な成果物です。良いデータ辞書には以下を含めるべきです:

  • フィールド名:英語名と表示名
  • データ型:VARCHAR(50)、INT、DATETIMEなど
  • ビジネス定義:このフィールドは何を表しているか?どのように計算されるか?
  • 値の範囲:有効な値は何か?NULLは許可されるか?
  • 担当者:このフィールドを誰が保守しているか?問題があれば誰に連絡するか?

データ辞書のないチームでは、新入社員が1つのテーブルの意味を理解するのに1週間かかるかもしれません。データ辞書があれば、10分で十分です。


5. データレイヤードアーキテクチャ:ODS → DWD → DWS → ADS

データウェアハウスは、すべてのデータを一つの場所に積み上げるのではなく、加工度に応じて階層的に保存します。各層には明確な責任があり、上位層は下位層に依存し、生データからビジネスで利用可能なデータへと段階的に洗練されます。

フルネーム責任データの特徴
ODSOperational Data Storeビジネスデータベースをそのまま同期最も生の、未処理のデータ
DWDData Warehouse Detailクレンジング、標準化、重複排除クリーンな詳細レコード
DWSData Warehouse Summary主題別に集約(日/週/月)事前計算された集約指標
ADSApplication Data Store特定のレポート/API向けそのまま使える結果データ

なぜ階層化するのか?

  • 再利用:DWD層は一度クレンジングすれば、全上位層で共有され、重複クレンジングを回避
  • 疎結合:ビジネスDBのスキーマ変更はODS層にのみ影響し、レポートには波及しない
  • パフォーマンス:DWS層が事前集約するため、レポートクエリはリアルタイム計算なしで直接読み取り可能
  • トレーサビリティ:各層が保存されるため、問題発生時に層ごとに調査可能

6. ガバナンスツールと実践

ツール位置づけ中核機能適用シナリオ
Great Expectationsデータ品質宣言型データ検証ルール、品質レポートの自動生成Pythonデータパイプライン
dbtデータ変換SQLモデル化開発、内蔵テストとドキュメント生成データウェアハウスモデリング
DataHubメタデータ管理データカタログ、リネージ追跡、データディスカバリーエンタープライズデータガバナンス
Apache Atlasメタデータ管理Hadoopエコシステムのリネージ追跡ビッグデータプラットフォーム
OpenMetadataメタデータ管理オープンソースデータカタログ、複数データソース対応中小チーム
Amundsenデータディスカバリー検索ベースのデータディスカバリープラットフォームデータ民主化

ゼロからのガバナンス導入パス

あなたのチームにまだデータガバナンスがない場合、以下の順序で進めることをお勧めします:

  1. まずデータ辞書を作成する:既存のテーブルとフィールドの意味を記録する(Excelでも可)
  2. 品質チェックを追加する:重要なデータパイプラインに基本的なNULLチェックや範囲検証を追加
  3. 指標定義を統一する:「DAU」「MAU」「GMV」などの中核指標の計算基準を統一
  4. ツールを導入する:手動管理のコストが高くなったら、DataHubやdbtなどのツールを導入
  5. プロセスを確立する:データ変更にはレビューが必要、品質問題にはSLAとアラートを設定

まとめ

データガバナンスは、データを「使える」ものから「使いやすく、信頼でき、トレース可能な」ものにする体系的な取り組みです。一度きりのプロジェクトではなく、継続的な運用プロセスです。

本章の主要なポイントを振り返りましょう:

  1. 6つの品質次元:完全性、正確性、一貫性、適時性、一意性、妥当性
  2. ガバナンスの4つの柱:組織、プロセス、技術、文化 — すべて不可欠
  3. データリネージ:データの出所と行方を追跡し、影響分析と原因調査を支援
  4. メタデータ管理:データ辞書は最も基礎的かつ重要なガバナンスの成果物
  5. レイヤードアーキテクチャ:ODS → DWD → DWS → ADS、段階的にデータ価値を洗練
  6. 段階的導入:データ辞書から始め、ツールとプロセスを徐々に導入

参考資料

  • DAMA-DMBOK - データ管理知識体系、データガバナンスの「バイブル」
  • DataHub - LinkedInのオープンソースメタデータ管理プラットフォーム
  • Great Expectations - Pythonデータ品質フレームワーク
  • dbt - データ変換ツール、内蔵テストとドキュメント
  • Apache Atlas - Hadoopエコシステムのメタデータガバナンスフレームワーク
  • The Data Warehouse Toolkit - Kimballのデータウェアハウスモデリングの古典