分散システムの課題

はじめに

1台のマシンでは足りなくなったとき、本当の問題が始まります。 分散システムは現代インターネットの基盤です。WeChatのメッセージからTaobaoの注文まで、裏側では何百、何千台ものマシンが連携して動いています。しかし、「分散」はただのランチではありません。単一マシンのシステムでは考えられなかった一連の課題をもたらします。

この記事で何を学べるのか？

この章を読み終えると、以下のことが身につきます：

核心定理：CAP定理とシステム設計への影響を理解する
一貫性モデル：強一貫性、結果整合性、因果一貫性を区別する
8つの課題：分散システムが直面する中核的な難題を把握する
合意アルゴリズム：Paxos、Raftなどの分散合意の基本思想を理解する
実践パターン：2PC、Saga、CRDTなどの一般的なソリューションに習熟する

章	内容	核心概念
第1章	なぜ分散が必要なのか	スケーラビリティ、可用性、地理的分散
第2章	CAP定理	一貫性、可用性、分断耐性
第3章	一貫性モデル	強一貫、結果整合、因果一貫
第4章	8つの課題	ネットワーク、時計、分断、スプリットブレインなど
第5章	合意アルゴリズム	Paxos、Raft、ZAB
第6章	分散トランザクション	2PC、Saga、TCC

0. 全景図：なぜ分散システムが必要なのか？

単一マシンのシステムはシンプルで信頼性がありますが、3つの越えられないボトルネックがあります：

ボトルネック	説明	分散による解決策
性能の上限	単一マシンのCPU、メモリ、ディスクには物理的な限界がある	水平スケーリング：より多くのマシンを追加して負荷を分散
単一障害点	1台のマシンが落ちるとサービス全体が停止する	冗長レプリカ：複数マシンが互いにバックアップ
地理的遅延	ユーザーは世界中にいるが、単一マシンは1カ所にしか置けない	複数拠点展開：ユーザーの近くでサービスを提供

分散の代償

分散システムは上記の問題を解決しますが、新たな複雑さをもたらします。ネットワークの信頼性、時計の同期、部分的な障害、データの一貫性……これらがこの記事で議論する「課題」です。

Peter Deutschの分散コンピューティング8つの誤謬は、以下の仮定が分散環境ではすべて間違っていることを教えてくれます：

ネットワークは信頼できる
レイテンシはゼロである
帯域幅は無限である
ネットワークは安全である
トポロジーは変化しない
管理者は1人しかいない
転送コストはゼロである
ネットワークは同質である

1. CAP定理：分散システムの「不可能な三角形」

2000年、Eric BrewerはCAP推測（後に定理として証明）を提起しました。分散システムは以下の3つの属性のうち、同時に満たせるのは最大2つまでです。

属性	意味	わかりやすい説明
Consistency（一貫性）	すべてのノードが同じ時点で同じデータを見る	どのATMで残高を照会しても結果は同じ
Availability（可用性）	すべてのリクエストがエラーでない応答を受け取る	システムは常に応答し、「サービス利用不可」とは言わない
Partition tolerance（分断耐性）	ネットワーク分断時もシステムが稼働し続ける	一部のケーブルが切断されてもシステムは動く

Consistency

All nodes see the same data

Availability

Every request receives a response

Partition tolerance

The system keeps running during network partitions

CA system (gives up partition tolerance)

When there is no network partition, the system can provide both consistency and availability. In distributed environments, partitions are unavoidable, so pure CA systems are rare in practice.

Typical systems: Single-node MySQL, PostgreSQL in single-node mode

Sacrifices: Partition tolerance (P): unavailable during network failures

なぜ2つしか選べないのか？

分散環境では、ネットワーク分断（P）は避けられません。光ファイバーが掘り起こされ、スイッチが故障し、データセンターのネットワークが切断されます。したがってPは必須選択であり、実際の選択はCとAの間のトレードオフになります：

CPを選択：分断時に不確実なリクエストを拒否し、データの正確性を保証 → 金融、在庫に適している
APを選択：分断時もサービスを継続するが、データが一時的に不整合になる可能性 → ソーシャル、コンテンツに適している

CAPは白黒はっきりではない

現実のシステムは単純な「CPかAPか」ではありません。多くのシステムは異なる操作で異なる選択をします。例えば、同じデータベースでも、読み取り操作はAP（古いデータの読み取りを許可）、書き込み操作はCP（多数確認を要求）といった具合です。

2. 一貫性モデル：データ同期の「厳格さ」

一貫性はスイッチ（あるかないか）ではなく、スペクトルです。異なる一貫性モデルは「正確性」と「パフォーマンス」の間で異なるトレードオフを行います。

Strong consistency

Eventual consistency

Causal consistency

Strong consistency

After a write succeeds, every node immediately returns the newest value, giving an experience like a single-machine database.

Node A

Node B

Node C

Initial state: all nodes are consistent

Node A

v2 write

Node B

syncing...

Node C

syncing...

The client writes v2 and waits for every node to confirm

Node A

Node B

Node C

Only after all nodes confirm does the write succeed; any node reads v2

Trade-off: Higher latency because all nodes must confirm, and lower availability because node failures may block progress.

一貫性モデルの比較

モデル	保証	レイテンシ	適用シナリオ
強一貫性	読み取るのは必ず最新の書き込み値	高い（同期の待機が必要）	銀行振込、在庫引当
結果整合性	最終的にすべてのレプリカが一致するが、途中で古い値が読まれる可能性	低い（書き込み直後に返却）	ソーシャルフィード、DNS
因果一貫性	因果関係のある操作の順序は保証される	中程度	コメント返信、共同編集
線形化可能性	すべての操作が単一マシン上で順次実行されたように見える	最高	分散ロック、リーダー選出
セッション一貫性	同一セッション内で自分の書き込みを読み取れることを保証	低〜中	ユーザーの個人データ

「自分の書き込みを読む」一貫性

最も一般的な実用的ニーズは、ユーザーが自分のデータを変更した後、すぐに更新を確認できることです（ただし他のユーザーは少し後で確認できます）。これは「Read Your Own Writes」一貫性と呼ばれ、結果整合性の実用的な拡張です。

3. 8つの課題：分散システムの「地雷原」

分散システムの複雑さは単一の問題から来るのではなく、複数の問題が絡み合っています。以下は最も中核的な8つの課題です。

🔌

Unreliable network

⏰

Clock drift

✂️

Network partition

🔄

Data consistency

💥

Partial failure

🧠

Split brain

📋

Event ordering

🔐

Distributed transaction

🔌 Unreliable network

Nodes communicate over networks that may drop packets, delay messages, or disconnect at any time. This is the fundamental challenge of distributed systems: never assume the network is reliable.

Scenario: Service A calls service B and receives no response after 3 seconds. Did B miss the request, or did B process it and lose the response? A cannot tell.

Mitigation strategies:

Timeouts and retries with idempotency
Heartbeat checks to detect connection health
Circuit breakers to pause calls after repeated failures

課題間の関連

この8つの課題は独立しているのではなく、相互に関連しています：

ネットワークの信頼性の欠如 → ネットワーク分断を引き起こす → CAPのトレードオフを触发する
時計の非同期 → イベント順序付けの困難を引き起こす → データ一貫性に影響する
部分的障害 → スプリットブレインを引き起こす可能性 → 合意アルゴリズムで解決が必要
データ一貫性 → 分散トランザクションが必要 → しかしトランザクション自体もネットワークの信頼性の欠如の影響を受ける

銀の弾丸はない

分散システムに「完璧な」ソリューションはありません。「適切な」トレードオフがあるだけです。これらの課題の本質を理解してこそ、システム設計時に正しい取捨選択ができます。

4. 合意アルゴリズム：複数マシンで「合意に達する」方法

合意アルゴリズムは分散システムの中核です。解決する問題は、複数のノードがどのようにしてある値について合意に達するかです。一部のノードが故障したりネットワーク遅延があったりしても合意が必要です。

4.1 Paxos

Leslie Lamportが1990年に提起した、厳密に正しさが証明された最初の合意アルゴリズムです。

役割	職責
Proposer	提案（値）を提出する
Acceptor	投票で提案の受諾または拒否を行う
Learner	最終的に選定された値を学習する

2段階のプロセス：

Prepare段階：Proposerが提案番号を送信し、Acceptorはそれより小さい番号の提案を受け付けないことを約束する
Accept段階：Proposerが具体的な値を送信し、多数のAcceptorが受諾すれば提案は可決される

Paxosの問題

Paxosは正しいものの、理解と実装が非常に困難であることで有名です。Lamport自身の論文がギリシャ議会の比喩を使った結果、かえって多くの人を混乱させました。

4.2 Raft：理解可能性のために生まれた

2014年にDiego OngaroがRaftを提案しました。「理解しやすいPaxos」を作ることが目標です。合意問題を3つのサブ問題に分解します：

サブ問題	説明
リーダー選出	クラスタから1つのリーダーを選出し、すべての書き込みはリーダーを経由する
ログ複製	リーダーが操作ログをすべてのフォロワーに複製する
安全性	既にコミットされたログが上書きされないことを保証する

Raftのコアプロセス：

クラスタ起動時、すべてのノードはFollower
Followerがリーダーのハートビートをタイムアウトまで受信できない場合、Candidateに移行して選出を開始する
多数票を獲得したCandidateが新しいLeaderになる
Leaderがクライアントのリクエストを受け付け、多数のノードにログを複製してからコミットする

4.3 合意アルゴリズムの比較

アルゴリズム	提案年	理解のしやすさ	利用システム
Paxos	1990	困難	Google Chubby
Raft	2014	容易	etcd、Consul、TiKV
ZAB	2011	中程度	ZooKeeper
EPaxos	2013	困難	主に学術研究

5. 分散トランザクション：ノードをまたぐ「全部か無か」

単一マシンのデータベーストランザクションは、ローカルのロックとログでACIDを実現します。しかし、1つの業務操作が複数のサービス/データベースにまたがる場合、原子性をどう保証するのでしょうか？

5.1 2相コミット（2PC）

最も古典的な分散トランザクションプロトコルで、2つの段階に分かれています：

段階	コーディネータの動作	参加者の動作
Prepare	すべての参加者に「コミットできるか？」と尋ねる	操作を実行するがコミットせず、Yes/Noで回答
Commit	全員がYesならCommitを送信	正式にコミット。Noがあれば全員ロールバック

2PCの問題点：

ブロッキング：Prepare後、コーディネータが落ちると参加者は待ち続ける
単一障害点：コーディネータが単一障害点であり、落ちるとトランザクション全体が止まる
パフォーマンス低下：複数回のネットワーク往復が必要で、ロックの保持時間が長い

5.2 Sagaパターン

Sagaは大きなトランザクションを複数のローカルトランザクションに分割し、各ローカルトランザクションには対応する補償操作があります。あるステップが失敗した場合、逆順で補償を実行します。

ECサイト注文のSagaの例：

ステップ	正方向の操作	補償操作
T1	注文を作成（支払待ち）	注文をキャンセル
T2	在庫を引当	在庫を復元
T3	残高を引当	残高を返金
T4	注文を確定（支払済み）	—

もしT3（残高の引当）が失敗した場合：C2（在庫の復元）→ C1（注文のキャンセル）を実行します。

2つのオーケストレーション方式：

コレオグラフィ方式（Choreography）：各サービスがイベントをリッスンし、次のステップを自律的に決定する。シンプルだが全体の状態追跡が困難
オーケストレーション方式（Orchestration）：中央コーディネータがフローを制御する。明確だがコーディネータが単一障害点になる

5.3 TCC（Try-Confirm-Cancel）

TCCは2PCのビジネス層実装で、各操作を3つの段階に分けます：

段階	説明	例（在庫の引き当て）
Try	リソースを予約するが、実際には実行しない	10個の在庫を凍結（利用可能在庫 -10、凍結在庫 +10）
Confirm	実行を確認し、予約リソースを消費する	凍結在庫 -10（実際の引き当て）
Cancel	予約をキャンセルし、リソースを解放する	凍結在庫 -10、利用可能在庫 +10（復元）

5.4 3つの手法の比較

手法	一貫性	パフォーマンス	複雑さ	適用シナリオ
2PC	強一貫	低い	中程度	データベースレベルのクロスデータベーストランザクション
Saga	結果整合	高い	高い	長時間の業務プロセス（注文、物流）
TCC	結果整合	中程度	最高	資金関連の高信頼性シナリオ

実際の選択のアドバイス

単一データベースのトランザクションで済むなら分散トランザクションは使わない
ほとんどの業務シナリオではSaga + メッセージキューで十分
TCCは一貫性の要求が極めて高い金融シナリオに適しているが、開発コストも高い
2PCはデータベースミドルウェア（ShardingSphereなど）による自動処理に適している

まとめ

分散システムは現代インターネットのインフラですが、その複雑さは単一マシンのシステムを遥かに超えます。これらの課題を理解するのは「解決」するためではなく（多くは根本的に解決不可能です）、システム設計時に正しいトレードオフを行うためです。

本章の主要なポイントを振り返りましょう：

CAP定理：ネットワーク分断は避けられず、実際の選択は一貫性と可用性の間のトレードオフ
一貫性モデル：強一貫から結果整合まではスペクトルであり、業務要件に応じて選択する
8つの課題：ネットワークの信頼性の欠如、時計の非同期、ネットワーク分断、スプリットブレインなどが相互に関連
合意アルゴリズム：Raftが現在最も実用的な合意アルゴリズムであり、etcd/Consulはこれに基づいている
分散トランザクション：Sagaはほとんどのシナリオに適し、TCCは金融シナリオに適し、2PCはデータベース層に適している

分散システムの課題 ​

0. 全景図：なぜ分散システムが必要なのか？ ​

1. CAP定理：分散システムの「不可能な三角形」 ​

なぜ2つしか選べないのか？ ​

2. 一貫性モデル：データ同期の「厳格さ」 ​

一貫性モデルの比較 ​

3. 8つの課題：分散システムの「地雷原」 ​

課題間の関連 ​

4. 合意アルゴリズム：複数マシンで「合意に達する」方法 ​

4.1 Paxos ​

4.2 Raft：理解可能性のために生まれた ​

4.3 合意アルゴリズムの比較 ​

5. 分散トランザクション：ノードをまたぐ「全部か無か」 ​

5.1 2相コミット（2PC） ​

5.2 Sagaパターン ​

5.3 TCC（Try-Confirm-Cancel） ​

5.4 3つの手法の比較 ​

まとめ ​

関連資料 ​

分散システムの課題

0. 全景図：なぜ分散システムが必要なのか？

1. CAP定理：分散システムの「不可能な三角形」

なぜ2つしか選べないのか？

2. 一貫性モデル：データ同期の「厳格さ」

一貫性モデルの比較

3. 8つの課題：分散システムの「地雷原」

課題間の関連

4. 合意アルゴリズム：複数マシンで「合意に達する」方法

4.1 Paxos

4.2 Raft：理解可能性のために生まれた

4.3 合意アルゴリズムの比較

5. 分散トランザクション：ノードをまたぐ「全部か無か」

5.1 2相コミット（2PC）

5.2 Sagaパターン

5.3 TCC（Try-Confirm-Cancel）

5.4 3つの手法の比較

まとめ

関連資料