分散システムの課題
はじめに
1台のマシンでは足りなくなったとき、本当の問題が始まります。 分散システムは現代インターネットの基盤です。WeChatのメッセージからTaobaoの注文まで、裏側では何百、何千台ものマシンが連携して動いています。しかし、「分散」はただのランチではありません。単一マシンのシステムでは考えられなかった一連の課題をもたらします。
この記事で何を学べるのか?
この章を読み終えると、以下のことが身につきます:
- 核心定理:CAP定理とシステム設計への影響を理解する
- 一貫性モデル:強一貫性、結果整合性、因果一貫性を区別する
- 8つの課題:分散システムが直面する中核的な難題を把握する
- 合意アルゴリズム:Paxos、Raftなどの分散合意の基本思想を理解する
- 実践パターン:2PC、Saga、CRDTなどの一般的なソリューションに習熟する
| 章 | 内容 | 核心概念 |
|---|---|---|
| 第1章 | なぜ分散が必要なのか | スケーラビリティ、可用性、地理的分散 |
| 第2章 | CAP定理 | 一貫性、可用性、分断耐性 |
| 第3章 | 一貫性モデル | 強一貫、結果整合、因果一貫 |
| 第4章 | 8つの課題 | ネットワーク、時計、分断、スプリットブレインなど |
| 第5章 | 合意アルゴリズム | Paxos、Raft、ZAB |
| 第6章 | 分散トランザクション | 2PC、Saga、TCC |
0. 全景図:なぜ分散システムが必要なのか?
単一マシンのシステムはシンプルで信頼性がありますが、3つの越えられないボトルネックがあります:
| ボトルネック | 説明 | 分散による解決策 |
|---|---|---|
| 性能の上限 | 単一マシンのCPU、メモリ、ディスクには物理的な限界がある | 水平スケーリング:より多くのマシンを追加して負荷を分散 |
| 単一障害点 | 1台のマシンが落ちるとサービス全体が停止する | 冗長レプリカ:複数マシンが互いにバックアップ |
| 地理的遅延 | ユーザーは世界中にいるが、単一マシンは1カ所にしか置けない | 複数拠点展開:ユーザーの近くでサービスを提供 |
分散の代償
分散システムは上記の問題を解決しますが、新たな複雑さをもたらします。ネットワークの信頼性、時計の同期、部分的な障害、データの一貫性……これらがこの記事で議論する「課題」です。
Peter Deutschの分散コンピューティング8つの誤謬は、以下の仮定が分散環境ではすべて間違っていることを教えてくれます:
- ネットワークは信頼できる
- レイテンシはゼロである
- 帯域幅は無限である
- ネットワークは安全である
- トポロジーは変化しない
- 管理者は1人しかいない
- 転送コストはゼロである
- ネットワークは同質である
1. CAP定理:分散システムの「不可能な三角形」
2000年、Eric BrewerはCAP推測(後に定理として証明)を提起しました。分散システムは以下の3つの属性のうち、同時に満たせるのは最大2つまでです。
| 属性 | 意味 | わかりやすい説明 |
|---|---|---|
| Consistency(一貫性) | すべてのノードが同じ時点で同じデータを見る | どのATMで残高を照会しても結果は同じ |
| Availability(可用性) | すべてのリクエストがエラーでない応答を受け取る | システムは常に応答し、「サービス利用不可」とは言わない |
| Partition tolerance(分断耐性) | ネットワーク分断時もシステムが稼働し続ける | 一部のケーブルが切断されてもシステムは動く |
なぜ2つしか選べないのか?
分散環境では、ネットワーク分断(P)は避けられません。光ファイバーが掘り起こされ、スイッチが故障し、データセンターのネットワークが切断されます。したがってPは必須選択であり、実際の選択はCとAの間のトレードオフになります:
- CPを選択:分断時に不確実なリクエストを拒否し、データの正確性を保証 → 金融、在庫に適している
- APを選択:分断時もサービスを継続するが、データが一時的に不整合になる可能性 → ソーシャル、コンテンツに適している
CAPは白黒はっきりではない
現実のシステムは単純な「CPかAPか」ではありません。多くのシステムは異なる操作で異なる選択をします。例えば、同じデータベースでも、読み取り操作はAP(古いデータの読み取りを許可)、書き込み操作はCP(多数確認を要求)といった具合です。
2. 一貫性モデル:データ同期の「厳格さ」
一貫性はスイッチ(あるかないか)ではなく、スペクトルです。異なる一貫性モデルは「正確性」と「パフォーマンス」の間で異なるトレードオフを行います。
一貫性モデルの比較
| モデル | 保証 | レイテンシ | 適用シナリオ |
|---|---|---|---|
| 強一貫性 | 読み取るのは必ず最新の書き込み値 | 高い(同期の待機が必要) | 銀行振込、在庫引当 |
| 結果整合性 | 最終的にすべてのレプリカが一致するが、途中で古い値が読まれる可能性 | 低い(書き込み直後に返却) | ソーシャルフィード、DNS |
| 因果一貫性 | 因果関係のある操作の順序は保証される | 中程度 | コメント返信、共同編集 |
| 線形化可能性 | すべての操作が単一マシン上で順次実行されたように見える | 最高 | 分散ロック、リーダー選出 |
| セッション一貫性 | 同一セッション内で自分の書き込みを読み取れることを保証 | 低〜中 | ユーザーの個人データ |
「自分の書き込みを読む」一貫性
最も一般的な実用的ニーズは、ユーザーが自分のデータを変更した後、すぐに更新を確認できることです(ただし他のユーザーは少し後で確認できます)。これは「Read Your Own Writes」一貫性と呼ばれ、結果整合性の実用的な拡張です。
3. 8つの課題:分散システムの「地雷原」
分散システムの複雑さは単一の問題から来るのではなく、複数の問題が絡み合っています。以下は最も中核的な8つの課題です。
- Timeouts and retries with idempotency
- Heartbeat checks to detect connection health
- Circuit breakers to pause calls after repeated failures
課題間の関連
この8つの課題は独立しているのではなく、相互に関連しています:
- ネットワークの信頼性の欠如 → ネットワーク分断を引き起こす → CAPのトレードオフを触发する
- 時計の非同期 → イベント順序付けの困難を引き起こす → データ一貫性に影響する
- 部分的障害 → スプリットブレインを引き起こす可能性 → 合意アルゴリズムで解決が必要
- データ一貫性 → 分散トランザクションが必要 → しかしトランザクション自体もネットワークの信頼性の欠如の影響を受ける
銀の弾丸はない
分散システムに「完璧な」ソリューションはありません。「適切な」トレードオフがあるだけです。これらの課題の本質を理解してこそ、システム設計時に正しい取捨選択ができます。
4. 合意アルゴリズム:複数マシンで「合意に達する」方法
合意アルゴリズムは分散システムの中核です。解決する問題は、複数のノードがどのようにしてある値について合意に達するかです。一部のノードが故障したりネットワーク遅延があったりしても合意が必要です。
4.1 Paxos
Leslie Lamportが1990年に提起した、厳密に正しさが証明された最初の合意アルゴリズムです。
| 役割 | 職責 |
|---|---|
| Proposer | 提案(値)を提出する |
| Acceptor | 投票で提案の受諾または拒否を行う |
| Learner | 最終的に選定された値を学習する |
2段階のプロセス:
- Prepare段階:Proposerが提案番号を送信し、Acceptorはそれより小さい番号の提案を受け付けないことを約束する
- Accept段階:Proposerが具体的な値を送信し、多数のAcceptorが受諾すれば提案は可決される
Paxosの問題
Paxosは正しいものの、理解と実装が非常に困難であることで有名です。Lamport自身の論文がギリシャ議会の比喩を使った結果、かえって多くの人を混乱させました。
4.2 Raft:理解可能性のために生まれた
2014年にDiego OngaroがRaftを提案しました。「理解しやすいPaxos」を作ることが目標です。合意問題を3つのサブ問題に分解します:
| サブ問題 | 説明 |
|---|---|
| リーダー選出 | クラスタから1つのリーダーを選出し、すべての書き込みはリーダーを経由する |
| ログ複製 | リーダーが操作ログをすべてのフォロワーに複製する |
| 安全性 | 既にコミットされたログが上書きされないことを保証する |
Raftのコアプロセス:
- クラスタ起動時、すべてのノードはFollower
- Followerがリーダーのハートビートをタイムアウトまで受信できない場合、Candidateに移行して選出を開始する
- 多数票を獲得したCandidateが新しいLeaderになる
- Leaderがクライアントのリクエストを受け付け、多数のノードにログを複製してからコミットする
4.3 合意アルゴリズムの比較
| アルゴリズム | 提案年 | 理解のしやすさ | 利用システム |
|---|---|---|---|
| Paxos | 1990 | 困難 | Google Chubby |
| Raft | 2014 | 容易 | etcd、Consul、TiKV |
| ZAB | 2011 | 中程度 | ZooKeeper |
| EPaxos | 2013 | 困難 | 主に学術研究 |
5. 分散トランザクション:ノードをまたぐ「全部か無か」
単一マシンのデータベーストランザクションは、ローカルのロックとログでACIDを実現します。しかし、1つの業務操作が複数のサービス/データベースにまたがる場合、原子性をどう保証するのでしょうか?
5.1 2相コミット(2PC)
最も古典的な分散トランザクションプロトコルで、2つの段階に分かれています:
| 段階 | コーディネータの動作 | 参加者の動作 |
|---|---|---|
| Prepare | すべての参加者に「コミットできるか?」と尋ねる | 操作を実行するがコミットせず、Yes/Noで回答 |
| Commit | 全員がYesならCommitを送信 | 正式にコミット。Noがあれば全員ロールバック |
2PCの問題点:
- ブロッキング:Prepare後、コーディネータが落ちると参加者は待ち続ける
- 単一障害点:コーディネータが単一障害点であり、落ちるとトランザクション全体が止まる
- パフォーマンス低下:複数回のネットワーク往復が必要で、ロックの保持時間が長い
5.2 Sagaパターン
Sagaは大きなトランザクションを複数のローカルトランザクションに分割し、各ローカルトランザクションには対応する補償操作があります。あるステップが失敗した場合、逆順で補償を実行します。
ECサイト注文のSagaの例:
| ステップ | 正方向の操作 | 補償操作 |
|---|---|---|
| T1 | 注文を作成(支払待ち) | 注文をキャンセル |
| T2 | 在庫を引当 | 在庫を復元 |
| T3 | 残高を引当 | 残高を返金 |
| T4 | 注文を確定(支払済み) | — |
もしT3(残高の引当)が失敗した場合:C2(在庫の復元)→ C1(注文のキャンセル)を実行します。
2つのオーケストレーション方式:
- コレオグラフィ方式(Choreography):各サービスがイベントをリッスンし、次のステップを自律的に決定する。シンプルだが全体の状態追跡が困難
- オーケストレーション方式(Orchestration):中央コーディネータがフローを制御する。明確だがコーディネータが単一障害点になる
5.3 TCC(Try-Confirm-Cancel)
TCCは2PCのビジネス層実装で、各操作を3つの段階に分けます:
| 段階 | 説明 | 例(在庫の引き当て) |
|---|---|---|
| Try | リソースを予約するが、実際には実行しない | 10個の在庫を凍結(利用可能在庫 -10、凍結在庫 +10) |
| Confirm | 実行を確認し、予約リソースを消費する | 凍結在庫 -10(実際の引き当て) |
| Cancel | 予約をキャンセルし、リソースを解放する | 凍結在庫 -10、利用可能在庫 +10(復元) |
5.4 3つの手法の比較
| 手法 | 一貫性 | パフォーマンス | 複雑さ | 適用シナリオ |
|---|---|---|---|---|
| 2PC | 強一貫 | 低い | 中程度 | データベースレベルのクロスデータベーストランザクション |
| Saga | 結果整合 | 高い | 高い | 長時間の業務プロセス(注文、物流) |
| TCC | 結果整合 | 中程度 | 最高 | 資金関連の高信頼性シナリオ |
実際の選択のアドバイス
- 単一データベースのトランザクションで済むなら分散トランザクションは使わない
- ほとんどの業務シナリオではSaga + メッセージキューで十分
- TCCは一貫性の要求が極めて高い金融シナリオに適しているが、開発コストも高い
- 2PCはデータベースミドルウェア(ShardingSphereなど)による自動処理に適している
まとめ
分散システムは現代インターネットのインフラですが、その複雑さは単一マシンのシステムを遥かに超えます。これらの課題を理解するのは「解決」するためではなく(多くは根本的に解決不可能です)、システム設計時に正しいトレードオフを行うためです。
本章の主要なポイントを振り返りましょう:
- CAP定理:ネットワーク分断は避けられず、実際の選択は一貫性と可用性の間のトレードオフ
- 一貫性モデル:強一貫から結果整合まではスペクトルであり、業務要件に応じて選択する
- 8つの課題:ネットワークの信頼性の欠如、時計の非同期、ネットワーク分断、スプリットブレインなどが相互に関連
- 合意アルゴリズム:Raftが現在最も実用的な合意アルゴリズムであり、etcd/Consulはこれに基づいている
- 分散トランザクション:Sagaはほとんどのシナリオに適し、TCCは金融シナリオに適し、2PCはデータベース層に適している
関連資料
- Designing Data-Intensive Applications - Martin Kleppmannの分散システムの古典
- The Raft Consensus Algorithm - Raft公式のビジュアルデモ
- CAP Twelve Years Later - BrewerによるCAPの再考察
- Jepsen - 分散システムの正確性テストフレームワーク
- 分散システムパターン - Martin Fowlerの分散パターンコレクション