33. TCO and Cost Model | TCO and Cost Model
难度: Medium | 标签: 成本评估, TCO, 硬件选型 | 目标人群: 需要做 GPU 选型和预算判断的学习者
这页的重点不是报具体价格,而是建立一个实用的成本评估框架。硬件选型从来不只是“算力更高就更好”,而是要把采购、能源、维护、迁移和风险一起算进去。
前置阅读建议先看 1E-02 芯片现状与替代方案,先把不同硬件的规格、生态和定位搞清楚,再看这页会更顺。
Q1:TCO 是什么?
点击展开查看解析
TCO(Total Cost of Ownership,总拥有成本)通常不只是设备采购价,还包括:
- GPU / 服务器采购成本
- 电力和散热成本
- 网络和存储成本
- 运维和人力成本
- 迁移与适配成本
- 故障和停机带来的损失
因此,判断“哪种硬件更划算”时,不能只看单卡价格或单卡算力。
一个常见误区是只看 $/TFLOPs,但对真正的训练和推理系统来说,软件生态和稳定性也会显著影响总成本。
一个最粗的三年 TCO 视角可以这样看:
| 成本项 | 常见占比 | 说明 |
|---|---|---|
| 硬件采购 | 40-50% | GPU、服务器、网络和机柜 |
| 电力与散热 | 20-30% | PUE、空调、供电 |
| 运维人力 | 15-25% | 工程师、值守、机房管理 |
| 网络与存储 | 5-10% | 交换机、共享存储、带宽 |
| 迁移与适配 | 0-20% | 是否更换生态决定差别很大 |
如果用 3 年期做粗算,常见表达式可以写成:
3 年 TCO ≈ 采购成本 + 3 × 电费 + 3 × 运维成本 + 迁移成本 + 风险成本这类估算不追求小数点后精度,目标是帮助你先判断“到底哪一项最贵”。
Q2:为什么训练和推理的成本结构不同?
点击展开查看解析
训练和推理的成本驱动不一样:
训练 更看重:
- 多卡扩展性
- 通信效率
- 失败重试和 checkpoint
- 长时间稳定性
推理 更看重:
- 单卡吞吐
- 显存容量
- 延迟稳定性
- 部署和运维复杂度
这意味着同一款硬件,在训练场景和推理场景下的“性价比”可能完全不同。
如果再把单位成本说得更具体一点,可以这么记:
| 指标 | 训练 | 推理 |
|---|---|---|
| 核心关注 | $/GPU-hour、MFU、通信效率 | $/1M tokens、吞吐、尾延迟 |
| 典型规模 | 百卡 / 千卡集群 | 单卡 / 小集群 |
| 利用率重点 | 高 MFU,尽量减少 idle | 低延迟 + 高吞吐 |
| 故障代价 | 高,重跑时间长 | 中,可 fallback |
训练更像“长时间烧卡”,推理更像“持续卖 token”。
Q3:如何快速做一个粗略的成本判断?
点击展开查看解析
可以先用一个很粗的框架:
总成本 ≈ 采购成本 + 能耗成本 + 运维成本 + 迁移成本 + 风险成本然后再问三个问题:
- 任务是训练还是推理
- 当前代码和模型是否已经适配目标平台
- 团队是否有维护新栈的能力
如果硬件更便宜,但迁移和维护成本很高,那它未必真的更划算。
如果你要做迁移成本评估,可以把 CUDA → ROCm 当作一个典型参考:
| 迁移内容 | 工作量 | 风险 |
|---|---|---|
| Python / PyTorch 主体代码 | 低,通常先替换接口 | 低 |
| 自定义 CUDA kernel | 高,往往需要重写为 HIP 或 Triton | 中高 |
| 第三方库(xFormers / Apex) | 中,需找替代或移植 | 中 |
| 通信库(NCCL → RCCL) | 中,API 近似但性能要调优 | 中 |
| 运维监控与部署 | 中,需要适配新栈 | 中 |
如果团队对新栈没有经验,迁移成本很容易从“几周”变成“几个月”。
Q4:这页最重要的决策建议是什么?
点击展开查看解析
- 不是所有场景都追求最高峰值算力
- 不是所有场景都值得迁移到新平台
- 不是所有便宜硬件都是真的低成本
更稳妥的思路是:
- 先确认目标任务
- 再确认硬件是否满足容量和带宽
- 最后确认软件生态和运维代价
这也是为什么 Chapter 1 的最后一页更适合用来做“系统性判断”,而不是只列参数表。
小结
如果你已经能把采购、能耗、运维、迁移和风险放在一起看,这一页的目标基本达成。
关联阅读
这一页和 1E-02 是直接互补的,建议一起看:
1E-02芯片现状与替代方案1C-03并行策略决策框架
配合练习
这一页建议和后面的练习一起看。这页的练习可以围绕下面四个目标展开:
- 画出不同硬件的
$/TFLOPs和能效曲线 - 估算一个 3 年期 TCO,看看采购 / 电费 / 运维哪项最重
- 做一个简单的 TCO 计算器,把迁移成本也加进去
- 设计一个选型决策树,比较训练和推理场景下的优先级差异
Notebook 口径
这一页当前保留正文草稿和练习建议,不单独挂独立 Notebook。后续如果补练习,会按 Chapter 1 公开 Notebook 的统一模板来做。
