Skip to content

33. TCO and Cost Model | TCO and Cost Model

难度: Medium | 标签: 成本评估, TCO, 硬件选型 | 目标人群: 需要做 GPU 选型和预算判断的学习者

这页的重点不是报具体价格,而是建立一个实用的成本评估框架。硬件选型从来不只是“算力更高就更好”,而是要把采购、能源、维护、迁移和风险一起算进去。

前置阅读建议先看 1E-02 芯片现状与替代方案,先把不同硬件的规格、生态和定位搞清楚,再看这页会更顺。

Q1:TCO 是什么?

点击展开查看解析

TCO(Total Cost of Ownership,总拥有成本)通常不只是设备采购价,还包括:

  • GPU / 服务器采购成本
  • 电力和散热成本
  • 网络和存储成本
  • 运维和人力成本
  • 迁移与适配成本
  • 故障和停机带来的损失

因此,判断“哪种硬件更划算”时,不能只看单卡价格或单卡算力。

一个常见误区是只看 $/TFLOPs,但对真正的训练和推理系统来说,软件生态和稳定性也会显著影响总成本。

一个最粗的三年 TCO 视角可以这样看:

成本项常见占比说明
硬件采购40-50%GPU、服务器、网络和机柜
电力与散热20-30%PUE、空调、供电
运维人力15-25%工程师、值守、机房管理
网络与存储5-10%交换机、共享存储、带宽
迁移与适配0-20%是否更换生态决定差别很大

如果用 3 年期做粗算,常见表达式可以写成:

text
3 年 TCO ≈ 采购成本 + 3 × 电费 + 3 × 运维成本 + 迁移成本 + 风险成本

这类估算不追求小数点后精度,目标是帮助你先判断“到底哪一项最贵”。

Q2:为什么训练和推理的成本结构不同?

点击展开查看解析

训练和推理的成本驱动不一样:

  • 训练 更看重:

    • 多卡扩展性
    • 通信效率
    • 失败重试和 checkpoint
    • 长时间稳定性
  • 推理 更看重:

    • 单卡吞吐
    • 显存容量
    • 延迟稳定性
    • 部署和运维复杂度

这意味着同一款硬件,在训练场景和推理场景下的“性价比”可能完全不同。

如果再把单位成本说得更具体一点,可以这么记:

指标训练推理
核心关注$/GPU-hour、MFU、通信效率$/1M tokens、吞吐、尾延迟
典型规模百卡 / 千卡集群单卡 / 小集群
利用率重点高 MFU,尽量减少 idle低延迟 + 高吞吐
故障代价高,重跑时间长中,可 fallback

训练更像“长时间烧卡”,推理更像“持续卖 token”。

Q3:如何快速做一个粗略的成本判断?

点击展开查看解析

可以先用一个很粗的框架:

text
总成本 ≈ 采购成本 + 能耗成本 + 运维成本 + 迁移成本 + 风险成本

然后再问三个问题:

  • 任务是训练还是推理
  • 当前代码和模型是否已经适配目标平台
  • 团队是否有维护新栈的能力

如果硬件更便宜,但迁移和维护成本很高,那它未必真的更划算。

如果你要做迁移成本评估,可以把 CUDA → ROCm 当作一个典型参考:

迁移内容工作量风险
Python / PyTorch 主体代码低,通常先替换接口
自定义 CUDA kernel高,往往需要重写为 HIP 或 Triton中高
第三方库(xFormers / Apex)中,需找替代或移植
通信库(NCCL → RCCL)中,API 近似但性能要调优
运维监控与部署中,需要适配新栈

如果团队对新栈没有经验,迁移成本很容易从“几周”变成“几个月”。

Q4:这页最重要的决策建议是什么?

点击展开查看解析
  • 不是所有场景都追求最高峰值算力
  • 不是所有场景都值得迁移到新平台
  • 不是所有便宜硬件都是真的低成本

更稳妥的思路是:

  • 先确认目标任务
  • 再确认硬件是否满足容量和带宽
  • 最后确认软件生态和运维代价

这也是为什么 Chapter 1 的最后一页更适合用来做“系统性判断”,而不是只列参数表。

小结

如果你已经能把采购、能耗、运维、迁移和风险放在一起看,这一页的目标基本达成。

关联阅读

这一页和 1E-02 是直接互补的,建议一起看:

  • 1E-02 芯片现状与替代方案
  • 1C-03 并行策略决策框架

配合练习

这一页建议和后面的练习一起看。这页的练习可以围绕下面四个目标展开:

  • 画出不同硬件的 $/TFLOPs 和能效曲线
  • 估算一个 3 年期 TCO,看看采购 / 电费 / 运维哪项最重
  • 做一个简单的 TCO 计算器,把迁移成本也加进去
  • 设计一个选型决策树,比较训练和推理场景下的优先级差异

Notebook 口径

这一页当前保留正文草稿和练习建议,不单独挂独立 Notebook。后续如果补练习,会按 Chapter 1 公开 Notebook 的统一模板来做。

Released under the MIT License.