10. Domestic AI Chips Overview | 算力现状与替代方案 (AI Chips Overview)

难度： Medium | 标签： 系统架构, 异构算力, 拓展阅读 | 目标人群： 核心 Infra 与算子开发

在真实的大模型基建环境中，虽然 NVIDIA 的硬件体系长期占据绝对的主导地位，但随着全球供应链的变化和算力需求的多样化，各类异构 GPU（如 AMD、国内新兴的高性能 GPGPU 厂商）在智算中心的部署比例正逐步上升。对于 AI Infra 工程师而言，了解主流 GPU 的架构特点以及跨硬件平台的生态适配策略，是一项非常重要的架构设计能力。

相关阅读:
本节为纯理论与常识科普，暂无强关联的代码实战，推荐作为基石阅读。

Q1：除了绝对标杆的 NVIDIA 体系，目前在数据中心和智算集群中还有哪些重要的 GPU/GPGPU 路线？

点击展开查看解析

除了大家都熟知的 NVIDIA (A100/H100 + CUDA 生态) 之外，工业界中目前主要有以下几条具有代表性的算力路线：

AMD 生态 (如 MI300X):
- 架构特点：拥有极高的显存容量和内存带宽，其底层架构 (CDNA) 同样为高度并行的 GPGPU 设计。
- 软件栈：ROCm (Radeon Open Compute) 平台。其核心优势在于提供了一套高度兼容 CUDA 的工具链（如 HIP），允许开发者以相对较低的成本将现有的 CUDA 代码平移过去。
高性能 GPGPU 新势力 (如摩尔线程 Moore Threads):
- 架构特点：采用全功能 GPU 架构（如 MUSA 架构），不仅强调 AI 训练和推理的算力，同时也兼顾传统的图形渲染与通用科学计算。
- 软件栈：提供兼容主流深度学习框架的软硬件平台。它的优势在于通用性强，生态上往往致力于提供与主流 CUDA 接口高度相似的编程体验，从而降低迁移门槛。
专攻全精度算力的新兴 GPGPU (如沐曦 MetaX):
- 架构特点：同样走高性能通用 GPU (GPGPU) 路线，通常强调提供完整的高低精度算力（如 FP64/FP32 到 FP16/INT8 等）。
- 定位：旨在打造能够无缝接入现有 AI 训练集群和高性能计算 (HPC) 节点的通用加速核心。
定制化 ASIC/NPU 路线 (如 Google TPU 或部分专有 AI 芯片):
- 架构特点：放弃如图形处理等无关功能，内部核心往往是一个巨大的矩阵乘法阵列（如 TPU 的 Systolic Array 脉动阵列）。
- 定位：在特定的网络结构或编译图下能达到极高的计算效率，但通用性不如 GPGPU。

Q2：作为 Infra 工程师，将大模型训练任务从现有的 NVIDIA 集群迁移到其他异构 GPU 平台时，最大的技术挑战是什么？

点击展开查看解析

跨硬件平台的迁移从来不是简单的“换张显卡”，它涉及整个软件系统栈的重构。核心的技术挑战集中在以下三个层面：

1. 底层算子对齐与计算图融合 (Kernel Alignment & Graph Fusion)

原生 PyTorch 的大模型代码深度绑定了特定硬件优化的算子（例如严重依赖 NVIDIA PTX 汇编的 FlashAttention 或 xFormers）。
痛点：目标异构 GPU 可能暂时缺乏同等极致优化的手工算子。如果回退到用基础小算子（如单独调用加法、乘法）拼接，会导致灾难性的 Memory Bound 问题。
解法：强烈依赖 AI 编译器（如支持多后端的 OpenAI Triton、Apache TVM 或厂商自研编译器）在计算图层面进行算子融合 (Operator Fusion) 和目标机器码的自动生成。

2. 集合通信库的无缝替换 (Collective Communication)

万卡规模的大模型训练极其依赖高效的网络通信原语（如 NVIDIA 的 NCCL）。
痛点：异构 GPU 平台必须提供功能和性能能够直接平替 NCCL 的通信库（例如针对其私有互联协议优化的通信实现）。
解法：该通信库必须完全兼容 PyTorch 的 torch.distributed 协议。否则，在执行张量并行 (TP) 的前反向同步或 ZeRO-3 的参数切片拉取时，极易引发大面积的网络死锁或严重阻塞。

3. 算术精度与数值对齐 (Numerical Alignment)

不同厂商的硬件在底层乘加运算 (FMA) 单元的设计上存在微小差异（例如不同的硬件舍入策略、是否原生支持 BF16、对 NaN/Inf 的处理逻辑等）。
痛点：在百亿参数的深层网络中，微小的数值计算差异会被逐层放大，最终导致迁移后的训练 Loss 不收敛，或者在训练中期频繁出现数值尖峰 (Spike)。
解法：要求 Infra 团队具备极强的调试追踪能力，建立自动化的逐层对齐机制，找出偏离标准浮点模型 (Golden Reference) 的具体网络层或算子并进行修正。

10. Domestic AI Chips Overview | 算力现状与替代方案 (AI Chips Overview) ​

Q1：除了绝对标杆的 NVIDIA 体系，目前在数据中心和智算集群中还有哪些重要的 GPU/GPGPU 路线？ ​

Q2：作为 Infra 工程师，将大模型训练任务从现有的 NVIDIA 集群迁移到其他异构 GPU 平台时，最大的技术挑战是什么？ ​

10. Domestic AI Chips Overview | 算力现状与替代方案 (AI Chips Overview)

Q1：除了绝对标杆的 NVIDIA 体系，目前在数据中心和智算集群中还有哪些重要的 GPU/GPGPU 路线？

Q2：作为 Infra 工程师，将大模型训练任务从现有的 NVIDIA 集群迁移到其他异构 GPU 平台时，最大的技术挑战是什么？