Skip to content

10. Domestic AI Chips Overview | 算力现状与替代方案 (AI Chips Overview)

难度: Medium | 标签: 系统架构, 异构算力, 拓展阅读 | 目标人群: 核心 Infra 与算子开发

在真实的大模型基建环境中,虽然 NVIDIA 的硬件体系长期占据绝对的主导地位,但随着全球供应链的变化和算力需求的多样化,各类异构 GPU(如 AMD、国内新兴的高性能 GPGPU 厂商)在智算中心的部署比例正逐步上升。 对于 AI Infra 工程师而言,了解主流 GPU 的架构特点以及跨硬件平台的生态适配策略,是一项非常重要的架构设计能力。

相关阅读:
本节为纯理论与常识科普,暂无强关联的代码实战,推荐作为基石阅读。


Q1:除了绝对标杆的 NVIDIA 体系,目前在数据中心和智算集群中还有哪些重要的 GPU/GPGPU 路线?

点击展开查看解析

除了大家都熟知的 NVIDIA (A100/H100 + CUDA 生态) 之外,工业界中目前主要有以下几条具有代表性的算力路线:

  1. AMD 生态 (如 MI300X):

    • 架构特点:拥有极高的显存容量和内存带宽,其底层架构 (CDNA) 同样为高度并行的 GPGPU 设计。
    • 软件栈ROCm (Radeon Open Compute) 平台。其核心优势在于提供了一套高度兼容 CUDA 的工具链(如 HIP),允许开发者以相对较低的成本将现有的 CUDA 代码平移过去。
  2. 高性能 GPGPU 新势力 (如摩尔线程 Moore Threads):

    • 架构特点:采用全功能 GPU 架构(如 MUSA 架构),不仅强调 AI 训练和推理的算力,同时也兼顾传统的图形渲染与通用科学计算。
    • 软件栈:提供兼容主流深度学习框架的软硬件平台。它的优势在于通用性强,生态上往往致力于提供与主流 CUDA 接口高度相似的编程体验,从而降低迁移门槛。
  3. 专攻全精度算力的新兴 GPGPU (如沐曦 MetaX):

    • 架构特点:同样走高性能通用 GPU (GPGPU) 路线,通常强调提供完整的高低精度算力(如 FP64/FP32 到 FP16/INT8 等)。
    • 定位:旨在打造能够无缝接入现有 AI 训练集群和高性能计算 (HPC) 节点的通用加速核心。
  4. 定制化 ASIC/NPU 路线 (如 Google TPU 或部分专有 AI 芯片):

    • 架构特点:放弃如图形处理等无关功能,内部核心往往是一个巨大的矩阵乘法阵列(如 TPU 的 Systolic Array 脉动阵列)。
    • 定位:在特定的网络结构或编译图下能达到极高的计算效率,但通用性不如 GPGPU。

Q2:作为 Infra 工程师,将大模型训练任务从现有的 NVIDIA 集群迁移到其他异构 GPU 平台时,最大的技术挑战是什么?

点击展开查看解析

跨硬件平台的迁移从来不是简单的“换张显卡”,它涉及整个软件系统栈的重构。核心的技术挑战集中在以下三个层面:

1. 底层算子对齐与计算图融合 (Kernel Alignment & Graph Fusion)

  • 原生 PyTorch 的大模型代码深度绑定了特定硬件优化的算子(例如严重依赖 NVIDIA PTX 汇编的 FlashAttentionxFormers)。
  • 痛点:目标异构 GPU 可能暂时缺乏同等极致优化的手工算子。如果回退到用基础小算子(如单独调用加法、乘法)拼接,会导致灾难性的 Memory Bound 问题。
  • 解法:强烈依赖 AI 编译器(如支持多后端的 OpenAI Triton、Apache TVM 或厂商自研编译器)在计算图层面进行算子融合 (Operator Fusion) 和目标机器码的自动生成。

2. 集合通信库的无缝替换 (Collective Communication)

  • 万卡规模的大模型训练极其依赖高效的网络通信原语(如 NVIDIA 的 NCCL)。
  • 痛点:异构 GPU 平台必须提供功能和性能能够直接平替 NCCL 的通信库(例如针对其私有互联协议优化的通信实现)。
  • 解法:该通信库必须完全兼容 PyTorch 的 torch.distributed 协议。否则,在执行张量并行 (TP) 的前反向同步或 ZeRO-3 的参数切片拉取时,极易引发大面积的网络死锁或严重阻塞。

3. 算术精度与数值对齐 (Numerical Alignment)

  • 不同厂商的硬件在底层乘加运算 (FMA) 单元的设计上存在微小差异(例如不同的硬件舍入策略、是否原生支持 BF16、对 NaN/Inf 的处理逻辑等)。
  • 痛点:在百亿参数的深层网络中,微小的数值计算差异会被逐层放大,最终导致迁移后的训练 Loss 不收敛,或者在训练中期频繁出现数值尖峰 (Spike)。
  • 解法:要求 Infra 团队具备极强的调试追踪能力,建立自动化的逐层对齐机制,找出偏离标准浮点模型 (Golden Reference) 的具体网络层或算子并进行修正。

Released under the MIT License.