Skip to content
大模型算法实战教程
搜索
Main Navigation
第零部分 前置知识与环境准备
第一部分 硬件与系统基础
第二部分 PyTorch 核心算法
第三部分 Triton 算子开发
第四部分 CUDA C++ 与系统优化
Appearance
Menu
Return to top
On this page
4.3 分布式训练工程
本组聚焦通信原语和 ZeRO / Offload 工程实现。
导航:
上一组 4.2 系统级性能优化
|
Chapter 4 导学
|
下一组 4.4 架构视野
包含内容
19. Distributed Communication Primitives
20. DeepSpeed ZeRO & Offload