1C: 多卡通信与显存共享
本组解决“一张卡不够怎么办”的问题,核心是通信拓扑、ZeRO 和并行策略选择。
包含内容
桥接 / 扩展
- 20 NCCL and AllReduce Basics
- 26 Parallel Strategy Decision Framework
- 27 Communication Scheduling Optimization
- 28 Fault Tolerance and Checkpointing
学习顺序
建议按 05 -> 06 -> 20 -> 26 -> 27 -> 28 顺序学习。
