Skip to content

第四部分:CUDA C++ 与系统优化

🎯 本部分概览

本部分聚焦 CUDA C++、系统性能优化、分布式训练工程和架构选型。它是从 Triton 走向更底层 CUDA 与系统边界的独立章节。

这条主线可以概括为 CUDA Kernel -> System Optimization -> Distributed Engineering -> Architecture Trade-off

环境边界

  • 整体定位:GPU-required
  • 完整体验:需要 NVIDIA GPU,推荐 Linux + CUDA
  • 代码审计结果:本章直接面向 CUDA kernel、通信、系统优化和架构选型
  • 阅读说明:可以先阅读文本,但完整验收需要 GPU 会话

学习组划分

学习组题目范围主题难度
4.1: CUDA 编程基础15-16Custom Kernel / Shared MemoryHard
4.2: 系统级性能优化17-18Streams / Graph / JITHard
4.3: 分布式训练工程19-20通信原语 / ZeRO & OffloadVery Hard
4.4: 架构视野21-22技术选型 / TCOVery Hard

前置页面

Part 3 前导路径

如果你还没有完成 Triton 主线,建议先完成 Part 3 的 01-14 再回来继续 Part 4。

后续页面

Released under the MIT License.