Part 04: CUDA C++ and System Optimization | 第四部分：CUDA C++ 与系统优化

Part Overview | Part 概览

本部分位于 Part 3 之后，聚焦 CUDA C++、系统性能优化、分布式训练工程和架构选型。它承担的是把 Triton 级算子进一步下沉到 CUDA 内核与系统层的作用，也是后续硬件规划和成本视角的收口层。

内容上，本部分沿着“从 kernel 到 system、从实现到选型”的路径展开：先理解 CUDA 编程基础和硬件执行方式，再过渡到系统级性能优化、分布式训练工程，最后落到架构视野与成本判断。

本部分分为 4 个学习组，先建立 CUDA 编程与硬件直觉，再过渡到系统优化、分布式训练和架构视野。

学习组	职责作用	当前内容映射	每组多少节
4.1	建立 CUDA 编程与硬件执行直觉	15、16、02.1、03、04	5
4.2	理解系统级性能优化手段	05、06、07、07.1、08	5
4.3	形成分布式训练工程链路	09、09.1、10、11、12	5
4.4	建立架构视野与成本判断	13、14、15、16	4

Part 4 可以按多条入口理解：Kernel 优先入口先把 CUDA 编程与执行模型立住；系统优先、分布式优先和架构优先入口则可以从不同工程目标切入，最后都回到架构与成本收口。