Skip to content

第一部分:硬件、数学与系统

概览

本部分包含 10 个讨论题,覆盖大模型的硬件基础、数学推导和系统架构。它负责把第零部分的基础能力,连接到第二 / 第三部分的工程实现。

学习组划分

当前 10 节内容先映射到 5 个主线组;后续新增内容再沿这条链扩展。

导航说明:侧边栏和组级入口默认收起,先看总览,再点开具体组页。 组页是知识包,不需要把整组一次性读完;先抓主线,再按需要回看扩展页。

学习组核心问题当前内容映射主题
1A: 数值基础与算力估算先要算什么?01-02数据格式、参数量、FLOPs
1B: 单卡硬件与访存优化单卡怎么跑得快?03-04GPU 架构、内存层次、Attention 访存
1C: 分布式通信与显存共享一张卡不够怎么办?05-06通信拓扑、ZeRO、显存切分
1D: 异构调度与算子编程怎么精细控制计算和数据流?07-08CPU/GPU 协同、CUDA/Triton
1E: 编译优化与硬件生态怎么自动优化和做迁移?09-10AI 编译器、芯片现状、TCO

组级入口

组页学习组作用
1A1A: 数值基础与算力估算先把显存、精度、参数量和 FLOPs 算清楚
1B1B: 单卡硬件与访存优化理解 GPU 架构、Attention 和访存瓶颈
1C1C: 多卡通信与显存共享处理通信拓扑、ZeRO 和并行扩展
1D1D: 异构调度与算子编程连接 CPU/GPU 协同、CUDA/Triton 和运行时调度
1E1E: 编译优化与算力生态面向编译器、芯片迁移和成本决策

学习建议

  • 快速入门:1A → 1B
  • 系统学习:1A → 1B → 1C → 1D → 1E
  • 按组维护:优先看对应组页,再回到题目页

Part 2 / 3 前导路径

Part 1 不只是知识目录,也是 Part 2 和 Part 3 的共同前置。下面这条路径可以直接作为进入后续部分的阅读顺序:

路径先看哪些页解决什么问题主要服务
基础认知层1A、1B把精度、参数量、GPU 架构和访存直觉先立起来Part 2 / Part 3
执行模型层1C、1D、15-18理解通信、调度、block / warp / shared memory 和 Triton block modelPart 3
优化与选型层1E、19-20、13理解编译优化、算子融合、NCCL,以及为什么后面要从 PyTorch 走到 Triton,再走到 CUDAPart 2 / Part 3

如果你已经准备进入 Part 3,建议优先按 1B -> 1D -> 18 -> 19 -> 20 的顺序回看;如果你更关心算法实现和训练逻辑,则先看 1A -> 1B -> 1C,再回到 Part 2。

🔮 扩展候选池(21-33)

以下页面先作为扩展占位,不进入当前主学习路径。当前 P0 项已经进入正文草稿阶段,后续内容成熟后再补 Notebook。

序号逻辑标签暂定主题归属优先级状态
211A-03量化理论与 INT4/INT81AP0草稿
221A-04MoE 模型参数量计算1AP0草稿
231B-03Tensor Core 深度剖析1BP0草稿
241B-04SRAM 优化技术1BP2占位
251B-05稀疏计算与稀疏注意力1BP1占位
261C-03并行策略决策框架1CP0草稿
271C-04通信调度优化1CP1占位
281C-05容错与 Checkpoint1CP2占位
291D-03CUDA Stream 高级调度1DP0草稿
301D-04动态 Shape 处理1DP1占位
311D-05GPU 虚拟化与 MIG1DP2占位
321E-03TVM / MLIR 深度实践1EP1占位
331E-04算力评估与 TCO 模型1EP0草稿

预留桥接页(11-20)

11-14 偏第二部分前置,15-20 偏第三部分前置。后续直接补正文,不改入口。

题号暂定标题归属桥接方向状态
11KV Cache and Memory Growth1B 单卡硬件与访存优化第二部分前置占位
12Tensor Core and Mixed Precision1B 单卡硬件与访存优化第二部分前置占位
13Profiling and Bottleneck Analysis1B 单卡硬件与访存优化第二 / 第三部分前置占位
14FlashAttention Memory Model1B 单卡硬件与访存优化第二部分前置占位
15CUDA Execution Model1C 系统与编译第三部分前置占位
16Warp, Block, and Shared Memory Basics1C 系统与编译第三部分前置占位
17CUDA Stream and Asynchrony1C 系统与编译第三部分前置占位
18Triton Block Model1C 系统与编译第三部分前置占位
19Operator Fusion Introduction1C 系统与编译第三部分前置占位
20NCCL and AllReduce Basics1C 系统与编译第二 / 第三部分前置占位

Released under the MIT License.