第一部分:硬件、数学与系统
概览
本部分包含 10 个讨论题,覆盖大模型的硬件基础、数学推导和系统架构。它负责把第零部分的基础能力,连接到第二 / 第三部分的工程实现。
学习组划分
当前 10 节内容先映射到 5 个主线组;后续新增内容再沿这条链扩展。
导航说明:侧边栏和组级入口默认收起,先看总览,再点开具体组页。 组页是知识包,不需要把整组一次性读完;先抓主线,再按需要回看扩展页。
| 学习组 | 核心问题 | 当前内容映射 | 主题 |
|---|---|---|---|
| 1A: 数值基础与算力估算 | 先要算什么? | 01-02 | 数据格式、参数量、FLOPs |
| 1B: 单卡硬件与访存优化 | 单卡怎么跑得快? | 03-04 | GPU 架构、内存层次、Attention 访存 |
| 1C: 分布式通信与显存共享 | 一张卡不够怎么办? | 05-06 | 通信拓扑、ZeRO、显存切分 |
| 1D: 异构调度与算子编程 | 怎么精细控制计算和数据流? | 07-08 | CPU/GPU 协同、CUDA/Triton |
| 1E: 编译优化与硬件生态 | 怎么自动优化和做迁移? | 09-10 | AI 编译器、芯片现状、TCO |
组级入口
| 组页 | 学习组 | 作用 |
|---|---|---|
| 1A | 1A: 数值基础与算力估算 | 先把显存、精度、参数量和 FLOPs 算清楚 |
| 1B | 1B: 单卡硬件与访存优化 | 理解 GPU 架构、Attention 和访存瓶颈 |
| 1C | 1C: 多卡通信与显存共享 | 处理通信拓扑、ZeRO 和并行扩展 |
| 1D | 1D: 异构调度与算子编程 | 连接 CPU/GPU 协同、CUDA/Triton 和运行时调度 |
| 1E | 1E: 编译优化与算力生态 | 面向编译器、芯片迁移和成本决策 |
学习建议
- 快速入门:1A → 1B
- 系统学习:1A → 1B → 1C → 1D → 1E
- 按组维护:优先看对应组页,再回到题目页
Part 2 / 3 前导路径
Part 1 不只是知识目录,也是 Part 2 和 Part 3 的共同前置。下面这条路径可以直接作为进入后续部分的阅读顺序:
| 路径 | 先看哪些页 | 解决什么问题 | 主要服务 |
|---|---|---|---|
| 基础认知层 | 1A、1B | 把精度、参数量、GPU 架构和访存直觉先立起来 | Part 2 / Part 3 |
| 执行模型层 | 1C、1D、15-18 | 理解通信、调度、block / warp / shared memory 和 Triton block model | Part 3 |
| 优化与选型层 | 1E、19-20、13 | 理解编译优化、算子融合、NCCL,以及为什么后面要从 PyTorch 走到 Triton,再走到 CUDA | Part 2 / Part 3 |
如果你已经准备进入 Part 3,建议优先按 1B -> 1D -> 18 -> 19 -> 20 的顺序回看;如果你更关心算法实现和训练逻辑,则先看 1A -> 1B -> 1C,再回到 Part 2。
🔮 扩展候选池(21-33)
以下页面先作为扩展占位,不进入当前主学习路径。当前 P0 项已经进入正文草稿阶段,后续内容成熟后再补 Notebook。
| 序号 | 逻辑标签 | 暂定主题 | 归属 | 优先级 | 状态 |
|---|---|---|---|---|---|
| 21 | 1A-03 | 量化理论与 INT4/INT8 | 1A | P0 | 草稿 |
| 22 | 1A-04 | MoE 模型参数量计算 | 1A | P0 | 草稿 |
| 23 | 1B-03 | Tensor Core 深度剖析 | 1B | P0 | 草稿 |
| 24 | 1B-04 | SRAM 优化技术 | 1B | P2 | 占位 |
| 25 | 1B-05 | 稀疏计算与稀疏注意力 | 1B | P1 | 占位 |
| 26 | 1C-03 | 并行策略决策框架 | 1C | P0 | 草稿 |
| 27 | 1C-04 | 通信调度优化 | 1C | P1 | 占位 |
| 28 | 1C-05 | 容错与 Checkpoint | 1C | P2 | 占位 |
| 29 | 1D-03 | CUDA Stream 高级调度 | 1D | P0 | 草稿 |
| 30 | 1D-04 | 动态 Shape 处理 | 1D | P1 | 占位 |
| 31 | 1D-05 | GPU 虚拟化与 MIG | 1D | P2 | 占位 |
| 32 | 1E-03 | TVM / MLIR 深度实践 | 1E | P1 | 占位 |
| 33 | 1E-04 | 算力评估与 TCO 模型 | 1E | P0 | 草稿 |
预留桥接页(11-20)
11-14 偏第二部分前置,15-20 偏第三部分前置。后续直接补正文,不改入口。
| 题号 | 暂定标题 | 归属 | 桥接方向 | 状态 |
|---|---|---|---|---|
| 11 | KV Cache and Memory Growth | 1B 单卡硬件与访存优化 | 第二部分前置 | 占位 |
| 12 | Tensor Core and Mixed Precision | 1B 单卡硬件与访存优化 | 第二部分前置 | 占位 |
| 13 | Profiling and Bottleneck Analysis | 1B 单卡硬件与访存优化 | 第二 / 第三部分前置 | 占位 |
| 14 | FlashAttention Memory Model | 1B 单卡硬件与访存优化 | 第二部分前置 | 占位 |
| 15 | CUDA Execution Model | 1C 系统与编译 | 第三部分前置 | 占位 |
| 16 | Warp, Block, and Shared Memory Basics | 1C 系统与编译 | 第三部分前置 | 占位 |
| 17 | CUDA Stream and Asynchrony | 1C 系统与编译 | 第三部分前置 | 占位 |
| 18 | Triton Block Model | 1C 系统与编译 | 第三部分前置 | 占位 |
| 19 | Operator Fusion Introduction | 1C 系统与编译 | 第三部分前置 | 占位 |
| 20 | NCCL and AllReduce Basics | 1C 系统与编译 | 第二 / 第三部分前置 | 占位 |
