1B: 单卡硬件与访存优化
本组解决“单张 GPU 怎么算得快”的问题,核心是理解 GPU 架构、内存层次和 Attention 访存优化。
包含内容
桥接 / 扩展
- 11 KV Cache and Memory Growth
- 12 TensorCore and Mixed Precision
- 13 Profiling and Bottleneck Analysis
- 14 FlashAttention Memory Model
- 23 TensorCore Deep Dive
- 24 SRAM Optimization Techniques
- 25 Sparse Computation and Sparse Attention
学习顺序
建议按 03 -> 04 -> 11 -> 12 -> 13 -> 14 -> 23 -> 24 -> 25 顺序学习。
