Group 1B: Single-GPU Hardware and Memory Optimization | 1B: 单卡硬件与访存优化

本组解决“单张 GPU 怎么算得快”的问题，核心是理解 GPU 架构、内存层次和 Attention 访存优化。

Group Overview | 组概览

这一组先把 GPU 架构、内存层次和 Attention 的访存路径说清楚，是 Part 1 里“看见算子慢在哪里”的起点，也是后续相关优化页面的共同前提。阅读顺序和 Part 级前导路径见 intro，从 1A 进入，再按需要继续到后续组页。

Group Asset Overview | 组内资产总览

页	核心职责	Q 数	代码块数	已有码的 Q	待补代码的 Q	定位
03	识别 GPU 层次结构与访存瓶颈	5	5	全部	无	主线页
04	压低 Attention 的显存压力	4	4	全部	无	主线页
11	解释 KV Cache 为什么增长	3	3	Q1, Q2, Q3	无	延展主线页
12	判断混合精度怎样影响吞吐	3	3	Q1, Q2, Q3	无	延展主线页
13	找到性能瓶颈并定位来源	3	3	Q1, Q2, Q3	无	profiling 主线页
14	看懂 FlashAttention 的显存收益	3	3	Q1, Q2, Q3	无	延展主线页
23	看清 TensorCore 的加速边界	4	4	全部	无	基础节
24	利用 Shared Memory 降低回流	4	4	全部	无	基础节
25	判断稀疏何时真正有效	4	4	全部	无	基础节

Learning Path | 学习路径

Recommended Order | 推荐顺序

主线先看 03 和 04，把 GPU 架构、内存层次和 Attention 访存路径先立住，其中 04 负责讲清 KV Cache 和注意力显存优化，且只在最关键的原理点上配验证代码。
再看 11、12、13 和 14，把显存增长、混合精度、profiling 和 FlashAttention 的原理链路补齐，这几页是延展主线页。
最后按需要继续看 23、24 和 25，把 TensorCore、shared memory 和稀疏 Attention 的实现层理解补完；这三页都给前 3 个 Q 配了验证代码，第 4 个 Q 保留纯原理收口。

Next Steps | 后续衔接

基础认知层：先把 03 和 04 看完，再进入 Part 2 / Part 3 的算子、显存和性能分析页面，其中 04 负责把注意力显存优化的原理讲深，代码只覆盖最核心的可验证点。
执行补充层：11、12、13 和 14 主要承接后续训练、推理和 profiling 的共享直觉。
实现延展层：23、24 和 25 主要服务 Part 3 / Part 4 的 kernel、shared memory 和优化分析。

Environment Notes | 环境说明

默认按 CPU-first 阅读，先把数量级和账本算清楚。
这里只写组级统一前提，不点到具体节号。
少量页面如需 GPU optional 或 GPU required，以后续单页说明为准，不在组页重复展开。