Skip to content

2.6 核心推理优化

本组聚焦 FlashAttention、Decoding 和 PagedAttention,目标是理解推理侧的核心加速路径。

导航: 上一组 2.5 反向传播与显存优化 | Chapter 2 导学 | 下一组 2.7 高级推理优化

包含内容

学习顺序

建议按 15 -> 16 -> 17 顺序学习。

Released under the MIT License.