Group 2.6: Core Inference Optimization | 2.6: 核心推理优化

本组聚焦 FlashAttention、Decoding 和 PagedAttention，目标是理解推理侧的核心加速路径。

Group Overview | 组概览

这一组把推理侧最核心的加速方法讲清楚，是后续压缩和高级推理策略的前提。阅读顺序和组内资产见下表，先看 20，再进入 21-22。

Group Asset Overview | 组内资产总览

页	职责作用	定位
20	近似 FlashAttention 的推理收益	主线页
21	比较不同 decoding 策略	主线页
22	处理 PagedAttention 的 KV cache	主线页

Learning Path | 学习路径

Recommended Order | 推荐顺序

先看 20 -> 21 -> 22，把推理加速和缓存直觉串起来。

Next Steps | 后续衔接

看完本组后，继续进入 2.7，把推理优化接到压缩和高级策略上。

Environment Notes | 环境说明

默认按 CPU-first 阅读，优先把推理路径和缓存行为看懂。
这里只写组级统一前提，不点到具体节号。
少数页面如需 GPU optional，以后续单页说明为准。