Group 2.7: Advanced Inference and Compression Optimization | 2.7: 高级推理与压缩优化

本组聚焦 Speculative Decoding、RadixAttention、量化与 QLoRA，目标是理解更进一步的推理与压缩优化策略。

Group Overview | 组概览

这一组把更进阶的推理策略和压缩方法串起来，是推理主线向更工程化方案推进的桥梁。阅读顺序和组内资产见下表，先看 23，再进入 24-26。

Group Asset Overview | 组内资产总览

页	职责作用	定位
23	评估 Speculative Decoding 的收益	主线页
24	看清 RadixAttention 的缓存复用	主线页
25	判断 W8A16 量化的收益边界	主线页
26	理解 QLoRA 和 4bit 量化	主线页

Learning Path | 学习路径

Recommended Order | 推荐顺序

先看 23 -> 24 -> 25 -> 26，把高级推理和压缩策略串起来。

Next Steps | 后续衔接

看完本组后，继续进入 2.8，把推理侧的优化思路接到分布式并行策略上。

Environment Notes | 环境说明

默认按 CPU-first 阅读，优先把推理与压缩策略看懂。
这里只写组级统一前提，不点到具体节号。
少数页面如需 GPU optional，以后续单页说明为准。