2.5 推理优化
本组覆盖推理加速、量化、分布式模拟和显存优化,是 Chapter 2 的工程重点。
导航: 上一组 2.4 对齐技术 | Chapter 2 导学
包含内容
- 15 FlashAttention Sim
- 16 Decoding Strategies
- 17 vLLM PagedAttention
- 18 Speculative Decoding
- 19 SGLang RadixAttention
- 20 Quantization W8A16
- 21 Gradient Checkpointing
- 22 QLoRA and 4bit Quantization
- 23 ZeRO Optimizer Sim
- 24 Tensor Parallelism Sim
- 25 Pipeline Parallelism MicroBatch
学习顺序
建议先学 15 -> 16 -> 17 -> 18 -> 19 -> 20,再看 21 -> 22 -> 23 -> 24 -> 25。
