Appearance
本组聚焦 RLHF、DPO 和反向传播细节,目标是理解偏好优化与梯度路径。
导航: 上一组 2.3 训练技术 | Chapter 2 导学 | 下一组 2.5 推理优化
建议按 12 -> 13 -> 14 顺序学习。
12 -> 13 -> 14