Group 2.4: Alignment Techniques | 2.4: 对齐技术

本组聚焦 RLHF、DPO 和 GRPO，目标是理解偏好优化与对齐链路。

Group Overview | 组概览

这一组把偏好优化和对齐的核心方法讲清楚，是训练侧进一步收束到对齐目标的入口。阅读顺序和组内资产见下表，先看 14，再进入 15-16。

Group Asset Overview | 组内资产总览

页	职责作用	定位
14	估算 PPO 的显存开销	主线页
15	理解 DPO 的偏好优化	主线页
16	理解 GRPO 的组级奖励	主线页

Learning Path | 学习路径

Recommended Order | 推荐顺序

先看 14 -> 15 -> 16，把偏好优化和对齐链路串起来。

Next Steps | 后续衔接

看完本组后，继续进入 2.5，把对齐训练接到反向传播和显存优化上。

Environment Notes | 环境说明

默认按 CPU-first 阅读，优先把对齐概念和损失函数看懂。
这里只写组级统一前提，不点到具体节号。
少数页面如需 GPU optional，以后续单页说明为准。