跳到主要内容
首页
强化学习基础
离线强化学习
大模型与强化学习
JoyRL 文档
GitHub
大模型与强化学习
本页总览
README
内容导航
章节
关键内容
完成状态
RLHF
⬜
RLAIF
⬜
DPO
⬜
GRPO
⬜
RPO
⬜
IPO
⬜
内容导航