跳到主要内容

首页强化学习基础离线强化学习大模型与强化学习 JoyRL 文档

大模型与强化学习

大模型与强化学习

README

内容导航

章节	关键内容	完成状态
RLHF		⬜
RLAIF		⬜
DPO		⬜
GRPO		⬜
RPO		⬜
IPO		⬜

最后由 johnjim0816 于 2026年5月14日 更新

内容导航

文档

文档首页
强化学习基础
离线强化学习
JoyRL 文档

资源

项目仓库
JoyRL 框架
Notebooks

Copyright © 2026 Datawhale China