核心章节
四大板块,按学习路径组织
为什么选这本书
中文原创
不是翻译,用中文思维讲清
代码即教程
每章配 Notebook,可运行
前沿覆盖
持续更新 RLHF / GRPO 等
推荐学习路径
第 1 步
基础第 2 步
经典算法第 3 步
离线 / LLM目标
JoyRL 实战由 Datawhale 社区共创
开源 · 免费 · 可贡献 · 动态访问统计
...
今日访问
正在同步
...
累计访问
正在同步
4+
大板块
40+
章节
20+
Notebook
∞
贡献者
准备好训练你的第一个 Agent 了吗?
从 MDP 开始,一步步走到 RLHF
开始第一章 →