跳到主要内容
✨ 由 Datawhale 开源维护

从零到实战的
中文强化学习宝典

覆盖 DQN / PPO / SAC / 离线 RL / RLHF,配套 Notebook 与 JoyRL 框架

policy π(a|s) · reward +1 · γ=0.99

▶ Agent 每 4s 沿最优策略走一次

核心章节

四大板块,按学习路径组织

为什么选这本书

中文原创

不是翻译,用中文思维讲清

代码即教程

每章配 Notebook,可运行

前沿覆盖

持续更新 RLHF / GRPO 等

推荐学习路径

第 1 步
基础
第 2 步
经典算法
第 3 步
离线 / LLM
目标
JoyRL 实战

由 Datawhale 社区共创

开源 · 免费 · 可贡献 · 动态访问统计

...
今日访问
正在同步
...
累计访问
正在同步
4+
大板块
40+
章节
20+
Notebook
贡献者

准备好训练你的第一个 Agent 了吗?

从 MDP 开始,一步步走到 RLHF

开始第一章 →