跳到主要内容

✨ 由 Datawhale 开源维护

从零到实战的
中文强化学习宝典

覆盖 DQN / PPO / SAC / 离线 RL / RLHF，配套 Notebook 与 JoyRL 框架

开始学习 →GitHub ★

▶ Agent 每 4s 沿最优策略走一次

核心章节

四大板块，按学习路径组织

强化学习基础

MDP · DQN · Policy Gradient · Actor-Critic · PPO · SAC

离线强化学习

BCQ · CQL · IQL · 数据集与评估方法

大模型 + 强化学习

RLHF · DPO · GRPO · 对齐训练

JoyRL 框架

API · 配置 · 自定义环境 · 训练脚本

为什么选这本书

中文原创

不是翻译，用中文思维讲清

代码即教程

每章配 Notebook，可运行

前沿覆盖

持续更新 RLHF / GRPO 等

推荐学习路径

第 1 步

基础

第 2 步

经典算法

第 3 步

离线 / LLM

目标

JoyRL 实战

由 Datawhale 社区共创

开源 · 免费 · 可贡献 · 动态访问统计

...

今日访问

正在同步

...

累计访问

正在同步

4+

大板块

40+

章节

20+

Notebook

∞

贡献者

准备好训练你的第一个 Agent 了吗？

从 MDP 开始，一步步走到 RLHF

开始第一章 →