README
实战教程
理论教程
| 章节 | 关键内容 | 1版完成 | 2版完成 | |
|---|---|---|---|---|
| 绪论 | 绪论 | ☑️ | ⬜ | |
| 马尔可夫决策过程 | 马尔可夫决策过程 | 马尔可夫决策过程、有模型与无模型、预测与控制 | ☑️ | ☑️ |
| 动态规划 | 动态规划 | 贝尔曼方程、策略迭代、价值迭代 | ☑️ | ☑️ |
| 蒙特卡洛方法 | 蒙特卡洛方法 | 蒙特卡洛预测、蒙特卡洛控制 | ☑️ | ☑️ |
| 时序差分方法 | 时序差分方法 | 时序差分估计、n步时序差分、Q-learning 算法、Sarsa 算法 | ☑️ | ☑️ |
| 深度学习基础 | 深度学习基础 | 函数近似、梯度下降、神经网络、独热编码 | ☑️ | ☑️ |
| DQN 算法 | DQN 算法 | ☑️ | ☑️ | |
| DQN 算法进阶 | DQN 算法进阶 | Double DQN、Noisy DQN、Dueling DQN、PER DQN、C51、Rainbow DQN | ☑️ | ☑️ |
| 策略梯度 | 策略梯度 | 随机性策略、 | ☑️ | ☑️ |
| Actor-Critic 算法 | Actor-Critic 算法 | ☑️ | ☑️ | |
| DDPG 算法 | DDPG 算法 | ☑️ | ⬜ | |
| TRPO 算法 | - | ⬜ | ||
| PPO 算法 | PPO 算法 | 重要性采样、 | ☑️ | ⬜ |
| SAC 算法 | - | 最大熵强化学习、 | ☑️ | ⬜ |
| 模仿学习 | - | 行为克隆、逆强化学习 | ⬜ |