README

实战教程

章节	PDF	关键内容	1版完成	2版完成
绪论	绪论		☑️	⬜
马尔可夫决策过程	马尔可夫决策过程	马尔可夫决策过程、有模型与无模型、预测与控制	☑️	☑️
动态规划	动态规划	贝尔曼方程、策略迭代、价值迭代	☑️	☑️
蒙特卡洛方法	蒙特卡洛方法	蒙特卡洛预测、蒙特卡洛控制	☑️	☑️
时序差分方法	时序差分方法	时序差分估计、n步时序差分、Q-learning 算法、Sarsa 算法	☑️	☑️
深度学习基础	深度学习基础	函数近似、梯度下降、神经网络、独热编码	☑️	☑️
DQN 算法	DQN 算法	、目标网络、经验回放	☑️	☑️
DQN 算法进阶	DQN 算法进阶	Double DQN、Noisy DQN、Dueling DQN、PER DQN、C51、Rainbow DQN	☑️	☑️
策略梯度	策略梯度	随机性策略、	☑️	☑️
Actor-Critic 算法	Actor-Critic 算法	、	☑️	☑️
DDPG 算法	DDPG 算法	、	☑️	⬜
TRPO 算法	-			⬜
PPO 算法	PPO 算法	重要性采样、	☑️	⬜
SAC 算法	-	最大熵强化学习、、	☑️	⬜
模仿学习	-	行为克隆、逆强化学习		⬜