DistilRL:一个简明介绍# English | 中文 I. 引言# I. 引言 第0章. 前言 第1章. 强化学习简介 II. 表格方法# II.1. 强化学习基础 第2章. 多臂老虎机问题(Multi-armed Bandit) 第3章. 有限马尔可夫决策过程 第4章. 动态规划 II.2. 基于采样的学习方法 第 5 章 蒙特卡洛方法 第 6 章 时序差分学习 第7章 使用表格方法规划和学习 III. 近似方法# III.1. 价值函数近似 第8章. 使用近似方法进行同策略预测 第9章. 基于函数近似的同策略控制 III.2. 策略近似 第 10 章 策略梯度方法 第 11 章 现代策略梯度方法(Modern Policy Gradient Methods)