策略梯度方法

策略参数化

基于策略梯度的方法首先需要将策略参数化，即直接将策略参数化为，其中是策略的参数，表示在状态下选择动作的概率，并且处处可微。简而言之，参数化策略是一个处处可微的概率分布。

然后，目标函数就可表示为，即是一个关于参数的函数。为了最大化目标函数，可以使用梯度上升法，即通过计算目标函数关于参数的梯度来更新参数，如式所示。

通常为了方便，会将梯度上升法转化为梯度下降法，即通过最小化目标函数的负值来更新参数，如式所示。

也就是说，只要能定义出目标函数并求出其梯度，就能利用梯度下降法来更新参数，从而使得策略逐步逼近最优策略。

怎么定义关于策略的目标函数呢？可以围绕最大化长期回报这一核心思想来展开。具体地，可以从两个角度来定义，一是基于轨迹概率密度的方式，二是基于平稳分布或状态访问分布的方式，也叫做占用测度（）推导，下面将分别介绍这两种推导方式。

基于轨迹推导

轨迹概率密度

智能体与环境交互过程中，首先环境会返回一个初始状态 , 然后智能体观测到当前状态并执行动作。与此同时，环境会反馈一个奖励，并返回下一个状态，智能体再相应地执行动作，环境返回奖励和下一个状态，如此反复进行下去，直至终止状态。注意，这里通常假设是有终止状态的，即有限马尔可夫决策过程（）。

这样完整的有限步数的交互过程，称为一个回合（），回合最大步数用表示 (也叫作 ^②)。把所有状态、动作和奖励组合起来的一个序列，称为轨迹（），如式所示。

② 参考自CS234，该词出现频率不算高，了解即可

为了计算轨迹产生的概率，我们可以先具体展开轨迹产生的路径。如图 1 所示，首先环境会从初始状态分布中采样出一个初始状态，对应的概率为。然后智能体在状态下根据策略采样出一个动作，对应的概率就是策略函数对应的值，即，接着环境根据状态转移概率采样出下一个状态，对应的概率为。此时对应的轨迹序列为，根据条件概率可知，该轨迹产生的概率为。

图 1 轨迹概率的计算

以此类推，可得完整轨迹的概率计算如式所示。

可以看出，轨迹概率确实可以写成关于策略或者策略参数的函数，如式所示。

给定策略，产生的轨迹可能会有很多种，因此对于式更准确的表述是轨迹概率的分布，即轨迹概率密度。记每条的轨迹对应的回报为，根据全概率公式可知，目标函数可以表示为轨迹概率密度与对应回报的乘积在所有轨迹上的积分，如式所示。

对数导数技巧

为了最大化目标函数，可以使用梯度上升法，即通过计算目标函数关于参数的梯度来更新参数，如式所示。

实际运用中为了方便，会将梯度上升法转化为梯度下降法，即通过最小化目标函数的负值来更新参数，如式所示。

但无论哪种方式，关键都是要计算梯度。根据式可知，梯度的计算如式所示。

其中一般不会是参数的函数，因此可以直接提到积分号外面。接下来，关键是要计算。然而，根据式可知，轨迹概率密度是一个连乘积项，直接对其求导会比较复杂。为此，可以使用 对数导数技巧（）来简化计算过程。该技巧的核心思想是通过对数函数的链式法则来将导数从概率密度函数转移到对数概率密度函数上，从而简化计算。具体来说，利用对数函数的导数性质，有式。

将式代入式中，可得梯度的计算如式所示。

根据式可知，轨迹概率密度中唯一与参数相关的项是策略，因此可以将对数概率密度函数展开，如式所示。

由于环境的状态转移概率与参数无关，因此对其求导结果为零，即。这样一来，式可简化为式所示。

将式代入式中，可得梯度的计算如式所示。

其中回报的表示方式实际上可以有多种选择，最简单的表示是轨迹中所有步数奖励的和，如式所示。

将式代入式中，并交换求和次序，可得梯度的计算如式所示。

占用测度推导

回顾状态价值相关部分，设环境初始状态为，那么目标函数可以表示为初始状态分布与对应状态价值的乘积在所有初始状态上的积分，如式所示。

其中是初始状态分布，是状态价值。状态价值指从状态开始，智能体在策略指导下所能获得的未来（折扣）回报的期望，定义如式所示。

根据贝尔曼期望方程（）可知，状态价值还可以通过动作价值函数表示，如式所示。

这样一来，目标函数就可以写成关于策略或者策略参数的函数，如式所示。

乍看初始状态分布似乎与策略参数无关，因此在计算梯度时可以将其视为常数项直接提到积分号外面。然而，实际上初始状态分布会影响智能体后续的状态访问分布（），进而影响目标函数的值。

因此，在计算梯度时，不能简单地将初始状态分布视为常数项。为此，需要引入 平稳分布（）的概念来更好地理解状态访问分布与策略参数之间的关系。

平稳分布

在引入平稳分布概念之前，先来看一个例子。如图 2 所示，假设有一个简单的马尔可夫过程（），包含三个状态，每个状态之间的转移概率如图中所示。

图 2 马尔可夫过程示例

从图中可以该马尔可夫过程的状态转移矩阵如式所示。

设初始状态分布为，表示初始时刻状态的概率为，状态的概率为，状态的概率为。那么经过一步状态转移或者说一次状态迭代后，新的状态分布可通过初始状态分布与状态转移矩阵相乘得到，如式所示。

同理，经过两次状态转移或者说两次状态迭代后，新的状态分布可通过与状态转移矩阵相乘得到，如式所示。

那么经过多次状态转移或者说多次状态迭代后，状态分布会发生什么变化呢？我们可以通过编程来模拟一下，如代码 1 所示。

代码 1 状态分布迭代模拟

import numpy as np
pi_0 = np.array([[0.15,0.62,0.23]])
P = np.array([[0.5,0.4,0.1],[0.2,0.6,0.2],[0.05,0.45,0.5]])
for i in range(1,10+1):
    pi_0 = pi_0.dot(P)
    print(f"第{i}次迭代后状态分布为：{np.around(pi_0,3)}")

运行结果如代码 2 所示。

代码 2 状态分布迭代结果1

第1次迭代后状态分布为：[[0.21  0.536 0.254]]
第2次迭代后状态分布为：[[0.225 0.52  0.255]]
第3次迭代后状态分布为：[[0.229 0.517 0.254]]
第4次迭代后状态分布为：[[0.231 0.516 0.253]]
第5次迭代后状态分布为：[[0.231 0.516 0.253]]
第6次迭代后状态分布为：[[0.231 0.516 0.253]]
第7次迭代后状态分布为：[[0.232 0.516 0.253]]
第8次迭代后状态分布为：[[0.232 0.516 0.253]]
第9次迭代后状态分布为：[[0.232 0.516 0.253]]
第10次迭代后状态分布为：[[0.232 0.516 0.253]]

可以看出，经过多次迭代后，状态分布逐渐趋于稳定，并最终收敛到一个固定的分布，即。把初始状态分布改成其他的任意值，例如，再运行代码 1 ，结果如代码 3 所示，状态分布依然会收敛到同一个固定的分布。

代码 3 状态分布迭代结果1

第1次迭代后状态分布为：[[0.462 0.413 0.125]]
第2次迭代后状态分布为：[[0.32  0.489 0.191]]
第3次迭代后状态分布为：[[0.267 0.507 0.225]]
第4次迭代后状态分布为：[[0.246 0.513 0.241]]
第5次迭代后状态分布为：[[0.238 0.515 0.248]]
第6次迭代后状态分布为：[[0.234 0.515 0.251]]
第7次迭代后状态分布为：[[0.233 0.516 0.252]]
第8次迭代后状态分布为：[[0.232 0.516 0.252]]
第9次迭代后状态分布为：[[0.232 0.516 0.252]]
第10次迭代后状态分布为：[[0.232 0.516 0.253]]

也就是说，无论初始状态分布如何变化，经过多次迭代后，状态分布最终都会收敛到同一个固定的分布。这个固定的分布就称为 平稳分布（），通常用表示，表示在策略指导下，从任意初始状态开始，经过足够长时间后，系统处于状态的概率，如式所示。

简单来说，它描述了系统在长期运行后，处于各状态的概率分布。需要注意的是，平稳分布的存在是有前提条件的，必须是遍历（）的马尔可夫过程，遍历包含两个性质：不可约（）和非周期（）。不可约表示从任意状态出发，都有可能到达其他任意状态，有时也叫作连通性（）；非周期表示系统不会陷入某种固定的循环模式。而通常情况下，强化学习中的马尔可夫过程都是遍历的，因此平稳分布是存在的。

平稳分布的存在性推导

本节内容主要从数学上来推导说明为什么平稳分布是存在的，换句话说为什么马尔可夫过程在长期运行后会收敛到一个固定的分布，即“不动点”，如式所示。

且 当 时 ，

用矩阵的语言来表示，就是转移算子存在一个不动点，如式所示。

两边转置，并结合矩阵转置的性质，可得式。

由于状态转移矩阵本身就是一个特殊的矩阵，即随机矩阵（），即满足式。

其 中

有时也写作式。

其 中

用矩阵语言来表示，就是每一列的元素和为1，且每个元素都非负，如式所示。

回顾线性代数相关知识，对于方阵，如果存在一个非零向量和一个标量，使得，那么就称是矩阵的一个特征值，是对应的右特征向量。同时，也会有左特征向量的概念，即如果存在一个非零向量和一个标量，使得，是对应的左特征向量。左特征向量和右特征向量表达的其实是同一个概念，只是左特征向量是行向量，右特征向量是列向量。

回到式，可以看出，向量是矩阵的右特征向量，且对应的特征值为1。因此，矩阵也必然存在对应的左特征向量 ，即如式和式所示，也就是我们要找的平稳分布。

目标函数梯度

回顾式，虽然初始状态分布会影响状态访问分布，但经过多次迭代后，状态访问分布会逐渐趋于平稳分布。因此，可以将目标函数中的初始状态分布替换为平稳分布，即表示为平稳分布与对应状态价值的乘积和，如式所示。

写成期望的形式，如式所示。

同样地，只要能求出目标函数的梯度，就能利用梯度上升法来更新参数，从而使得策略逐步逼近最优，即使得目标函数的值最大化。梯度的计算如式所示，详细推导见下节内容。

其中近似符号表示忽略了平稳分布关于参数的导数项，即。这种近似在实际应用中是合理的，因为平稳分布通常变化较慢，对梯度的影响较小，因此可以忽略不计。

目标函数梯度的推导

先看价值函数部分，如式所示。

分 部 积 分 法 贝 尔 曼 方 程 消 去 无 关 项 转 移 矩 阵 等 价

这样就得到了一个迭代公式，如式所示。

其中可以看作是下一个状态的价值函数，因此也是一个类似的迭代公式。定义一个从状态出发，经过步转移后到达状态的概率为的量，通常叫做状态访问序列的概率。对应的访问序列（）表示如式。

其中：

当时，
当时，
以此类推，可得

为了简化，设，那么根据式可知，可展开为式所示。

接下来，回到目标函数梯度的计算，如式所示。

忽 略 项 平 稳 分 布 定 义

至此，目标函数梯度的推导完毕。

两种推导方式的等价性

对比基于轨迹概率密度推导出的目标函数和基于状态值函数推导出的目标函数，会发现两者形式上是类似的，区别在于一个是从时间步的角度来表示，另一个是从状态的角度来表示。实际上，这两个表达式确实是等价的，可以相互转换。下面将展示如何从状态值函数的表达式出发，推导出轨迹概率密度的表达式。

首先，回顾状态值函数的策略梯度表达式，如式所示。

接下来，展开期望的定义，如式所示。

再将状态值函数展开成轨迹的形式，如式所示。

将式代入到式中，如式所示。

接下来，将状态分布和动作分布展开成轨迹的形式，如式所示。

将式代入到式中，并结合轨迹概率密度的定义，最终得到轨迹概率密度的策略梯度表达式，如式所示。

策略梯度通用表达式

在 GAE 论文 ^③ 中，提出了一种更为通用的策略梯度表达式，如式所示。

③ https://arxiv.org/pdf/1506.02438

其中是一个通用的回报估计，可以根据具体的算法选择不同的形式。下面列举几种常见的形式：

：表示整条轨迹的累计奖励
：表示动作之后的累计奖励
: 表示折扣回报，也是后面要讲的算法形式
：引入基线函数来减少方差
：动作价值函数
：优势函数，表示动作相对于平均水平的好坏
：时序差分误差（）

公式中的用于衡量策略参数变化对动作选择概率的影响，相当于一个演员（）的角色，而则提供了一个衡量动作好坏的信号，相当于一个评论家（）的角色。通过选择不同的形式，即对动作不同的评价方式，可以得到不同的算法，例如、等，这就是比较流行的演员-评论家（）方法的基本思想。

策略函数建模

前面讲到，在策略梯度方法中，策略函数是直接对策略进行参数化的函数，参数为，并且必须是一个概率分布。如何对策略函数进行建模呢？对于不同类型的动作空间(离散和连续)，策略函数的建模方式也有所不同。对于离散动作空间，可以用多项式分布（）进行建模，而对于连续动作空间，则可以用高斯分布（）。下面将分别展开说明。

离散动作空间

对于离散动作空间，例如动作集合，通常使用多项式分布（）进行建模，而多项式分布需要一个概率向量作为参数，其中每个元素表示在状态下选择动作的概率，且满足。从多项式分布采样动作的过程如式

然而，神经网络一般不能直接输出满足概率分布要求的向量，因此需要对神经网络的输出进行转换，转换的方式必须是可微分的，以便能够计算梯度并进行优化。为此，可以采用软最大化（）函数来实现这一转换，如式所示。

其中通常是神经网络的输出，表示在状态下选择动作的偏好值（），也写作 logits 。

对应的梯度计算如式所示。

再代入到前面推导出的目标函数梯度（例如式）中，即可得到完整的梯度计算公式。另外，的梯度也可以通过链式法则和雅可比矩阵来计算，如式所示，感兴趣的读者可自行了解。

注意到，由于使用了指数函数，如果某个动作的得分较高，对应的就会成倍增加，换句话说，这会让策略更倾向于“高分动作”。然而，如果得分过大，可能会导致指数函数的输出超出计算机的表示范围，从而导致数值不稳定的问题。

为了解决这个问题，通常会在计算函数时，对所有的得分减去一个常数，这样可以避免指数函数的输入过大，同时不会改变概率分布的相对关系，如式所示。

为帮助理解，我们使用Numpy模块实现一个函数并从中采样动作，如代码 4 所示。

代码 4: Softmax 函数 Numpy 实现

import numpy as np

# softmax 函数
def softmax(z):
    z = np.array(z)
    e = np.exp(z - np.max(z))
    return e / e.sum()

# softmax 函数 梯度
def softmax_grad(y):
    # 输入 y 是 softmax 输出向量
    return np.diag(y) - np.outer(y, y)

# logits -> 概率
logits = [2.0, 1.0, 0.1]
probs = softmax(logits)

# 从 Categorical 分布中采样动作
action = np.random.choice(len(probs), p=probs)

# 对数概率
log_prob = np.log(probs[action])

print(f"动作索引: {action}")
print(f"动作概率: {probs[action]:.3f}")
print(f"log π(a|s): {log_prob:.3f}")

运行结果如代码 5 所示。

代码 5: Softmax 函数运行结果

动作索引: 0
动作概率: 0.659
log π(a|s): -0.417

接下来，我们使用PyTorch模块实现一个基于函数的策略网络，并计算对应的梯度，如代码 6 所示。

代码 6: Softmax 策略网络 PyTorch 实现

import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
# 定义策略网络
class PolicyNetwork(nn.Module):
    def __init__(self, state_dim, action_dim):
        super(PolicyNetwork, self).__init__()
        self.fc = nn.Linear(state_dim, action_dim)

    def forward(self, x):
        return F.softmax(self.fc(x), dim=-1)
# 创建策略网络实例
state_dim = 4  # 状态维度
action_dim = 3  # 动作维度
policy_net = PolicyNetwork(state_dim, action_dim)
optimizer = optim.Adam(policy_net.parameters(), lr=0.01)
# 示例状态输入
state = torch.FloatTensor([1.0, 0.5, -0.5, 2.0])
# 前向传播计算动作概率
action_probs = policy_net(state)
# 从动作概率中采样动作
action_dist = torch.distributions.Categorical(action_probs)
action = action_dist.sample()
log_prob = action_dist.log_prob(action)
# 假设一个示例回报
reward = torch.FloatTensor([1.0])
# 计算损失（负的策略梯度）
loss = -log_prob * reward
# 反向传播计算梯度
optimizer.zero_grad()
loss.backward()
optimizer.step()
print(f"动作索引: {action.item()}")
print(f"动作概率: {action_probs[action].item():.3f}")
print(f"log π(a|s): {log_prob.item():.3f}")

运行结果如代码 7 所示。

代码 7: Softmax 策略网络运行结果

动作索引: 2
动作概率: 0.123
log π(a|s): -2.095

连续动作空间

连续动作空间的策略建模通常使用高斯分布（）。根据动作维度的不同，高斯分布可以分为标量高斯分布和向量高斯分布两种情况。具体来讲，当动作维度为 1 维，即时，表示一个连续动作，例如机器人推力大小，此时用标量高斯分布建模。当动作维度为多维，即动作集合时，表示多个动作同时输出，例如控制多个电机，此时用向量高斯分布。两种高斯分布最后推导出的形式是类似的，初学者可以先理解标量高斯分布，再类比理解向量高斯分布，下面分别进行说明。

标量高斯分布

在标量高斯分布中，需要将均值和协方差作为参数，其中均值表示在状态下动作的期望值，协方差表示动作的分布范围和形状。从高斯分布采样动作的过程如式所示。

对应的策略函数如式所示, 注意这里为了展示方便，隐去了等式右边的参数和状态。

对应的概率公式，如式所示。

利用偏微分，分别求出对和的梯度，如式所示。

对于的梯度计算，通常使用进行参数化(简单理解就是将协方差转成带的形式)，这样可以确保始终为正值。根据链式法则，有式。

其中由于，，结合式，可得式。

向量高斯分布

对于多维连续动作空间，例如，通常使用向量高斯分布进行建模。与标量高斯分布类似，需要将均值向量和协方差矩阵作为参数，其中均值向量表示在状态下每个动作维度的期望值，协方差矩阵表示动作各维度之间的相关性和分布范围。从高斯分布采样动作的过程如式所示。

相应地，策略函数如式所示。

展 开 成 标 量 形 式

其中表示协方差矩阵的行列式。此时策略对应的概率密度公式，如式所示。

展 开 成 标 量 形 式

再求梯度，如式所示。

可以看出，式与标量高斯分布的梯度计算（式）是类似的，只不过是对每个动作维度分别计算梯度，然后求和。

为帮助理解，同样使用 Numpy 模块来实现高斯分布的采样和梯度求解，如代码 8 所示。

代码 8: 高斯分布 Numpy 实现

import numpy as np

def gaussian_policy_and_grads(mu, log_std):
    """
    mu, log_std: np.ndarray, 形状 [B, d] 或 [d] 或标量。
    返回:
      a: 采样动作 a ~ N(mu, σ²)
      logp: [B] 或标量，log π(a|s)
      dmu: ∂logπ/∂μ
      dlogstd: ∂logπ/∂logσ
    """
    mu = np.asarray(mu)
    log_std = np.asarray(log_std)
    std = np.exp(log_std)

    # 1️⃣ 采样动作 (重参数化技巧)
    eps = np.random.randn(*mu.shape)     # ε ~ N(0, I)
    a = mu + std * eps                   # a = μ + σ·ε

    # 2️⃣ 计算 log π(a|s)
    quad = ((a - mu) / std) ** 2
    logp_dims = -0.5 * (quad + 2 * log_std + np.log(2 * np.pi))
    logp = np.sum(logp_dims, axis=-1) if logp_dims.ndim > 0 else logp_dims

    # 3️⃣ 计算梯度
    var = std ** 2
    dmu = (a - mu) / var                       # ∂logπ/∂μ
    dlogstd = ((a - mu) ** 2 / var) - 1.0      # ∂logπ/∂logσ

    return a, logp, dmu, dlogstd


# ==== 示例 ====
# 批量 = 3, 动作维度 = 2
mu = np.array([[0.3, -0.1],
               [0.8,  0.1],
               [0.1, -0.1]])

log_std = np.array([[-0.7, -0.7],
                    [-0.7, -0.7],
                    [-0.7, -0.7]])   # log σ ≈ -0.7 → σ ≈ 0.496

a, logp, dmu, dlogstd = gaussian_policy_and_grads(mu, log_std)

print("采样动作 a:\n", np.round(a, 3))
print("log π(a|s):\n", np.round(logp, 4))
print("∂logπ/∂μ:\n", np.round(dmu, 3))
print("∂logπ/∂logσ:\n", np.round(dlogstd, 3))

运行结果如代码 9 所示。

代码 9: 高斯分布运行结果

采样动作 a:
 [[ 0.231 -0.317]
 [ 0.991  0.122]
 [ 0.067  0.118]]
log π(a|s):
 [-1.1136 -1.0822 -1.1314]
∂logπ/∂μ:
 [[ 0.278  1.111]
 [-0.786 -0.183]
 [ 0.134 -0.914]]
∂logπ/∂logσ:
 [[-0.923 -0.198]
 [-0.382 -0.932]
 [-0.928 -0.507]]

接下来，我们使用 PyTorch 模块来实现一个基于高斯分布的策略网络，并计算对应的梯度，如代码 10 所示。

代码 10: 高斯分布策略网络 PyTorch 实现

import torch
import torch.nn as nn
import torch.nn.functional as F

class GaussianPolicy(nn.Module):
    def __init__(self, state_dim, action_dim):
        super().__init__()
        self.fc1 = nn.Linear(state_dim, 128)
        self.fc_mu = nn.Linear(128, action_dim)
        self.fc_logstd = nn.Linear(128, action_dim)

    def forward(self, state):
        x = F.relu(self.fc1(state))
        mu = self.fc_mu(x)
        log_std = self.fc_logstd(x).clamp(-20, 2)  # 避免数值不稳定
        std = log_std.exp()
        return mu, std

    def get_action(self, state):
        mu, std = self.forward(state)
        dist = torch.distributions.Normal(mu, std)
        action = dist.sample()  # 采样动作
        log_prob = dist.log_prob(action).sum(dim=-1)
        return action, log_prob

REINFORCE 算法

算法，又称为蒙特卡洛策略梯度（）算法，是最早提出的一种策略梯度方法。它的核心思想是通过采样轨迹来估计策略梯度，从而更新策略参数。回顾基于轨迹概率密度推导出的目标函数梯度（式），在算法中，通常会使用回报 (带折扣的未来奖励和) 来替代轨迹回报，如式所示。

使用蒙特卡洛方法来估计梯度，即通过多次采样轨迹来计算梯度的近似值，如式所示。

在实际应用中，算法的流程如图 3 所示。首先，初始化策略参数，然后在每个迭代周期中，采样条轨迹（这个过程称为，出于简便图中只展示了一条轨迹的采样），计算每条轨迹的回报，最后根据式计算梯度并更新策略参数。

图 3: REINFORCE 算法流程

小结

本文首先介绍策略参数化的基本概念，即通过参数化策略函数来直接表示策略，读者须记住参数化策略是一个处处可微的分布。

然后通过基于轨迹密度概率和占用测度两种方式推导出策略梯度的目标函数及梯度表达式，分别为式和式。两种推导方式是等价的，前者更直观易懂，后者更严谨且便于扩展。

在占用测度推导中，读者须谨记平稳分布在强化学习问题中是一定存在的，即随着迭代次数增加，状态分布会收敛到一个固定的分布，这个分布与初始状态分布无关。

接着，介绍了如何对策略函数进行建模，分别针对离散动作空间和连续动作空间，使用多项式分布和高斯分布进行建模，对于入门者来说，只需掌握相关的公式形式以及代码实现即可，不需要深入理解对应分布的梯度计算细节。

然后，介绍了算法的基本原理和实现流程，作为策略梯度方法的入门算法，读者需要理解其核心思想，即通过采样轨迹来估计策略梯度，并使用蒙特卡洛方法进行优化。但由于这类纯策略梯度方法使用率较低，可更多地将其作为理解更复杂算法的理论基础，而不用过于关注其实际应用和代码实现部分。

思考

为什么使用 Softmax 函数来建模离散动作空间的策略？

主要考虑以下因素：

该函数是可微分的，这是计算梯度的必要条件
一方面可以确保概率为正数，即对于任意神经网络的输出，，另一方面可以将任意实数映射到之间，并且所有动作的概率之和为 1，符合概率分布的要求
指数函数能够放大差距，如果某个动作的得分较高，对应的就会成倍增加，从而让策略更倾向于“高分动作”。这样一来，策略能够更有效地利用当前的知识，选择更优的动作，降低无意义的探索，让回报更加稳定。然而这一点并非总是好事，过度放大差距可能导致探索不足，容易收敛到局部最优。因此实际运用时需要辩证看待。

REINFORCE 算法是无偏的吗？为什么？

REINFORCE 算法是无偏的，因为它使用了蒙特卡洛方法来估计策略梯度，所得到的梯度估计是对真实梯度的无偏估计。然而，由于使用了采样方法，估计的方差可能较大，这可能会影响学习的稳定性和效率。核心思想是直接对策略进行参数化，并通过梯度上升法来优化策略参数，从而最大化预期回报。

如何改进 REINFORCE 算法以提高样本效率？

可以通过以下几种方法来改进 REINFORCE 算法以提高样本效率: 1) 使用基线函数来减少梯度估计的方差；2) 采用时间差分（TD）方法来替代蒙特卡洛估计，从而减少对完整轨迹的依赖；3) 使用经验回放（Experience Replay）技术来重用过去的经验数据；4) 结合价值函数近似方法，如 Actor-Critic 方法，以同时学习策略和价值函数。基本思想是通过参数化策略，并利用梯度上升法来优化策略参数，从而最大化预期回报。核心思想是通过参数化策略，并利用梯度上升法来优化策略参数，从而最大化预期回报。

基于价值和基于策略的算法各有什么优缺点？

前者的优点有：简单易用：通常只需要学习一个值函数，往往收敛性也会更好。保守更新：更新策略通常是隐式的，通过更新价值函数来间接地改变策略，这使得学习可能更加稳定。缺点有：受限于离散动作；可能存在多个等价最优策略：当存在多个等效的最优策略时，基于价值的方法可能会在它们之间不停地切换。后者的优点有：直接优化策略：由于这些算法直接操作在策略上，所以它们可能更容易找到更好的策略；适用于连续动作空间；更高效的探索：通过调整策略的随机性，基于策略的方法可能会有更高效的探索策略。缺点有：高方差：策略更新可能会带来高方差，这可能导致需要更多的样本来学习。可能会收敛到局部最优：基于策略的方法可能会收敛到策略的局部最优，而不是全局最优，且收敛较缓慢。在实践中，还存在结合了基于价值和基于策略方法的算法，即算法，试图结合两者的优点来克服各自的缺点。选择哪种方法通常取决于具体的应用和其特点。

确定性策略与随机性策略的区别？

对于同一个状态，确定性策略会给出一个明确的、固定的动作，随机性策略则会为每一个可能的动作（legal action）提供一个概率分布。前者在训练中往往需要额外的探索策略，后者则只需要调整动作概率。但前者相对更容易优化，因为不需要考虑所有可能的动作，但也容易受到噪声的影响。后者则相对更加鲁棒，适用面更广，因为很多的实际问题中，我们往往无法得到一个确定的最优策略，而只能得到一个概率分布，尤其是在博弈场景中。

马尔可夫平稳分布需要满足什么条件？

状态连通性：从任何一个状态可以在有限的步数内到达另一个状态；非周期性：由于马尔可夫链需要收敛，那么就一定不能是周期性的。

算法会比算法训练速度更快吗？为什么？

策略参数化​

基于轨迹推导​

轨迹概率密度​

对数导数技巧​

占用测度推导​

平稳分布​

平稳分布的存在性推导​

目标函数梯度​

目标函数梯度的推导​

两种推导方式的等价性​

策略梯度通用表达式​

策略函数建模​

离散动作空间​

连续动作空间​

标量高斯分布​

向量高斯分布​

REINFORCE 算法​

小结​

思考​