第25章循环神经网络

习题25.1

Jordan提出的循环神经网络如图25.15所示。试写出这种神经网络的公式，并与Elman提出的简单循环神经网络做比较。

解答：

解答思路：

给出简单循环神经网络（S-RNN）的定义
给出Jordan提出的循环神经网络的公式
比较Jordan RNN和S-RNN

解答步骤：

第1步：简单循环神经网络（S-RNN）的定义

根据书中第25.1.1节的定义25.1的简单循环神经网络（即Elman提出的简单循环神经网络）的定义：

定义25.1（简单循环神经网络） 称以下的神经网络为简单循环神经网络。神经网络以序列数据 $x_{1}, x_{2}, \dots, x_{T}$ 为输入，每一项是一个实数向量。在每一个位置上重复使用同一个神经网络结构。在第 $t$ 个位置上（ $t = 1, 2, \dots, T$ ），神经网络的隐层或中间层以 $x_{t}$ 和 $h_{t - 1}$ 为输入，以 $h_{t}$ 为输出，其间有以下关系成立：
$\begin{matrix} (25.1) & h_{t} = \tanh (U \cdot h_{t - 1} + W \cdot x_{t} + b) \end{matrix}$
其中， $x_{t}$ 表示第 $t$ 个位置上的输入，是一个实数向量 $(x_{t, 1}, x_{t, 2}, \dots, x_{t, n})^{T}$ ； $h_{t - 1}$ 表示第 $t - 1$ 个位置的状态，也是一个实数向量 $(h_{t - 1, 1}, h_{t - 1, 2}, \dots, h_{t - 1, m})^{T}$ ； $h_{t}$ 表示第 $t$ 个位置的状态 $(h_{t, 1}, h_{t, 2}, \dots, h_{t, m})^{T}$ ，也是一个实数向量； $U, W$ 是权重矩阵； $b$ 是偏置向量。神经网络的输出层以 $h_{t}$ 为输入， $p_{t}$ 为输出，有以下关系成立：
$\begin{matrix} (25.2) & p_{t} = softmax (V \cdot h_{t} + c) \end{matrix}$
其中， $p_{t}$ 表示第 $t$ 个位置上的输出，是一个概率向量 $(p_{t, 1}, p_{t, 2}, \dots, p_{t, l})^{T}$ ，满足 $p_{t, i} ⩾ 0 (i = 1, 2, \dots, l), \sum_{i = 1}^{l} p_{t, i} = 1$ ； $V$ 是权重矩阵； $c$ 是偏置向量。神经网络输出序列数据 $p_{1}, p_{2}, \dots, p_{T}$ ，每一项是一个概率向量。
以上公式还可以写作
$\begin{matrix} (25.3) & r_{t} = U \cdot h_{t - 1} + W \cdot x_{t} + b \end{matrix}$ $\begin{matrix} (25.4) & h_{t} = \tanh (r_{t}) \end{matrix}$ $\begin{matrix} (25.5) & z_{t} = V \cdot h_{t} + c \end{matrix}$ $\begin{matrix} (25.6) & p_{t} = softmax (z_{t}) \end{matrix}$
其中， $r_{t}$ 是隐层的净输入向量， $z_{t}$ 是输出层的净输入向量。隐层的激活函数通常是双曲正切函数，也可以是其他激活函数；输出层的激活函数通常是软最大化函数。

第2步：给出Jordan提出的循环神经网络的公式

根据图25.15的循环神经网络架构，可得循环神经网络的公式如下：

r_{t} = U \cdot p_{t - 1} + W \cdot x_{t} + b h_{t} = \tanh (r_{t}) z_{t} = V \cdot h_{t} + c p_{t} = softmax (z_{t})

第3步：比较Jordan RNN和S-RNN

相同点：
1. 两者都是描述动态系统的非线性模型
2. 两者都满足循环神经网络的基本特点，包括可以处理任意长度的序列数据、属于自回归模型、具有强大的表示能力
3. 两者都不能进行并行化处理
不同点：
1. Jordan RNN采用softmax处理隐含层后的输出层作为下一层隐含层的输入，而 S-RNN 采用的是softmax处理前的隐含层作为下一层隐含层的输入
2. 由于Jordan RNN采用的是经softmax处理后的隐含层，所以其分布较原本的隐含层改变了，尤其是类别间的差距被非线性放大或缩小（负值厌恶），这种对正负向的偏好在信息量表达上是不利的，这里直接建模相邻时间节点的隐含层可以建立更直接的相邻隐含层分布之间的关系，拥有更高的拓展性和普适性，所以后续的循环神经网络多以 S-RNN 作为基础机构。

习题25.2

写出循环神经网络的层归一化的公式。

解答：

解答思路：

给出层归一化的基本概念
写出循环神经网络的层归一化的公式

解答步骤：

第1步：层归一化的基本概念

根据书中第23.2.5节的层归一化的描述：

层归一化（layer normalization）是另一种防止内部协变量偏移的方法。其基本想法与批量归一化相同，但是是在每一层的神经元上进行归一化，而不是在每一个批量的样本上进行归一化。优点是实现简单，也没有批量大小的超参数需要调节。
层归一化在每一层的神经元的净输入上进行。假设当前层的神经元的净输入是 $z = (z_{1}, z_{2}, \dots, z_{m})^{T}$ ，其中 $z_{j}$ 是第 $j$ 个神经元的净输入， $m$ 是神经元个数。训练和预测时，首先计算这一层的神经元的净输入的均值与方差（无偏估计）。
$\begin{matrix} (23.65) & μ = \frac{1}{m} \sum_{j = 1}^{m} z_{j} \end{matrix}$ $\begin{matrix} (23.66) & σ^{2} = \frac{1}{m - 1} \sum_{j = 1}^{m} (z_{j} - μ)^{2} \end{matrix}$
然后对每一个神经元的净输入进行归一化，得到数值：
$\begin{matrix} (23.67) & {\bar{z}}_{j} = \frac{z_{j} - μ}{\sqrt{σ^{2} + ϵ}}, j = 1, 2, \dots, m \end{matrix}$
其中， $ϵ$ 是一个很小的正数。之后再进行仿射变换，得到数值：
$\begin{matrix} (23.68) & {\tilde{z}}_{j} = γ \cdot {\bar{z}}_{j} + β, j = 1, 2, \dots, m \end{matrix}$
其中， $γ$ 和 $β$ 是参数。最后将归一化加仿射变换的结果作为这一层神经元的实际净输入。在每一层都做相同的处理。神经网络的每一层都有两个参数 $γ$ 和 $β$ 。

第2步：写出循环神经网络的层归一化的公式

对于第 $l$ 层循环神经网络层输入为 $z^{(l)}$ ，其层归一化后的输出 ${\tilde{z}}^{(l)}$ 为：

{\tilde{z}}^{(l)} = γ \cdot \frac{z^{(l)} - μ^{(l)}}{\sqrt{σ^{(l)} + ϵ}} + β

记作 $L N_{γ, β} (z^{(l)})$ ，其中 $γ$ , $β$ 这里是缩放和平移的参数向量，和 $z^{(l)}$ 的维度相同； $μ^{(l)}$ 为 $μ^{(l)} = \frac{1}{n^{(l)}} \sum_{i = 1}^{n^{(l)}} z_{i}^{(l)}$ ； $σ^{(l)} = \frac{1}{n^{(l)} - 1} \sum_{i = 1}^{n^{(l)}} (z_{i}^{(l)} - μ^{(l)})^{2}$ 。

在循环神经网络中，假设在 $t$ 时刻，隐层为 $h_{t}$ ，其归一化的公式为

z_{t} = U h_{t - 1} + W x_{t} + b h_{t} = f (L N_{γ, β} (z_{t}))

其中 $x_{t}$ 表示第 $t$ 个位置上的输入， $U, W$ 为权重矩阵， $f (\cdot)$ 是激活函数。

习题25.3

比较前馈神经网络的反向传播算法与循环神经网络的反向传播算法的异同。

解答：

解答思路：

给出前馈神经网络的反向传播算法
给出循环神经网络的反向传播算法
比较两者的异同

解答步骤：

第1步：前馈神经网络的反向传播算法

根据书中第23.2.3节的算法23.3的前馈神经网络的反向传播算法：

算法23.3 （前馈神经网络的反向传播算法）
输入：神经网络 $f (x; θ)$ ，参数向量 $θ$ ，一个样本 $(x, y)$
输出：更新的参数向量 $θ$
超参数：学习率 $η$
1.正向传播，得到各层输出 $h^{(1)}, h^{(2)}, \dots, h^{(s)}$
$h^{(0)} = x$
For $t = 1, 2, \dots, s$ ，do {
$z^{(t)} = W^{(t)} h^{(t - 1)} + b^{(t)} h^{(t)} = a (z^{(t)})$
}
$f (x) = h^{(s)}$
2.反向传播，得到各层误差 $δ^{(s)}, \dots, δ^{(2)}, δ^{(1)}$ ，同时计算各层的梯度，更新各层的参数。
计算输出层的误差
$δ^{(s)} = h^{(s)} - y$
For $t = s, \dots, 2, 1$ ，do {
计算第 $t$ 层的梯度
$\nabla_{W^{(t)}} L = δ^{(t)} \cdot {h^{(t - 1)}}^{T} \nabla_{b^{(t)}} L = δ^{(t)}$
根据梯度下降公式更新第 $t$ 层的参数
$W^{(t)} \leftarrow W^{(t)} - η \nabla_{W^{(t)}} L b^{(t)} \leftarrow b^{(t)} - η \nabla_{b^{(t)}} L$
If ( $t > 1$ ) {
将第 $t$ 层的误差传到第 $t - 1$ 层
$δ^{(t - 1)} = \frac{\partial a}{\partial z^{(t - 1)}} ⊙ ({W^{(t)}}^{T} \cdot δ^{(t)})$
}
} 3.返回更新的参数向量

第2步：循环神经网络的反向传播算法

根据书中第25.1.2节的算法25.1的循环神经网络的反向传播算法：

算法25.1（随时间的反向传播算法）
输入：循环神经网络 $f (x; θ)$ ，参数 $θ$ ，样本 $(x_{1}, x_{2}, . . ., x_{T})$ 和 $(y_{1}, y_{2}, . . ., y_{T})$ 。
输出：更新的参数 $θ$
超参数：学习率 $η$ 1.正向传播，得到各个位置的输出
For $t = 1, 2, \dots, T$ ，do {
将信号从前向后传播，计算隐层的输出 $h_{t}$ 和输出层的输出 $p_{t}$
$r_{t} = U \cdot h_{t - 1} + W \cdot x_{t} + b h_{t} = \tanh (r_{t}) z_{t} = V \cdot h_{t} + c p_{t} = softmax (z_{t})$
} 2.反向传播，得到各个位置的梯度
For $t = T, \dots, 2, 1$ ，do {
计算输出层的梯度 $\frac{\partial L}{\partial z_{t}}$
$\frac{\partial L}{\partial z_{t}} = y_{t} - p_{t}$
将梯度从后向前传播，计算隐层的梯度 $\frac{\partial L}{\partial r_{t}}$
If ( $t < T$ ) {
$\frac{\partial L}{\partial r_{t}} = diag (1 - \tanh^{2} r_{t}) \cdot U^{T} \cdot \frac{\partial L}{\partial r_{t + 1}} + diag (1 - \tanh^{2} r_{t}) \cdot V^{T} \cdot \frac{\partial L}{\partial z_{t}}$
} else {
$\frac{\partial L}{\partial r_{T}} = diag (1 - \tanh^{2} r_{T}) \cdot V^{T} \cdot \frac{\partial L}{\partial z_{T}}$
}
}
3.进行参数更新
计算梯度
$\frac{\partial L}{\partial c} = \sum_{t = 1}^{T} \frac{\partial L}{\partial z_{t}} \frac{\partial L}{\partial V} = \sum_{t = 1}^{T} \frac{\partial L}{\partial z_{t}} \cdot h_{t}^{T} \frac{\partial L}{\partial b} = \sum_{t = 1}^{T} \frac{\partial L}{\partial r_{t}} \frac{\partial L}{\partial U} = \sum_{t = 1}^{T} \frac{\partial L}{\partial r_{t}} \cdot h_{t - 1}^{T} \frac{\partial L}{\partial W} = \sum_{t = 1}^{T} \frac{\partial L}{\partial r_{t}} \cdot x_{t}^{T}$
根据梯度下降公式更新参数
$c \leftarrow c - η \frac{\partial L}{\partial c} V \leftarrow V - η \frac{\partial L}{\partial V} b \leftarrow b - η \frac{\partial L}{\partial b} W \leftarrow W - η \frac{\partial L}{\partial W} U \leftarrow U - η \frac{\partial L}{\partial U}$
4.返回更新的参数

第3步：比较两者的异同

相同点：
1. 两者的反向传播学习的过程步骤相同，都是正向传播、反向传播、参数更新、返回更新的参数
2. 两者在反向传播过程中都会因矩阵连乘，导致梯度消失和梯度爆炸
不同点：
1. 在循环神经网络的反向传播中，矩阵的连乘接近矩阵的连续自乘，导致其梯度消失与爆炸的风险更严重；
2. 循环神经网络的反向传播算法需要在时间上展开，计算量更大；
3. 循环神经网络的反向传播算法中，每一个位置的参数共享，传播梯度为所有位置求和。而前馈网络神经网络的反向传播算法中没有参数共享；
4. 循环神经网络的反向传播算法中，隐层的梯度来自输出层的梯度和下一个位置的隐层梯度两个方向。而前馈网络神经网络的反向传播算法中，隐层梯度只来自于输出层的梯度。

习题25.4

写出LSTM模型的反向传播算法公式。

解答：

解答思路：

给出LSTM的基本概念
写出LSTM的反向传播算法公式推导
写出LSTM的反向传播算法

解答步骤：

第1步：LSTM的基本概念

根据书中第25.2.1节的定义25.2的长短期记忆网络（LSTM）：

定义25.2（长短期记忆网络） 以下的循环神经网络称为长短期记忆网络。在循环网络的每一个位置上有状态和记忆元，以及输入门、遗忘门、输出门，构成一个单元。第 $t$ 个位置上 $(t = 1, 2, \dots, T)$ 的单元是以当前位置的输入 $x_{t}$ 、之前位置的记忆元 $c_{t - 1}$ 、之前位置的状态 $h_{t - 1}$ 为输入，以当前位置的状态 $h_{t}$ 和当前位置的记忆元 $c_{t}$ 为输出的函数，由以下方式计算。
$\begin{matrix} (25.20) & i_{t} = σ (U_{i} \cdot h_{t - 1} + W_{i} \cdot x_{t} + b_{i}) \end{matrix}$ $\begin{matrix} (25.21) & f_{t} = σ (U_{f} \cdot h_{t - 1} + W_{f} \cdot x_{t} + b_{f}) \end{matrix}$ $\begin{matrix} (25.22) & o_{t} = σ (U_{o} \cdot h_{t - 1} + W_{o} \cdot x_{t} + b_{o}) \end{matrix}$ $\begin{matrix} (25.23) & {\tilde{c}}_{t} = \tanh (U_{c} \cdot h_{t - 1} + W_{c} \cdot x_{t} + b_{c}) \end{matrix}$ $\begin{matrix} (25.24) & c_{t} = i_{t} ⊙ {\tilde{c}}_{t} + f_{t} ⊙ c_{t - 1} \end{matrix}$ $\begin{matrix} (25.25) & h_{t} = o_{t} ⊙ \tanh (c_{t}) \end{matrix}$
这里 $i_{t}$ 是输入门， $f_{t}$ 是遗忘门， $o_{t}$ 是输出门， ${\tilde{c}}_{t}$ 是中间结果。状态 $h_{t}$ 、记忆元 $c_{t}$ 、输入门 $i_{t}$ 、遗忘门 $f_{t}$ 、输出门 $o_{t}$ 都是向量，其维度相同。

25-4

第2步：写出LSTM的反向传播算法公式推导

由上述LSTM算法公式，现为了区分 ${\tilde{c}}_{t}$ 和 $c_{t}$ ，使用 $g_{t}$ 代替 ${\tilde{c}}_{t}$ ：

i_{t} = σ ({\tilde{i}}_{t}) = σ (U_{i} \cdot h_{t - 1} + W_{i} \cdot x_{t} + b_{i}) f_{t} = σ ({\tilde{f}}_{t}) = σ (U_{f} \cdot h_{t - 1} + W_{f} \cdot x_{t} + b_{f}) o_{t} = σ ({\tilde{o}}_{t}) = σ (U_{o} \cdot h_{t - 1} + W_{o} \cdot x_{t} + b_{o}) g_{t} = \tanh ({\tilde{g}}_{t}) = {\tilde{c}}_{t} = \tanh (U_{c} \cdot h_{t - 1} + W_{c} \cdot x_{t} + b_{c}) c_{t} = i_{t} ⊙ g_{t} + f_{t} ⊙ c_{t - 1} h_{t} = o_{t} ⊙ \tanh (c_{t}) z_{t} = V \cdot h_{t} + c p_{t} = softmax (z_{t})

这里 $i_{t}$ 是输入门， $f_{t}$ 是遗忘门， $o_{t}$ 是输出门， $g_{t}$ 是中间结果。状态 $h_{t}$ 、记忆元 $c_{t}$ 、输入门 $i_{t}$ 、遗忘门 $f_{t}$ 、输出门 $o_{t}$ 都是向量，其维度相同。

现考虑，已知 $\frac{\partial L}{\partial z_{t}}, \frac{\partial L}{\partial c_{t + 1}}, \frac{\partial L}{\partial {\tilde{o}}_{t + 1}}, \frac{\partial L}{\partial {\tilde{f}}_{t + 1}}, \frac{\partial L}{\partial {\tilde{i}}_{t + 1}}, \frac{\partial L}{\partial {\tilde{g}}_{t + 1}}$ 求某个隐层的梯度时，首先应该找到该隐层的输出层，然后分别计算输出层的梯度乘以输出层对该隐层的梯度，最后相加即可得到该隐层的梯度。

假设某一隐层的输出 $h_{t}$ ，现计算 $\frac{\partial L}{\partial h_{t}}$ 时，可找到该层神经元的后一层所有已连接的神经元的净输出 $ z_t, \tilde{o}{t+1}, \tilde{f}, \tilde{i}{t+1}, \tilde{g}$ ，然后分别计算该隐层的输出层的梯度（如 $\frac{\partial L}{\partial z_{t}}$ ）与输出层的神经元对该隐层 $h_{t}$ 的梯度的乘积（如 $\displaystyle \frac{\partial L}{\partial z_t} U^T_c $），最后相加即可得到该隐层的梯度:

\frac{\partial L}{\partial h_{t}} = \frac{\partial L}{\partial z_{t}} V^{T} + \frac{\partial L}{\partial {\tilde{o}}_{t + 1}} U_{o}^{T} + \frac{\partial L}{\partial {\tilde{f}}_{t + 1}} U_{f}^{T} + \frac{\partial L}{\partial {\tilde{i}}_{t + 1}} U_{i}^{T} + \frac{\partial L}{\partial {\tilde{g}}_{t + 1}} U_{c}^{T}

根据上述计算过程，可计算各个计算公式的中间输出结果的梯度：

\begin{aligned} \frac{\partial L}{\partial c_{t}} & = \frac{\partial L}{\partial \tanh (c_{t})} \frac{d \tanh (c_{t})}{d c_{t}} + \frac{\partial L}{\partial c_{t + 1}} ⊙ f_{t + 1} \\ = (\frac{\partial L}{\partial h_{t}} ⊙ o_{t}) \cdot diag (1 - \tanh^{2} c_{t}) + \frac{\partial L}{\partial c_{t + 1}} ⊙ f_{t + 1} \end{aligned}

\begin{aligned} \frac{\partial L}{\partial {\tilde{g}}_{t}} & = \frac{\partial L}{\partial g_{t}} (1 - g_{t}^{2}) \\ = (1 - g_{t}^{2}) \cdot \frac{\partial L}{\partial c_{t}} ⊙ i_{t} \end{aligned}

\begin{aligned} \frac{\partial L}{\partial {\tilde{i}}_{t}} & = \frac{\partial L}{\partial i_{t}} i_{t} (1 - i_{t}) \\ = i_{t} (1 - i_{t}) \cdot \frac{\partial L}{\partial c_{t}} ⊙ g_{t} \end{aligned}

\begin{aligned} \frac{\partial L}{\partial {\tilde{f}}_{t}} & = \frac{\partial L}{\partial f_{t}} f_{t} (1 - f_{t}) \\ = f_{t} (1 - f_{t}) \cdot \frac{\partial L}{\partial c_{t}} ⊙ c_{t - 1} \end{aligned}

\begin{aligned} \frac{\partial L}{\partial {\tilde{o}}_{t}} & = \frac{\partial L}{\partial o_{t}} i_{t} (1 - o_{t}) \\ = i_{t} (1 - o_{t}) \cdot \frac{\partial L}{\partial h_{t}} ⊙ \tanh (c_{t}) \end{aligned}

\frac{\partial L}{\partial x_{t}} = \frac{\partial L}{\partial {\tilde{o}}_{t}} W_{o}^{T} + \frac{\partial L}{\partial {\tilde{f}}_{t}} W_{f}^{T} + \frac{\partial L}{\partial {\tilde{i}}_{t}} W_{i}^{T} + \frac{\partial L}{\partial {\tilde{g}}_{t}} W_{c}^{T}

可求得各个参数的梯度，注意参数是在每个位置共享的，需要对所有位置求和。

\frac{\partial L}{\partial U_{o}} = \sum_{t = 1}^{T} \frac{\partial L}{\partial {\tilde{o}}_{t + 1}} \cdot h_{t}^{T} \frac{\partial L}{\partial U_{f}} = \sum_{t = 1}^{T} \frac{\partial L}{\partial {\tilde{f}}_{t + 1}} \cdot h_{t}^{T} \frac{\partial L}{\partial U_{i}} = \sum_{t = 1}^{T} \frac{\partial L}{\partial {\tilde{i}}_{t + 1}} \cdot h_{t}^{T} \frac{\partial L}{\partial U_{c}} = \sum_{t = 1}^{T} \frac{\partial L}{\partial {\tilde{g}}_{t + 1}} \cdot h_{t}^{T}

\frac{\partial L}{\partial V} = \sum_{t = 1}^{T} \frac{\partial L}{\partial z_{t}} \cdot h_{t}^{T}

\frac{\partial L}{\partial W_{o}} = \sum_{t = 1}^{T} \frac{\partial L}{\partial {\tilde{o}}_{t}} \cdot x_{t}^{T} \frac{\partial L}{\partial W_{f}} = \sum_{t = 1}^{T} \frac{\partial L}{\partial {\tilde{f}}_{t}} \cdot x_{t}^{T} \frac{\partial L}{\partial W_{i}} = \sum_{t = 1}^{T} \frac{\partial L}{\partial {\tilde{i}}_{t}} \cdot x_{t}^{T} \frac{\partial L}{\partial W_{c}} = \sum_{t = 1}^{T} \frac{\partial L}{\partial {\tilde{g}}_{t}} \cdot x_{t}^{T}

\frac{\partial L}{\partial b_{i}} = \sum_{t = 1}^{T} \frac{\partial L}{\partial {\tilde{i}}_{t}} \frac{\partial L}{\partial b_{f}} = \sum_{t = 1}^{T} \frac{\partial L}{\partial {\tilde{f}}_{t}} \frac{\partial L}{\partial b_{o}} = \sum_{t = 1}^{T} \frac{\partial L}{\partial {\tilde{o}}_{t}} \frac{\partial L}{\partial b_{c}} = \sum_{t = 1}^{T} \frac{\partial L}{\partial {\tilde{g}}_{t}}

第3步：写出LSTM的反向传播算法

输入：LSTM网络 $y = f (x; θ)$ ，参数 $θ$ ，样本 $(x_{1}, x_{2}, \dots, x_{T})$ 和 $(y_{1}, y_{2}, \dots, y_{T})$ 。
输出：更新的参数 $θ$
超参数： $η$

正向传播，得到各个位置的输出

For $t = 1, 2, \dots, T$ do {
将信号从前向后传播，计算隐层的输出 $h_{t}$ 和输出层的输出 $p_{t}$

i_{t} = σ ({\tilde{i}}_{t}) = σ (U_{i} \cdot h_{t - 1} + W_{i} \cdot x_{t} + b_{i}) f_{t} = σ ({\tilde{f}}_{t}) = σ (U_{f} \cdot h_{t - 1} + W_{f} \cdot x_{t} + b_{f}) o_{t} = σ ({\tilde{o}}_{t}) = σ (U_{o} \cdot h_{t - 1} + W_{o} \cdot x_{t} + b_{o}) g_{t} = \tanh ({\tilde{g}}_{t}) = {\tilde{c}}_{t} = \tanh (U_{c} \cdot h_{t - 1} + W_{c} \cdot x_{t} + b_{c}) c_{t} = i_{t} ⊙ g_{t} + f_{t} ⊙ c_{t - 1} h_{t} = o_{t} ⊙ \tanh (c_{t}) z_{t} = V \cdot h_{t} + c p_{t} = softmax (z_{t})

}

反向传播，得到各个位置的梯度

For $t = T, \dots, 2, 1$ do {
计算输出层的梯度$\displaystyle \frac{\partial{L}}{\partial{z_t}} $

\frac{\partial L}{\partial z_{t}} = y_{t} - p_{t}

将梯度从后向前传播，计算隐层的梯度 $\frac{\partial L}{\partial {\tilde{i}}_{t}}, \frac{\partial L}{\partial {\tilde{f}}_{t}}, \frac{\partial L}{\partial {\tilde{o}}_{t}}$
If $(t < T)$ {

\frac{\partial L}{\partial {\tilde{i}}_{t}} = i_{t} (1 - i_{t}) \cdot \frac{\partial L}{\partial c_{t}} ⊙ g_{t} \frac{\partial L}{\partial {\tilde{f}}_{t}} = f_{t} (1 - f_{t}) \cdot \frac{\partial L}{\partial c_{t}} ⊙ c_{t - 1} \frac{\partial L}{\partial {\tilde{o}}_{t}} = i_{t} (1 - o_{t}) \cdot \frac{\partial L}{\partial h_{t}} ⊙ \tanh (c_{t})

其中

\frac{\partial L}{\partial c_{t}} = (\frac{\partial L}{\partial h_{t}} ⊙ o_{t}) \cdot diag (1 - \tanh^{2} c_{t}) + \frac{\partial L}{\partial c_{t + 1}} ⊙ f_{t + 1} \frac{\partial L}{\partial h_{t}} = \frac{\partial L}{\partial z_{t}} V^{T} + \frac{\partial L}{\partial {\tilde{o}}_{t + 1}} U_{o}^{T} + \frac{\partial L}{\partial {\tilde{f}}_{t + 1}} U_{f}^{T} + \frac{\partial L}{\partial {\tilde{i}}_{t + 1}} U_{i}^{T} + \frac{\partial L}{\partial {\tilde{g}}_{t + 1}} U_{c}^{T} g_{t} = \tanh (U_{c} \cdot h_{t - 1} + W_{c} \cdot x_{t} + b_{c})

} else {

\frac{\partial L}{\partial {\tilde{i}}_{T}} = i_{T} (1 - i_{T}) \cdot \frac{\partial L}{\partial c_{T}} ⊙ g_{T} \frac{\partial L}{\partial {\tilde{f}}_{T}} = f_{T} (1 - f_{T}) \cdot \frac{\partial L}{\partial c_{T}} ⊙ c_{T - 1} \frac{\partial L}{\partial {\tilde{o}}_{T}} = i_{T} (1 - o_{T}) \cdot \frac{\partial L}{\partial h_{T}} ⊙ \tanh (c_{T})

其中

\frac{\partial L}{\partial c_{T}} = (\frac{\partial L}{\partial h_{T}} ⊙ o_{T}) \cdot diag (1 - \tanh^{2} c_{T}) \frac{\partial L}{\partial h_{T}} = \frac{\partial L}{\partial z_{T}} V^{T} g_{T} = \tanh (U_{c} \cdot h_{T - 1} + W_{c} \cdot x_{T} + b_{c})

}

进行参数更新

计算梯度

\frac{\partial L}{\partial U_{o}} = \sum_{t = 1}^{T} \frac{\partial L}{\partial {\tilde{o}}_{t + 1}} \cdot h_{t}^{T} \frac{\partial L}{\partial U_{f}} = \sum_{t = 1}^{T} \frac{\partial L}{\partial {\tilde{f}}_{t + 1}} \cdot h_{t}^{T} \frac{\partial L}{\partial U_{i}} = \sum_{t = 1}^{T} \frac{\partial L}{\partial {\tilde{i}}_{t + 1}} \cdot h_{t}^{T} \frac{\partial L}{\partial U_{c}} = \sum_{t = 1}^{T} \frac{\partial L}{\partial {\tilde{g}}_{t + 1}} \cdot h_{t}^{T}

\frac{\partial L}{\partial V} = \sum_{t = 1}^{T} \frac{\partial L}{\partial z_{t}} \cdot h_{t}^{T}

\frac{\partial L}{\partial W_{o}} = \sum_{t = 1}^{T} \frac{\partial L}{\partial {\tilde{o}}_{t}} \cdot x_{t}^{T} \frac{\partial L}{\partial W_{f}} = \sum_{t = 1}^{T} \frac{\partial L}{\partial {\tilde{f}}_{t}} \cdot x_{t}^{T} \frac{\partial L}{\partial W_{i}} = \sum_{t = 1}^{T} \frac{\partial L}{\partial {\tilde{i}}_{t}} \cdot x_{t}^{T} \frac{\partial L}{\partial W_{c}} = \sum_{t = 1}^{T} \frac{\partial L}{\partial {\tilde{g}}_{t}} \cdot x_{t}^{T}

\frac{\partial L}{\partial b_{i}} = \sum_{t = 1}^{T} \frac{\partial L}{\partial {\tilde{i}}_{t}} \frac{\partial L}{\partial b_{f}} = \sum_{t = 1}^{T} \frac{\partial L}{\partial {\tilde{f}}_{t}} \frac{\partial L}{\partial b_{o}} = \sum_{t = 1}^{T} \frac{\partial L}{\partial {\tilde{o}}_{t}} \frac{\partial L}{\partial b_{c}} = \sum_{t = 1}^{T} \frac{\partial L}{\partial {\tilde{g}}_{t}}

根据梯度下降公式更新参数

U_{o} \leftarrow U_{o} - η \frac{\partial L}{\partial U_{o}} U_{f} \leftarrow U_{f} - η \frac{\partial L}{\partial U_{f}} U_{i} \leftarrow U_{i} - η \frac{\partial L}{\partial U_{i}} U_{c} \leftarrow U_{c} - η \frac{\partial L}{\partial U_{c}}

V \leftarrow V - η \frac{\partial L}{\partial V}

W_{o} \leftarrow W_{o} - η \frac{\partial L}{\partial W_{o}} W_{f} \leftarrow W_{f} - η \frac{\partial L}{\partial W_{f}} W_{i} \leftarrow W_{i} - η \frac{\partial L}{\partial W_{i}} W_{c} \leftarrow W_{c} - η \frac{\partial L}{\partial W_{c}}

b_{o} \leftarrow b_{o} - η \frac{\partial L}{\partial b_{o}} b_{f} \leftarrow b_{f} - η \frac{\partial L}{\partial b_{f}} b_{i} \leftarrow b_{i} - η \frac{\partial L}{\partial b_{i}} b_{c} \leftarrow b_{c} - η \frac{\partial L}{\partial b_{c}}

返回更新的参数

习题25.5

推导LSTM模型中记忆元的展开式(25.26)。

解答：

解答思路：

给出LSTM模型的记忆元表达式
使用递归法推导记忆元的展开式

解答步骤：

第1步：LSTM模型的记忆元表达式

根据书中第25.2.1节的LSTM的模型特点：

当输入门和遗忘门满足 $i_{t} = 1, f_{t} = 0$ 时，当前位置的记忆元 $c_{t}$ 只依赖于当前位置的输入 $x_{t}$ 和之前位置的状态 $h_{t - 1}$ ，LSTM是S-RNN的近似。当输入门和遗忘门满足 $i_{t} = 0, f_{t} = 1$ 时，当前位置的记忆元 $c_{t}$ 只依赖于之前位置的记忆元 $c_{t - 1}$ ，LSTM将之前位置的记忆元复制到当前位置。
当前位置的记忆元 $c_{t}$ 可以展开成以下形式：
$\begin{matrix} (25.26) & c_{t} = i_{t} ⊙ {\tilde{c}}_{t} + f_{t} ⊙ c_{t - 1} = \sum_{i = 1}^{t} (\prod_{j = i + 1}^{t} f_{j} ⊙ i_{i}) ⊙ {\tilde{c}}_{i} = \sum_{i = 1}^{t} w_{i}^{t} ⊙ {\tilde{c}}_{i} \end{matrix}$
其中， $w_{i}^{t}$ 表示计算得到的第 $t$ 个位置的权重。

第2步：使用递归法推导记忆元的展开式

根据递推形式，在第 $t$ 个位置时，可得当前位置的记忆元 $c_{t}$ ：

\begin{matrix} (1) & c_{t} = i_{t} ⊙ {\tilde{c}}_{t} + f_{t} ⊙ c_{t - 1} \end{matrix}

在第 $t - 1$ 个位置时，可得之前位置的记忆元 $c_{t - 1}$ ：

\begin{matrix} (2) & c_{t - 1} = i_{t - 1} ⊙ {\tilde{c}}_{t - 1} + f_{t - 1} ⊙ c_{t - 2} \end{matrix}

将式(2)带入式(1)中，可得：

\begin{matrix} (3) & \begin{aligned} c_{t} & = i_{t} ⊙ {\tilde{c}}_{t} + f_{t} ⊙ (i_{t - 1} ⊙ {\tilde{c}}_{t - 1} + f_{t - 1} ⊙ c_{t - 2}) \\ = i_{t} ⊙ {\tilde{c}}_{t} + f_{t} ⊙ i_{t - 1} ⊙ {\tilde{c}}_{t - 1} + f_{t} ⊙ f_{t - 1} ⊙ c_{t - 2} \end{aligned} \end{matrix}

逐步递归，可得：

\begin{aligned} c_{t} & = i_{t} ⊙ {\tilde{c}}_{t} + f_{t} ⊙ i_{t - 1} ⊙ {\tilde{c}}_{t - 1} + f_{t} ⊙ f_{t - 1} ⊙ c_{t - 2} \\ = i_{t} ⊙ {\tilde{c}}_{t} + f_{t} ⊙ i_{t - 1} ⊙ {\tilde{c}}_{t - 1} + f_{t} ⊙ f_{t - 1} ⊙ (i_{t - 2} ⊙ {\tilde{c}}_{t - 2} + f_{t - 2} ⊙ c_{t - 3}) \\ = i_{t} ⊙ {\tilde{c}}_{t} + f_{t} ⊙ i_{t - 1} ⊙ {\tilde{c}}_{t - 1} + f_{t} ⊙ f_{t - 1} ⊙ i_{t - 2} ⊙ {\tilde{c}}_{t - 2} + f_{t} ⊙ f_{t - 1} ⊙ f_{t - 2} ⊙ c_{t - 3} \\ = i_{t} ⊙ {\tilde{c}}_{t} + f_{t} ⊙ i_{t - 1} ⊙ {\tilde{c}}_{t - 1} + f_{t} ⊙ f_{t - 1} ⊙ i_{t - 2} ⊙ {\tilde{c}}_{t - 2} + \dots + f_{t} ⊙ f_{t - 1} ⊙ f_{3} ⊙ i_{2} ⊙ {\tilde{c}}_{2} + f_{t} ⊙ f_{t - 1} ⊙ f_{2} ⊙ c_{1} \\ = \sum_{i = 2}^{t} (\prod_{j = i + 1}^{t} f_{j} ⊙ i_{i}) ⊙ {\tilde{c}}_{i} + f_{t} ⊙ f_{t - 1} ⊙ f_{2} ⊙ c_{1} \end{aligned}

当在第1个位置时， $i_{1} = 1$ ，则 $c_{1} = i_{1} ⊙ {\tilde{c}}_{1}$

所以

\begin{aligned} c_{t} & = \sum_{i = 2}^{t} (\prod_{j = i + 1}^{t} f_{j} ⊙ i_{i}) ⊙ {\tilde{c}}_{i} + f_{t} ⊙ f_{t - 1} ⊙ f_{2} ⊙ c_{1} \\ = \sum_{i = 2}^{t} (\prod_{j = i + 1}^{t} f_{j} ⊙ i_{i}) ⊙ {\tilde{c}}_{i} + f_{t} ⊙ f_{t - 1} ⊙ f_{2} ⊙ i_{1} ⊙ {\tilde{c}}_{1} \\ = \sum_{i = 1}^{t} (\prod_{j = i + 1}^{t} f_{j} ⊙ i_{i}) ⊙ {\tilde{c}}_{i} \end{aligned}

令第 $t$ 个位置的权重可表示为

w_{i}^{t} = \prod_{j = i + 1}^{t} f_{j} ⊙ i_{i}

则

c_{t} = i_{t} ⊙ {\tilde{c}}_{t} + f_{t} ⊙ c_{t - 1} = \sum_{i = 1}^{t} (\prod_{j = i + 1}^{t} f_{j} ⊙ i_{i}) ⊙ {\tilde{c}}_{i} = \sum_{i = 1}^{t} w_{i}^{t} ⊙ {\tilde{c}}_{i}

习题25.6

写出双向LSTM-CRF的模型公式。图25.16是双向LSTM-CRF的架构图。

解答：

解答思路：

给出双向循环神经网络的模型公式
给出LSTM模型公式
给出CRF模型公式
根据双向LSTM-CRF架构图，写出模型公式

解答步骤：

第1步：双向循环神经网络的模型公式

根据书中第25.2.4节的双向循环神经网络：

前向的循环神经网络的隐层（状态）是：
$\begin{matrix} (25.35) & h_{t}^{(1)} = \tanh (U^{(1)} \cdot h_{t - 1}^{(1)} + W^{(1)} \cdot x_{t} + b^{(1)}) \end{matrix}$
后向的循环神经网络的隐层（状态）是：
$\begin{matrix} (25.36) & h_{t}^{(2)} = \tanh (U^{(2)} \cdot h_{t - 1}^{(2)} + W^{(2)} \cdot x_{t} + b^{(2)}) \end{matrix}$
两者的拼接是
$\begin{matrix} (25.37) & h_{t} = [h_{t}^{(1)}; h_{t}^{(2)}] \end{matrix}$
其中，；表示两个向量的拼接。
$p_{t} = softmax (V \cdot h_{t} + c)$

第2步：LSTM模型公式

根据书中第25.2.1节的长短期记忆网络（LSTM）的模型公式：

$i_{t} = σ (U_{i} \cdot h_{t - 1} + W_{i} \cdot x_{t} + b_{i}) f_{t} = σ (U_{f} \cdot h_{t - 1} + W_{f} \cdot x_{t} + b_{f}) o_{t} = σ (U_{o} \cdot h_{t - 1} + W_{o} \cdot x_{t} + b_{o}) {\tilde{c}}_{t} = \tanh (U_{c} \cdot h_{t - 1} + W_{c} \cdot x_{t} + b_{c}) c_{t} = i_{t} ⊙ {\tilde{c}}_{t} + f_{t} ⊙ c_{t - 1} h_{t} = o_{t} ⊙ \tanh (c_{t})$
这里 $i_{t}$ 是输入门， $f_{t}$ 是遗忘门， $o_{t}$ 是输出门， ${\tilde{c}}_{t}$ 是中间结果。状态 $h_{t}$ 、记忆元 $c_{t}$ 、输入门 $i_{t}$ 、遗忘门 $f_{t}$ 、输出门 $o_{t}$ 都是向量，其维度相同。

第3步：CRF模型公式

根据书中第11.2.3节的条件随机场（CRF）的简化形式：

条件随机场可以写成向量 $w$ 与 $F (y, x)$ 的内积的形式：
$\begin{matrix} (11.19) & P_{w} (y | x) = \frac{\exp (w \cdot F (y, x))}{Z_{w} (x)} \end{matrix}$
其中，$$ Z_w(x) = \sum_y \exp (w \cdot F(y, x)) \tag{11.20} $$

第4步：根据双向LSTM-CRF架构图，写出模型公式

双向LSTM-CRF的基本架构是在双向LSTM的输出层引入CRF，是序列标注的有代表性的方法。

前向的LSTM的隐层（状态）是

h_{t}^{f} = {LSTM}_{f} (x_{t}, h_{t - 1}^{f})

后向的LSTM的隐层（状态）是

h_{t}^{b} = {LSTM}_{b} (x_{t}, h_{t + 1}^{b})

其中， ${LSTM}_{f}$ 和 ${LSTM}_{b}$ 分别表示前向LSTM和后向LSTM， $h_{t - 1}^{f}$ 和 $h_{t + 1}^{b}$ 分别表示前向LSTM和后向LSTM的上一个位置的隐藏状态。

两者的拼接是

h_{t} = [h_{i}^{f}; h_{i}^{b}]

其中，；表示两个向量的拼接。

将 $h_{t}$ 输入到CRF层中，得到每个时间步的标签 $y_{t}$ ，并计算其对数概率 $p (y | x)$ ：

p (y | x) = \frac{\exp (score (x, y))}{\sum_{y^{'}} \exp (score (x, y^{'}))}

其中， $score (x, y)$ 表示序列 $x$ 对应标签序列 $y$ 的得分，可以使用线性模型进行计算：

score (x, y) = \sum_{t = 1}^{n} A_{y_{t}, y_{t - 1}} + \sum_{t = 1}^{n} B_{t, y_{t}}

其中， $A$ 是状态转移矩阵， $B$ 是发射矩阵， $A_{y_{t}, y_{t - 1}}$ 表示从状态 $y_{t - 1}$ 转移到状态 $y_{t}$ 的得分， $B_{t, y_{t}}$ 表示在第 $t$ 个位置，标签为 $y_{t}$ 的发射得分。

第25章循环神经网络 ​

习题25.1 ​

习题25.2 ​

习题25.3 ​

习题25.4 ​

习题25.5 ​

习题25.6 ​

第25章循环神经网络

习题25.1

习题25.2

习题25.3

习题25.4

习题25.5

习题25.6