第23章前馈神经网络

习题23.1

构造前馈神经网络实现逻辑表达式XNOR，使用S型函数为激活函数。

解答：

解答思路：

给出同或函数(XNOR)的输入和输出
用神经网络实现的门表示XNOR
设计神经网络实现XNOR
自编程实现二层前馈神经网络表示XNOR

解答步骤：

第1步: 给出同或函数(XNOR)的输入和输出

对于同或函数(XNOR)，全部的输入与对应的输出如下：

$x_{1}$	$x_{2}$	$y = x_{1} ⊙ x_{2}$
0	0	1
0	1	0
1	0	0
1	1	1

第2步: 用神经网络实现的门表示XNOR

XNOR（同或门）和XOR（异或门）由于都是线性不可分的，不能由一层神经网络实现，但它们可由一层神经网络实现的门组合实现。

一层神经网络可实现的门包括AND（与门，用 $x_{1} \land x_{2}$ 表示）、NOR（或非门，用 $\overset{―}{x_{1} \lor x_{2}}$ 表示）、OR（或门，用 $x_{1} \lor x_{2}$ 表示）等。

同或函数可表示：

x_{1} ⊙ x_{2} = (x_{1} \land x_{2}) \lor \overset{―}{x_{1} \lor x_{2}}

第3步: 设计神经网络实现XNOR

根据书中第23.1.1节的S型函数的定义：

S型函数（sigmoid function）又称为逻辑斯谛函数（logistic function），是定义式如下的非线性函数：

\begin{matrix} (23.14) & a (z) = σ (z) = \frac{1}{1 + e^{- z}} \end{matrix}

其中， $z$ 是自变量或输入， $σ (z)$ 是因变量或输出。函数的定义域为 $(- \infty, \infty)$ ，值域为 $(0, 1)$ 。

可知：

sigmoid (10) \approx 1 sigmoid (- 10) \approx 0

可设计如下二层前馈神经网络表示XNOR：

h_{1} = x_{1} \land x_{2} h_{2} = \overset{―}{x_{1} \lor x_{2}} y = h_{1} \lor h_{2}

根据书中第23.1.1节的二层前馈神经网络的矩阵表示：

二层前馈神经网络也可以用矩阵来表示，简称矩阵表示：

h^{(1)} = f^{(1)} (x) = a (z^{(1)}) = a ({W^{(1)}}^{T} x + b^{(1)}) y = f^{(2)} (h^{(1)}) = g (z^{(2)}) = g ({W^{(2)}}^{T} h + b^{(2)})

其中，

x = [\begin{matrix} x_{1} \\ x_{2} \end{matrix}] h = [\begin{matrix} h_{1} \\ h_{2} \end{matrix}] W^{(1)} = [\begin{array}{cc} 20 & - 20 \\ 20 & - 20 \end{array}] W^{(2)} = [\begin{matrix} 20 \\ 20 \end{matrix}] b^{(1)} = [\begin{matrix} - 30 \\ 10 \end{matrix}] b^{(2)} = [- 10]

第4步: 自编程实现二层前馈神经网络表示XNOR

python

import numpy as np

# 定义网络的权重W和偏置b
W1 = np.array([[20, -20], [20, -20]])
b1 = np.array([[-30], [10]])
W2 = np.array([[20], [20]])
b2 = np.array([[-10]])

def sigmoid(x):
    s = 1 / (1 + np.exp(-x))
    return s

def dnn_xnor(X):
    Z1 = W1.T.dot(X) + b1
    H = sigmoid(Z1)

    Z2 = W2.T.dot(H) + b2
    Y = sigmoid(Z2)
    
    return Y

python

X = np.array([[0, 0, 1, 1],
              [0, 1, 0, 1]])

with np.printoptions(suppress=True):
    result = dnn_xnor(X)
    print(result)

[[0.99995456 0.00004548 0.00004548 0.99995456]]

习题23.2

写出多标签分类学习中的损失函数以及损失函数对输出变量的导数。

解答：

解答思路：

给出前馈神经网络学习在多标签分类时的模型
写出多标签分类学习中的损失函数
求损失函数对输出变量的导数

解答步骤：

第1步: 前馈神经网络学习在多标签分类时的模型

根据书中第23.1.1节的前馈神经网络学习在多标签分类时的模型：

用于多标签分类（multi-label classification）。神经网络的输出层有 $l$ 个神经元，每个神经元的输出是一个概率值。神经网络表示为 $p = [P (y_{k} = 1 | x)] = f (x)$ ，其中 $y_{k} \in {0, 1}, k = 1, 2, \dots, l$ ，满足条件
$0 < P (y_{k} = 1 | x) < 1, P (y_{k} = 1 | x) + P (y_{k} = 0 | x) = 1, k = 1, 2, \dots, l$
$[P (y_{1} = 1 | x), P (y_{2} = 1 | x), \dots, P (y_{l} = 1 | x)]$ 表示输入 $x$ 分别属于1个类别的概率。预测时给定输入 $x$ ，计算其属于各个类别的概率。将输入分到概率大于0.5的所有类别，这时输入可以被分到多个类别（赋予多个标签）。

第2步: 写出多标签分类学习中的损失函数

多标签分类时，输出层有 $l$ 个神经元，每个神经元输出是一个概率值，表示属于各标签的概率。多标签分类学习中的损失函数通常为二元交叉熵（Binary Cross-Entropy, BCE）损失函数：

BCELoss = - \frac{1}{N} \sum_{i = 1}^{N} \sum_{k = 1}^{l} [y_{i k} \log (p_{i k}) + (1 - y_{i k}) \log (1 - p_{i k})]

其中， $N$ 是样本的数量， $l$ 是标签的数量， $y_{i k}$ 是第 $i$ 个样本的第 $k$ 个标签的真实值， $p_{i k}$ 是第 $i$ 样本属于第 $k$ 个标签的预测概率。

第3步: 求损失函数对输出变量的导数

输出层的输出变量是经过S型激活函数变换后的值，即 $p_{i k}$ ，则BCELoss对 $p_{i k}$ 求导：

\begin{aligned} \frac{\partial BCELoss}{\partial p_{i k}} & = - \frac{1}{N} (\frac{y_{i k}}{p_{i k}} - \frac{1 - y_{i k}}{1 - p_{i k}}) \\ = - \frac{1}{N} (\frac{y_{i k} - y_{i k} p_{i k} - p_{i k} + y_{i k} p_{i k}}{p_{i k} (1 - p_{i k})}) \\ = \frac{p_{i k} - y_{i k}}{N p_{i k} (1 - p_{i k})} \end{aligned}

即：

\frac{\partial BCELoss}{\partial p_{i k}} = \frac{p_{i k} - y_{i k}}{N p_{i k} (1 - p_{i k})}

习题23.3

实现前馈神经网络的反向传播算法，使用MNIST数据构建手写数字识别网络。

解答：

解答思路：

给出MNIST手写数字识别网络
给出前馈神经网络的反向传播算法
自编程实现使用MNIST数据集构建手写数字识别网络

解答步骤：

第1步: MNIST手写数据识别网络

根据书中第23章例23.4给出MNIST手写数字识别网络：

MNIST是一个机器学习标准数据集。每一个样本由一个像素为28 $\times$ 28 的手写数字灰度图像以及的0~9之间的标签组成，像素取值为0~255。
可以构建图23.14所示的前馈神经网络对MNIST的手写数字进行识别，是一个多标签分类模型。输入层是一个 $28 \times 28 = 784$ 维向量，取自一个图像，每一维对应一个像素。第一层和第二层是隐层，各自有100个神经元和50个神经元，其激活函数都是S型函数。第三层是输出层，有10个神经元，其激活函数也是S型函数。给定一个图像，神经网络可以计算出其属于0~9类的概率，将图像赋予概率最大的标签。

第2步：前馈神经网络的反向传播算法

根据书中第23.2.3节的算法23.3的前馈神经网络的反向传播算法：

算法23.3 （前馈神经网络的反向传播算法）
输入：神经网络 $f (x; θ)$ ，参数向量 $θ$ ，一个样本 $(x, y)$
输出：更新的参数向量 $θ$
超参数：学习率 $η$
正向传播，得到各层输出 $h^{(1)}, h^{(2)}, \dots, h^{(s)}$
$h^{(0)} = x$
For $t = 1, 2, \dots, s$ ，do {
$z^{(t)} = W^{(t)} h^{(t - 1)} + b^{(t)} h^{(t)} = a (z^{(t)})$
} 2. 反向传播，得到各层误差 $δ^{(s)}, \dots, δ^{(2)}, δ^{(1)}$ ，同时计算各层的梯度，更新各层的参数。
计算输出层的误差
$δ^{(s)} = h^{(s)} - y$
For $t = s, \dots, 2, 1$ ，do {
计算第 $t$ 层的梯度
$\nabla_{W^{(t)}} L = δ^{(t)} \cdot {h^{(t - 1)}}^{T} \nabla_{b^{(t)}} L = δ^{(t)}$
根据梯度下降公式更新第 $t$ 层的参数
$W^{(t)} \leftarrow W^{(t)} - η \nabla_{W^{(t)}} L b^{(t)} \leftarrow b^{(t)} - η \nabla_{b^{(t)}} L$
If ( $t > 1$ ) {
将第 $t$ 层的误差传到第 $t - 1$ 层
$δ^{(t - 1)} = \frac{\partial a}{\partial z^{(t - 1)}} ⊙ ({W^{(t)}}^{T} \cdot δ^{(t)})$
}
} 3. 返回更新的参数向量

第3步：自编程实现使用MNIST数据集构建手写数字识别网络

python

import numpy as np
from sklearn.datasets import fetch_openml
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelBinarizer

from tqdm import tqdm

np.random.seed(2023)

python

class NeuralNetwork:
    def __init__(self, layers, alpha=0.1):
        # 网络层的神经元个数，其中第一层和第二层是隐层
        self.layers = layers
        # 学习率
        self.alpha = alpha
        # 权重
        self.weights = []
        # 偏置
        self.biases = []
        # 初始化权重和偏置
        for i in range(1, len(layers)):
            self.weights.append(np.random.randn(layers[i-1], layers[i]))
            self.biases.append(np.random.randn(layers[i]))

    def sigmoid(self, x):
        return 1 / (1 + np.exp(-x))

    def sigmoid_derivative(self, x):
        return x * (1 - x)
    
    def feedforward(self, inputs):
        '''
        （1）正向传播
        '''
        self.activations = [inputs]
        self.weighted_inputs = []
        for i in range(len(self.weights)):
            weighted_input = np.dot(self.activations[-1], self.weights[i]) + self.biases[i]
            self.weighted_inputs.append(weighted_input)
            # 得到各层的输出h
            activation = self.sigmoid(weighted_input)
            self.activations.append(activation)
   
        return self.activations[-1]

    def backpropagate(self, expected):
        '''
        （2）反向传播
        '''
        # 计算各层的误差
        errors = [expected - self.activations[-1]]
        # 计算各层的梯度
        deltas = [errors[-1] * self.sigmoid_derivative(self.activations[-1])]
        
        for i in range(len(self.weights)-1, 0, -1):
            error = deltas[-1].dot(self.weights[i].T)
            errors.append(error)
            delta = errors[-1] * self.sigmoid_derivative(self.activations[i])
            deltas.append(delta)
        deltas.reverse()
        
        for i in range(len(self.weights)):
            # 更新参数
            self.weights[i] += self.alpha * np.array([self.activations[i]]).T.dot(np.array([deltas[i]]))
            self.biases[i] += self.alpha * np.sum(deltas[i], axis=0)

    def train(self, inputs, expected_outputs, epochs):
        for i in tqdm(range(epochs)):
            for j in range(len(inputs)):
                self.feedforward(inputs[j])
                self.backpropagate(expected_outputs[j])

python

# 加载MNIST手写数字数据集
mnist = fetch_openml('mnist_784', parser='auto')
X = mnist.data.astype('float32') / 255.0
y = mnist.target.astype('int')

python

# 划分训练集和测试集
lb = LabelBinarizer()
y = lb.fit_transform(y)
X = np.array(X)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

python

# 训练神经网络，其中第一层和第二层各有100个神经元和50个神经元
nn = NeuralNetwork([784, 100, 50, 10], alpha=0.1)
nn.train(X_train, y_train, epochs=10)

100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [02:21<00:00, 14.20s/it]

python

# 使用测试集对模型进行评估
correct = 0

for i in range(len(X_test)):
    output = nn.feedforward(X_test[i])
    prediction = np.argmax(output)
    actual = np.argmax(y_test[i])
    if prediction == actual:
        correct += 1

accuracy = correct / len(X_test) * 100
print("Accuracy: {:.2f} %".format(accuracy))

Accuracy: 93.94 %

习题23.4

写出S型函数的正向传播和反向传播的计算图。

解答：

解答思路：

写出S型函数的正向传播计算图
写出S型函数的反向传播计算图

解答步骤：

第1步: 写出S型函数的正向传播计算图

根据书中第23.2.4节给出了S型函数的计算图例：

起点 $z$ , $y$ 是输入变量，终点 $L$ 是输出变量，中间结点 $f$ 是中间变量。变量 $f$ 由S型函数 $f = σ (z)$ 决定，变量 $L$ 由损失函数 $L = l (f, y)$ 决定。

根据书中第23.2.4节给出的计算图的正向传播：

在计算图上进行的正向传播就是计算复合函数 $L = l (σ (z), y)$ 的过程。从起点 $z, y$ 开始，顺着有向边，在结点 $f, L$ 依次进行计算，先后得到函数 $f, L$ ；其中先对 $z$ 计算 $f (z)$ 得到 $f$ ，然后对 $f$ 和 $y$ 计算 $l (f, y)$ 得到 $L$ 。

第2步: 写出S型函数的反向传播计算图

根据书中第23.2.4节给出的计算图的方向传播：

反向传播就是计算复合函数 $L = l (σ (z), y)$ 对变量的梯度的过程。从终止起点 $L$ 出发，逆着有向边，在结点 $y, f, z$ 依次进行，向后得到梯度 $\frac{d L}{d y}, \frac{d L}{d f}, \frac{d L}{d z}$ ；其中先根据定义计算 $\frac{d L}{d y}, \frac{d L}{d f}$ ，再利用链式规则计算 $\frac{d L}{d z}$ ：
$\frac{d L}{d z} = \frac{d L}{d f} \cdot \frac{d L}{d f} \cdot f (1 - f)$
梯度 $\frac{d L}{d f}$ 在结点 $f$ 的反向传播变为梯度的 $f (1 - f)$ 倍，传到输入结点 $z$ 。

习题23.5

图23.31是3类分类的正向传播计算图，试写出它的反向传播计算图。这里使用软最大化函数和交叉熵损失。

解答：

解答思路：

根据正向传播计算图，根据链式法则，逐步求导给出各层的梯度
绘制反向传播的计算图

解答步骤：

第1步：根据正向传播计算图，根据链式法则，逐步求导给出各层的梯度

见下图中各层的梯度计算结果。

第2步：绘制反向传播的计算图

习题23.6

写出批量归一化的反向传播算法。

解答：

解答思路：

给出批量归一化算法
求批量归一化层的梯度
写出全连接层的梯度
写出批量归一化的反向传播算法

解答步骤：

第1步：批量归一化算法

根据书中第23.2.5节的算法23.4的批量归一化算法：

算法23.4（批量归一化）
输入：神经网络结构 $f (x; θ)$ ，训练集，测试样本。
输出：对测试样本的预测值。
超参数：批量容量的大小 $n$ 。
{
初始化参数 $θ, ϕ$ ，其中 $ϕ = {γ^{(t)}, β^{(t)}}_{t = 1}^{s - 1}$
For each (批量 $b$ ) {
For $t = 1, 2, \cdots, s - 1 $ {
针对批量 $b$ 计算第 $t$ 层净输入的均值 $u^{(t)}$ 和方差 ${σ^{2}}^{(t)}$
进行第 $t$ 层的批量归一化，得到批量净输入
$z_{j}^{(t)} \to {\bar{z}}_{j}^{(t)} \to {\tilde{z}}_{j}^{(t)}, j = 1, 2, \dots, n$
}
}
构建训练神经网络 $f_{Tr} (x; θ, ϕ)$
使用随机梯度下降法训练 $f_{Tr} (x; θ, ϕ)$ ，估计所有参数 $θ, ϕ$
For $t = 1, 2, \dots, s - 1$ {
针对所有批量计算 $t$ 层净输入的期待的均值 $E_{b} (u^{(t)})$ 和方差 $E_{b} ({σ^{2}}^{(t)})$
针对测试样本，进行第 $t$ 层的批量归一化，得到净输入
$z_{j}^{(t)} \to {\bar{z}}_{j}^{(t)} \to {\tilde{z}}_{j}^{(t)}, j = 1, 2, \dots, n$
}
构建推理神经网络 $f_{Inf} (x; θ, ϕ)$
输出 $f_{Inf} (x; θ, ϕ)$ 对测试样本的预测值
}

第2步：求批量归一化层的梯度

根据书中第404页图23.25（批量归一化层的正向计算图），求每一步的反向梯度。

假设损失函数为 $L$ ，已知 $L$ 对 ${\tilde{z}}_{j}$ 的偏导 $\frac{\partial L}{\partial {\tilde{z}}_{j}}$ ，求 $\frac{\partial L}{\partial γ}, \frac{\partial L}{\partial β}, \frac{\partial L}{\partial {\bar{z}}_{j}}$ ，可得：

\begin{aligned} \frac{\partial L}{\partial γ} & = \sum_{j = 1}^{N} \frac{\partial L}{\partial {\tilde{z}}_{j}} {\bar{z}}_{j} \\ \frac{\partial L}{\partial β} & = \sum_{i = 1}^{N} \frac{\partial L}{\partial {\tilde{z}}_{j}} \\ \frac{\partial L}{\partial {\bar{z}}_{j}} & = \frac{\partial L}{\partial {\tilde{z}}_{j}} γ \end{aligned}

根据书中第403页的公式23.61：

\begin{matrix} (23.61) & {\bar{z}}_{j} = \frac{z_{j} - u}{\sqrt{σ^{2} + ϵ}}, j = 1, 2, \dots, n \end{matrix}

可将 $\frac{\partial L}{\partial z_{j}}$ 分成 ${\bar{z}}_{j}, μ, σ^{2}$ 三部分进行求解，可得：

\frac{\partial L}{\partial z_{j}} = \frac{\partial L}{\partial {\bar{z}}_{j}} \frac{1}{\sqrt{σ^{2} + ϵ}} + \frac{\partial L}{\partial μ} \cdot \frac{\partial μ}{\partial z_{j}} + \frac{\partial L}{\partial σ^{2}} \cdot \frac{\partial σ^{2}}{\partial z_{j}}

根据书中第403页的公式23.59, 23.60：

\begin{matrix} (23.59) & u = \frac{1}{n} \sum_{j = 1}^{n} z_{j} \end{matrix}

\begin{matrix} (23.60) & σ^{2} = \frac{1}{n - 1} \sum_{j = 1}^{n} (z_{j} - u)^{2} \end{matrix}

可分别求 $\frac{\partial L}{\partial μ}, \frac{\partial μ}{\partial z_{j}}, \frac{\partial L}{\partial σ^{2}}, \frac{\partial σ^{2}}{\partial z_{j}}$ ，可得：

\begin{aligned} \frac{\partial L}{\partial μ} & = \sum_{j = 1}^{n} \frac{\partial L}{\partial {\bar{z}}_{j}} \cdot \frac{- 1}{\sqrt{σ^{2} + ϵ}} + \frac{\partial L}{\partial σ^{2}} \frac{- \sum_{j = 1}^{n} 2 (z_{j} - μ)}{n} \\ \frac{\partial μ}{\partial z_{j}} & = \frac{1}{n} \\ \frac{\partial L}{\partial σ^{2}} & = \sum_{j = 1}^{n} \frac{\partial L}{\partial {\bar{z}}_{j}} \cdot (z_{j} - μ) \cdot \frac{- (σ^{2} + ϵ)^{- 3 / 2}}{2} \\ \frac{\partial σ^{2}}{\partial z_{j}} & = \frac{2 (z_{j} - μ)}{n} \\ \frac{\partial L}{\partial z_{j}} & = \frac{\partial L}{\partial {\bar{z}}_{j}} \frac{1}{\sqrt{σ^{2} + ϵ}} + \frac{\partial L}{\partial μ} \cdot \frac{1}{n} + \frac{\partial L}{\partial σ^{2}} \cdot \frac{2 (z_{j} - μ)}{n} \end{aligned}

第3步：结合批量归一化层的梯度，写出全连接层的梯度

第 $t$ 层的误差为：

δ_{j}^{(t)} = \frac{\partial L}{\partial z_{j}^{(t)}}

参数 $W$ 的梯度为：

\begin{aligned} \frac{\partial L}{\partial W^{(t)}} & = \sum_{j = 1}^{n} \frac{\partial L}{\partial z_{j}^{(t)}} \frac{\partial z_{j}^{(t)}}{\partial W^{(t)}} \\ = \sum_{j = 1}^{n} δ_{j}^{(t)} \cdot h_{j}^{(t - 1)} \end{aligned}

参数 $b$ 的梯度为：

\begin{aligned} \frac{\partial L}{\partial b^{(t)}} & = \sum_{j = 1}^{n} \frac{\partial L}{\partial z_{j}^{(t)}} \frac{\partial z_{j}^{(t)}}{\partial b^{(t)}} \\ = \sum_{j = 1}^{n} δ_{j}^{(t)} \end{aligned}

$t + 1$ 层和 $t$ 层之间的关系为：

δ_{j}^{(t)} = \frac{\partial a}{\partial {\tilde{z}}_{j}^{(t)}} \cdot \frac{\partial {\tilde{z}}_{j}^{(t)}}{\partial z_{j}^{(t)}} \cdot W^{(t + 1)} \cdot δ_{j}^{(t + 1)}

其中， $a$ 表示激活函数。

第4步：写出批量归一化的反向传播算法

输入：神经网络结构 $f (x; θ, ϕ)$ ，训练集 $(x, y)$
输出：参数向量 $θ, ϕ$
超参数：学习率 $η$ ，批量容量的大小 $n$
算法步骤：
初始化参数 $θ, ϕ$ ，其中 $ϕ = {γ^{(t)}, β^{(t)}}_{t = 1}^{s - 1}$
计算输出层误差
$δ^{(s)} = h^{(s)} - y$
For each(批量 $b$ ) {
For $t = s, \dots, 2, 1$ ， do {
计算第 $t$ 层的梯度 $\nabla_{W^{(t)}} L, \nabla_{b^{(t)}} L, \nabla_{γ^{(t)}} L, \nabla_{β^{(t)}} L$
更新第 $t$ 层的参数
$W^{(t)} \leftarrow W^{(t)} - η \nabla_{W^{(t)}} L b^{(t)} \leftarrow b^{(t)} - η \nabla_{b^{(t)}} L γ^{(t)} \leftarrow γ^{(t)} - η \nabla_{γ^{(t)}} L β^{(t)} \leftarrow β^{(t)} - η \nabla_{β^{(t)}} L$
If ( $t > 1$ ) {
将第 $t$ 层的参数误差传递到第 $t - 1$ 层
$δ_{j}^{(t - 1)} = \frac{\partial a}{\partial {\tilde{z}}_{j}^{(t - 1)}} \cdot \frac{\partial {\tilde{z}}_{j}^{(t - 1)}}{\partial z_{j}^{(t - 1)}} \cdot W^{(t)} \cdot δ_{j}^{(t)}$
}
}
}
4. 返回更新的参数向量

习题23.7

验证逆暂退法和暂退法的等价性。

解答：

解答思路：

写出暂退法（dropout）计算公式
写出逆暂退法（inverted dropout）计算公式
证明两者等价

解答步骤：

第1步: 写出暂退法（dropout）计算公式

根据书中第23.3.3节的暂退法的描述：

假设某一隐层的输出向量是 $h$ ，误差向量是 $δ$ ，该层神经元保留与退出的结果用随机向量 $d$ 表示，其中 $d \in {0, 1}^{m}$ 是维度为 $m$ 的 $0 - 1$ 向量，1表示对应的神经元保留，0表示对应的神经元退出。那么，在反向传播算法的每一步，经过保留与退出随机判断后，该层的向量表示变为
$\begin{matrix} (23.69) & \tilde{h} = d ⊙ h \end{matrix}$ $\begin{matrix} (23.70) & \tilde{δ} = d ⊙ δ \end{matrix}$
这里 $⊙$ 表示逐元素积，使用 $\tilde{h}$ 进行正向传播和使用 $\tilde{δ}$ 进行反向传播。注意暂退法中每一步的 $d$ 是随机决定的，各步之间并不相同。
预测时，对隐层的输出向量进行调整：
$\begin{matrix} (23.71) & \tilde{h} = p \cdot h \end{matrix}$
其中， $p$ 是这层的保留概率。

由上述可知，暂退法训练时的计算公式：

\tilde{h} = d ⊙ h

预测时的计算公式：

\tilde{h} = p \cdot h

第2步: 写出逆暂退法（inverted dropout）计算公式

根据书中第23.3.3节的逆暂退法的描述：

为了方便暂退法的实现，常常采用以下等价的逆暂退法。训练时，将隐层的输出变量放大 $\frac{1}{p}$ 倍：
$\begin{matrix} (23.72) & \tilde{h} = \frac{1}{p} \cdot d ⊙ h \end{matrix}$
预测时，隐层的输出权重保持不变。

由上述可知，逆暂退法训练时计算公式：

\tilde{h} = \frac{1}{p} \cdot d ⊙ h

预测时，隐层的输出权重保持不变，可得：

\tilde{h} = h

第3步: 证明两者等价

假设不考虑神经元的保留或丢弃时，隐层的输出为

y = a (W^{T} x + b)

其中 $a$ 为激活函数， $W$ 为权重参数， $b$ 为偏置参数。

假设某一隐层，使用暂退法训练得到的隐层输出向量为 $h_{drop}$ ，逆暂退法训练得到的隐层输出向量为 $h_{inv}$ 。

根据暂退法训练时的计算公式，暂退法训练时的输出期望为

E [{\tilde{h}}_{drop}] = E [d ⊙ h_{drop}]

其中 $d$ 表示该层神经元保留与退出的结果， $d$ 为1的概率为 $p$ ， $p$ 即保留概率，为0的概率为 $1 - p$ 。 $d$ 符合伯努利分布，所以：

\begin{aligned} E [{\tilde{h}}_{drop}] & = p \cdot h_{drop} + (1 - p) \cdot 0 \\ = p \cdot h_{drop} \end{aligned}

由于同一任务的神经网络训练的期望相同，即 $E [{\tilde{h}}_{drop}] = y$ ，所以：

y = p \cdot h_{drop}

即：

h_{drop} = \frac{1}{p} \cdot y

根据暂退法预测时计算公式，预测时的隐层输出 $y_{drop}$ 为：

\begin{aligned} y_{drop} & = p \cdot h_{drop} \\ = p \cdot \frac{1}{p} \cdot y \\ = y \end{aligned}

根据逆暂退法训练时的计算公式，逆暂退法训练时的输出期望为：

E [{\tilde{h}}_{inv}] = E [\frac{1}{p} \cdot d ⊙ h_{inv}]

$d$ 同样符合伯努利分布，所以：

\begin{aligned} E [{\tilde{h}}_{inv}] & = \frac{1}{p} \cdot p \cdot h_{inv} + \frac{1}{p} \cdot (1 - p) \cdot 0 \\ = \frac{1}{p} \cdot p \cdot h_{inv} \\ = h_{inv} \end{aligned}

由于同一任务的神经网络训练的期望相同，即 $E [{\tilde{h}}_{inv}] = y$ ，所以：

y = h_{inv}

根据逆暂退法预测时计算公式，预测时的隐层输出 $y_{inv}$ 为：

\begin{aligned} y_{inv} & = h_{inv} \\ = y \end{aligned}

由于暂退法和逆暂退法预测时的隐层输出相同，所以暂退法与逆暂退法是等价的。

第23章前馈神经网络 ​

习题23.1 ​

习题23.2 ​

习题23.3 ​

习题23.4 ​

习题23.5 ​

习题23.6 ​

习题23.7 ​

第23章前馈神经网络

习题23.1

习题23.2

习题23.3

习题23.4

习题23.5

习题23.6

习题23.7