第7章：收敛率

编辑：赵志民

本章前言

本章的内容围绕学习理论中的算法收敛率（Convergence Rate）展开。具体来说，我们将探讨在确定性优化和随机优化中的收敛率问题，并在最后分析支持向量机的实例。

7.1 【概念解释】算法收敛率

在算法分析中，收敛率是指迭代算法逼近解或收敛到最优或期望结果的速度，它衡量算法在减少当前解与最优解之间差异的快慢。

设 ${x_{k}}$ 是算法生成的迭代序列，我们可以根据以下公式来衡量算法的收敛率：

lim_{t \to + \infty} \frac{∥ x_{t + 1} - x^{*} ∥}{∥ x_{t} - x^{*} ∥^{p}} = C

其中， $C$ 为收敛因子， $p$ 为收敛阶数， $x^{*}$ 表示最优解， $∥ . ∥$ 表示适当的范数。

根据收敛率的不同情况，我们可以将其分类如下：

超线性收敛： $p \geq 1$ ， $C = 0$ ，表明每次迭代都会使得误差减小，且减小的速度越来越快。特别地，当 $p > 1$ 时，称为 $p$ 阶收敛。例如， $p = 2$ 时称为平方收敛， $p = 3$ 时称为立方收敛。
线性收敛： $p = 1$ ， $C > 0$ ，表明每次迭代都会使得误差减小（误差呈几何级数下降），但减小的速度是一定的。
次线性收敛： $p = 1$ ， $C = 1$ ，表明每次迭代都会使得误差减小，但减小的速度越来越慢。

7.2 【证明补充】凸函数的确定性优化

书中给出的梯度下降算法中，输出的是 $T$ 轮迭代的均值 $ω$ ，而不是最后一次迭代的结果 $ω_{T}$ 。这是因为在凸函数的梯度下降过程中，所设定的步长 $η$ 是启发式的，因此每次迭代产生的 $ω^{'}$ 无法保证是局部最优解。

根据定理7.1， $T$ 轮迭代的 $ω$ 均值具有次线性收敛率，而无法证明最后一次迭代值 $ω_{T}$ 也具有相同的收敛率。因此，返回 $ω$ 的均值虽然会增加计算代价，但可以确保稳定的收敛率。这一思想在7.3.1和7.3.2中梯度下降算法中也有体现。

作为对比，在7.2.2中的强凸函数梯度下降算法中，我们只输出了最后一次迭代值 $ω_{T}$ 。这是因为在强凸函数的条件下，每次迭代的梯度更新都有闭式解 $ω_{t + 1} = ω_{t} - \frac{1}{γ} \nabla f (ω_{t})$ 。这种情况下，每次迭代无需启发式算法便可得到该临域的全局最优解，这也是此算法拥有更快收敛率（线性收敛率）的原因。因此，无需返回历史 $ω$ 的均值。

另外，在 139页 定理7.1的（7.12）推导中，利用了第一章补充内容 AM-GM 不等式 $n = 2$ 的结论，即对于任意非负实数 $x, y$ ，有：

\sqrt{x y} \leq \frac{x + y}{2}

当且仅当 $x = y$ 时取等号。

因此，只有当 $\frac{Γ^{2}}{2 η T} = \frac{η l^{2}}{2}$ 时，公式（7.12）中 $\frac{Γ^{2}}{2 η T} + \frac{η l^{2}}{2}$ 才能取得最小值 $\frac{l Γ}{\sqrt{T}}$ ，此时步长 $η$ 应设置为 $\frac{Γ}{l \sqrt{T}}$ 。类似的推导可以在（7.35）和（7.39）中找到。

7.3 【证明补充】强凸函数的确定性优化

142页 中，在证明定理7.3时，对于（7.19）的推导补充如下。

首先，如果目标函数满足 $λ$ -强凸且 $γ$ -光滑，那么根据第一章补充内容中的结论，我们有 $γ \geq λ$ 。这是因为对于任意 $ω, ω^{'}$ ，光滑系数 $γ$ 被定义为：

f (ω) \leq f (ω^{'}) + \nabla f (ω^{'})^{T} (ω - ω^{'}) + \frac{γ}{2} ∥ ω - ω^{'} ∥^{2}

而强凸系数 $λ$ 被定义为：

f (ω) \geq f (ω^{'}) + \nabla f (ω^{'})^{T} (ω - ω^{'}) + \frac{λ}{2} ∥ ω - ω^{'} ∥^{2}

光滑系数 $γ$ 决定了 $f (ω)$ 的上界，而强凸系数 $λ$ 决定了 $f (ω)$ 的下界，因此光滑系数 $γ$ 不小于强凸系数 $λ$ 。

接着，令 $f (α) = \frac{γ - λ}{λ} α^{2} - α$ ，由于 $\frac{γ - λ}{λ} \geq 0$ ，我们可以分成以下两种情况讨论：

当 $\frac{γ - λ}{λ} = 0$ 时，（7.19）转化为：

\begin{aligned} f (ω_{t + 1}) & \leq min_{α \in [0, 1]} {f (ω_{t}) - α (f (ω_{t}) - f (ω^{*}))} \\ \Rightarrow f (ω_{t + 1}) - f (ω^{*}) & \leq min_{α \in [0, 1]} {1 - α} (f (ω_{t}) - f (ω^{*})) \end{aligned}

因为 $f (ω_{t}) - f (ω^{*}) \geq 0$ ，所以当且仅当 $α = 1$ 时，不等式右侧取得最小值 $0$ ，此时易知 $f (ω_{t + 1}) = f (ω^{*})$ 。根据凸函数局部最优解等于全局最优解的结论，我们可以得到 $ω_{t + 1} = ω^{*}$ ，即算法在第 $t + 1$ 轮迭代中收敛到最优解。

当 $\frac{γ - λ}{λ} > 0$ 时， $f (α)$ 为开口向上的二次函数。令 $f^{'} (α) = 2 \frac{γ - λ}{λ} α - 1 = 0$ ，得到 $f (α)$ 的对称轴为 $α = \frac{λ}{2 (γ - λ)}$ 。我们可以分成以下两种情况讨论：
- 当 $\frac{λ}{2 (γ - λ)} \geq 1$ 时， $f (α)$ 取得最小值只能在 $α = 1$ 处，故而得到（7.20）。
- 当 $0 < \frac{λ}{2 (γ - λ)} < 1$ 时， $f (α)$ 取得最小值在 $α = \frac{λ}{2 (γ - λ)}$ 处，故而得到（7.21）。

余下的推导部分与书中相同，此处不再赘述。

7.4 【定理证明】鞅差序列的 Bernstein 不等式

149页 定理7.6 给出了鞅差序列的 Bernstein 不等式，我们在这里给出完整的证明过程。

假设 $X_{1}, \dots, X_{n}$ 是定义在 $f = (f_{i})_{1 \leq i \leq n}$ 上的有界鞅差序列且 $| X_{i} | \leq K$ ，令：

S_{i} = \sum_{j = 1}^{i} X_{j}

将 $X_{n}$ 的条件方差定义为：

V_{n}^{2} = \sum_{k = 1}^{n} E [X_{k}^{2} | F_{k - 1}]

那么对于任意正数 $t$ 和 $v$ ，有：

P (max_{i = 1, \dots, k} S_{i} > t, V_{k}^{2} \leq v) \leq \exp (- \frac{t^{2}}{2 (v + K t / 3)})

证明

考虑函数 $f (x) = (e^{θ x} - θ x - 1) / x^{2}$ ，且 $f (0) = θ^{2} / 2$ 。通过对该函数求导，我们知道该函数是非减的。即 $f (x) \leq f (1)$ ，当 $x \leq 1$ 时：

e^{θ x} = 1 + θ x + x^{2} f (x) \leq 1 + θ x + x^{2} f (1) = 1 + θ x + g (θ) x^{2}, x \leq 1

将其用于随机变量 $X_{k} / K$ 的期望，可得：

E [\exp (\frac{θ X_{k}}{K}) | F_{k - 1}] \leq 1 + \frac{θ}{K} E [X_{k} | F_{k - 1}] + \frac{g (θ)}{K^{2}} E [X_{k}^{2} | F_{k - 1}]

由于 ${X_{k}}$ 是一个鞅差序列，我们有 $E [X_{k} | F_{k - 1}] = 0$ ，结合 $1 + x \leq e^{x}, x \geq 0$ ，我们得到：

E [\exp (\frac{θ X_{k}}{K}) | F_{k - 1}] = 1 + \frac{g (θ)}{K^{2}} E [X_{k}^{2} | F_{k - 1}] \leq \exp (g (θ) \frac{E [X_{k}^{2} | F_{k - 1}]}{K^{2}})

考虑一个随机过程：

Q_{k} = \exp (θ \frac{S_{k}}{K} - g (θ) \frac{V_{k}^{2}}{K^{2}}), Q_{0} = 1

我们证明这个过程对于滤波 $F_{n}$ 是一个超鞅，即 $E [Q_{k} | F_{k - 1}] \leq Q_{k - 1}$ 。

证明如下：

\begin{aligned} E [Q_{k} | F_{k - 1}] & = E [\exp (θ \frac{S_{k}}{K} - g (θ) \frac{V_{k}^{2}}{K^{2}}) | F_{k - 1}] \\ = E [\exp (θ \frac{S_{k - 1}}{K} - g (θ) \frac{V_{k - 1}^{2}}{K^{2}} - g (θ) \frac{E [X_{k}^{2} | F_{k - 1}]}{K^{2}} + θ \frac{X_{k}}{K}) | F_{k - 1}] \\ = \exp (θ \frac{S_{k - 1}}{K} - g (θ) \frac{V_{k - 1}^{2}}{K^{2}} - g (θ) \frac{E [X_{k}^{2} | F_{k - 1}]}{K^{2}}) E [\exp (θ \frac{X_{k}}{K}) | F_{k - 1}] \end{aligned}

应用之前证明的不等式，我们得到：

E [Q_{k} | F_{k - 1}] \leq \exp (θ \frac{S_{k - 1}}{K} - g (θ) \frac{V_{k - 1}^{2}}{K^{2}}) = Q_{k - 1}

我们定义 $A = {k \geq 0 : max_{i = 1, \dots, k} S_{i} > t, V_{k}^{2} \leq v}$ ，则有：

Q_{k} \geq \exp (θ \frac{t}{K} - g (θ) \frac{v}{K^{2}}), k \in A

由于 ${Q_{k}}$ 是超鞅，我们有：

E [Q_{k} | F_{k - 1}] \leq E [Q_{k - 1} | F_{k - 2}] \leq \dots \leq Q_{0} = 1

考虑到 $1 \geq P (A)$ ，我们有：

1 \geq E [Q_{k} | F_{k - 1}] \geq \exp (θ \frac{t}{K} - g (θ) \frac{v}{K^{2}}) P (A), k \in A

因此：

\begin{array}{r} P (A) \leq \exp (g (θ) \frac{v}{K^{2}} - θ \frac{t}{K}) \end{array}

由于上述不等式对任何 $θ > 0$ 都成立，我们可以写为：

P (A) \leq inf_{θ > 0} \exp (g (θ) \frac{v}{K^{2}} - θ \frac{t}{K})

检查不等式右边的一阶导数，我们知道该下确界在 $θ = \log (1 + K t / v)$ 处取得。

对于指数内部的表达式，我们进行如下变换：

\begin{aligned} θ \frac{t}{K} - g (θ) \frac{v}{K^{2}} & = \log (1 + \frac{K t}{v}) \frac{t}{K} - \frac{v}{K^{2}} (\frac{K t}{v} - \log (1 + \frac{K t}{v})) \\ = \frac{v}{K^{2}} ((1 + \frac{K t}{v}) \log (1 + \frac{K t}{v}) - \frac{K t}{v}) \\ = \frac{v}{K^{2}} h (\frac{K t}{v}) \end{aligned}

其中 $h (u) = (1 + u) \log (1 + u) - u$ 。

通过对表达式求二阶导数的方法，我们也可以证明：

h (u) \geq \frac{u^{2}}{2 (1 + u / 3)}, u \geq 0

综上所述，我们有：

P (A) \leq \exp (- \frac{v}{K^{2}} h (\frac{K t}{v})) \leq \exp (- \frac{v}{K^{2}} \frac{K^{2} t^{2}}{2 v (v + K t / 3)}) = \exp (- \frac{t^{2}}{2 (v + K t / 3)})

7.5 【证明补充】Epoch-GD 的收敛率

150页 引理7.2给出了Epoch-GD外层循环收敛率的泛化上界，我们对其中部分推导进行必要补充。

首先，（7.60）中第二个不等式的推导利用了Cauchy-Schwarz不等式（1.14），即 $∥ x^{T} y ∥ \leq ∥ x ∥ ∥ y ∥$ 。这里，我们令 $x = \underset{T}{\underset{⏟}{[1, \dots, 1]}}$ ， $y = \underset{T}{\underset{⏟}{[∥ ω_{1} - w^{*} ∥, \dots, ∥ ω_{T} - w^{*} ∥]}}$ ，则有：

| x^{T} y | = \sum_{t = 1}^{T} ∥ ω_{t} - w^{*} ∥ \leq \sqrt{T} \sqrt{\sum_{t = 1}^{T} ∥ ω_{t} - w^{*} ∥^{2}} = | x ∥ y |

其次，（7.62）中最后两个不等式的推导利用了一些常见的缩放技巧，我们在这里给出完整形式：

\begin{aligned} \sum_{i = 1}^{m} P (\sum_{t = 1}^{T} δ_{t} \geq 2 \sqrt{4 l^{2} A_{T} τ} + \frac{2}{3} \frac{4 l^{2}}{λ} τ + \frac{4 l^{2}}{λ}, V_{T}^{2} \leq 4 l^{2} A_{T}, A_{T} \in (\frac{4 l^{2}}{λ^{2} T} 2^{i - 1}, \frac{4 l^{2}}{λ^{2} T} 2^{i})) \\ \leq & \sum_{i = 1}^{m} P (\sum_{t = 1}^{T} δ_{t} \geq 2 \sqrt{4 l^{2} A_{T} τ} + \frac{2}{3} \frac{4 l^{2}}{λ} τ, V_{T}^{2} \leq 4 l^{2} A_{T}, A_{T} \in (\frac{4 l^{2}}{λ^{2} T} 2^{i - 1}, \frac{4 l^{2}}{λ^{2} T} 2^{i})) \\ \leq & \sum_{i = 1}^{m} P (\sum_{t = 1}^{T} δ_{t} \geq \sqrt{2 \frac{16 l^{4} 2^{i}}{λ^{2} T} τ} + \frac{2}{3} \frac{4 l^{2}}{λ} τ, V_{T}^{2} \leq \frac{16 l^{4} 2^{i}}{λ^{2} T}) \\ \leq & \sum_{i = 1}^{m} P (max_{j = 1, \dots, T} \underset{S_{j}}{\underset{⏟}{\sum_{t = 1}^{j} δ_{t}}} \geq \sqrt{2 \underset{ν}{\underset{⏟}{\frac{16 l^{4} 2^{i}}{λ^{2} T}}} τ} + \frac{2}{3} \underset{K}{\underset{⏟}{\frac{4 l^{2}}{λ}}} τ, V_{T}^{2} \leq \underset{ν}{\underset{⏟}{\frac{16 l^{4} 2^{i}}{λ^{2} T}}}) \\ \leq & \sum_{i = 1}^{m} e^{- τ} \\ = & m e^{- τ} \end{aligned}

这里，第一个不等式利用了 $\frac{4 l^{2}}{λ} > 0$ 的事实对 $\sum_{t = 1}^{T} δ_{t}$ 的范围进行概率缩放；第二个不等式利用了 $A_{T}$ 的下界和上界分别对 $\sum_{t = 1}^{T} δ_{t}$ 和 $V_{T}^{2}$ 的范围进行概率缩放；第三个不等式利用了 $max_{j = 1, \dots, T} \sum_{t = 1}^{j} δ_{t}$ 比 $\sum_{t = 1}^{T} δ_{t}$ 更为宽松的事实对 $V_{T}^{2}$ 进行概率缩放；第四个不等式利用了定理7.6的结论。

最后，（7.64）中第二个不等式的推导利用了开口向下的二次函数 $f (x) = a x^{2} + b x + c, a < 0$ 拥有最大值点 $x_{0} = - \frac{b}{2 a}$ 的事实。我们令 $x = \sqrt{A_{T}}$ ，然后取 $a = - \frac{λ}{2}, b = 2 \sqrt{4 l^{2} \ln \frac{m}{δ}}, c = 0$ ，则易知 $f (x)$ 的最大值为 $\frac{8 l^{2}}{λ} \ln \frac{m}{δ}$ ，于是得到了（7.64）中的结论。

进一步地，152页引理7.3利用数学归纳法给出了特定步长和迭代次数下Epoch-GD外层循环收敛率的泛化上界，这为154页定理7.7中Epoch-GD的收敛率奠定了基础。我们对后者的部分推导进行必要补充。

首先，观察（7.75）可以发现，Epoch-GD外层的迭代次数 $k$ 需要满足 $\frac{α}{2} (2^{k} - 1) \leq T$ ，即 $k = ⌊ \log_{2} (\frac{2 T}{α} + 1) ⌋$ ，因此构造了（7.66）中的 $k^{†}$ 。

其次，（7.77）的推导利用了函数 $f (x) = (1 - \frac{1}{x})^{x}$ 在 $x = \frac{k^{†}}{δ} > 1$ 时单调递增的事实，以下是更严格的证明。

对函数 $f (x)$ 两边取对数，得到：

\ln f (x) = x \ln (1 - \frac{1}{x})

接着对两边分别求导，可得：

\frac{f^{'} (x)}{f (x)} = \ln (1 - \frac{1}{x}) + \frac{1}{x - 1}

易知当 $x > 1$ 时， $f (x) > 0$ ，因此我们只需要关注等式右边在 $x > 1$ 时的符号。令 $g (x) = \ln (1 - \frac{1}{x}) + \frac{1}{x - 1}$ ，则有：

g^{'} (x) = \frac{1}{x (x - 1)^{2}}

易知当 $x > 1$ 时， $g^{'} (x) < 0$ ，因此：

g (x) > lim_{x \to + \infty} g (x) = lim_{x \to + \infty} \ln (1 - \frac{1}{x}) + lim_{x \to + \infty} \frac{1}{x - 1} = 0

综上，当 $x > 1$ 时， $\frac{f^{'} (x)}{f (x)} = g (x) > 0$ ，即 $f^{'} (x) > 0$ ，因此 $f (x)$ 在 $x > 1$ 时单调递增。

第7章：收敛率 ​

本章前言 ​

7.1 【概念解释】算法收敛率 ​

7.2 【证明补充】凸函数的确定性优化 ​

7.3 【证明补充】强凸函数的确定性优化 ​

7.4 【定理证明】鞅差序列的 Bernstein 不等式 ​

证明 ​

7.5 【证明补充】Epoch-GD 的收敛率 ​