第8章：遗憾界

编辑：赵志民，詹好

本章前言

本章的内容围绕学习理论中的遗憾（Regret）概念展开（有的教材里也翻译为“悔”）。通常，我们使用超额风险（Excess Risk）来评估批量学习的分类器性能，而用遗憾来评估在线学习的分类器性能。二者的不同在于，前者衡量的是整个学习过程结束后所得到的分类器性能，可以理解为学习算法最终输出的模型与假设空间内最优模型的风险之差；而后者衡量的是算法运行过程中，所产生的模型与假设空间内最优模型的损失之差的和。

8.1 【概念解释】超额风险与遗憾的区别

8.1介绍了遗憾这一评估指标的基本概念，我们在此基础上梳理一下其与超额风险这一评估指标的区别。

超额风险这一评估指标被定义为：

E R = E_{(x, y) \sim D} [l (w_{T + 1}, (x, y))] - min_{w \in W} E_{(x, y) \sim D} [l (w, (x, y))]

其中， $E R$ 指的是excess risk，等式右边的前半部分 $E_{(x, y) \sim D} [l (w_{T + 1}, (x, y))]$ 指的是模型 $w_{T + 1}$ 的风险，等式右边的后半部分 $min_{w \in W} E_{(x, y) \sim D} [l (w, (x, y))]$ 指的是假设空间内的最优模型的风险。值得注意的是，这里的评估是在整个数据集上进行的，也正是因为如此，我们必须要引入期望的操作。

而遗憾这一评估指标，被定义为：

r e g r e t = \sum_{t = 1}^{T} f_{t} (w_{t}) - min_{w \in W} \sum_{t = 1}^{T} f_{t} (w)

其中， $f_{t} (w_{t})$ 指的是：

\sum_{t = 1}^{T} l (w_{t}, (x_{t}, y_{t})) - min_{w \in W} \sum_{t = 1}^{T} l (w, (x_{t}, y_{t}))

由于 $w_{t}$ 的计算过程与样本 $(x_{t}, y_{t})$ 无关，而是与 $(x_{1}, y_{1}), . . ., (x_{t - 1}, y_{t - 1})$ 有关，因此可以直接使用 $l (w, (x_{t}, y_{t}))$ 来衡量性能。

由此，我们可以总结出二者之间的两个主要区别：首先，超额风险引入了期望，而遗憾没有；其次，超额风险是在所有数据上进行的一次性计算，而遗憾是对多次损失的一个求和。同时，由于在线学习不依赖于任何分布假设，因此适用于非独立同分布样本或固定分布的情形。

8.2 【案例分享】Maler 算法

在8.2.3节的170页末尾，作者提到了Maler算法（Multiple Sub-algorithms & Learning Rates）（详细证明参考：Adaptivity and Optimality: A Universal Algorithm for Online Convex Optimization），这是一个能够自适应选择最优专家的在线学习算法，并在不同类型的损失函数上实现最优的遗憾界限：

一般凸函数： $R (T) \leq O \sqrt{T})$
指数凹函数： $R (T) \leq O (d \log T)$
强凸函数： $R (T) \leq O (\log T)$ 这里 $T$ 表示时间总步数， $d$ 表示特征空间的维度。

下面，我们简要补充Maler算法的原理和实现。

假设和定义

假设 1（梯度有界性）：所有损失函数 $f_{t} (x)$ 的梯度被 $G$ 所有界：
$\forall t > 0, max_{x \in D} ∥ \nabla f_{t} (x) ∥ \leq G$
假设 2（行动集的直径有界性）：行动集 $D$ 的直径被 $D$ 所有界：
$max_{x_{1}, x_{2} \in D} ∥ x_{1} - x_{2} ∥ \leq D$
定义 1（凸函数）：函数 $f : D \to R$ 是凸的，如果：
$f (x_{1}) \geq f (x_{2}) + \nabla f (x_{2})^{⊤} (x_{1} - x_{2}), \forall x_{1}, x_{2} \in D$
定义 2（强凸函数）：函数 $f : D \to R$ 是 $λ$ -强凸的，如果：
$f (x_{1}) \geq f (x_{2}) + \nabla f (x_{2})^{⊤} (x_{1} - x_{2}) + \frac{λ}{2} ∥ x_{1} - x_{2} ∥^{2}, \forall x_{1}, x_{2} \in D$
定义 3（指数凹函数）：函数 $f : D \to R$ 是 $α$ -指数凹的（简称 $α$ -exp-concave），如果：
$\exp (- α f (x)) 是凹的$

元算法（Maler）

输入：学习率 $η^{c}, η_{1}, η_{2}, \dots$ ，专家的先验权重 $π_{1}^{c}, π_{1}^{η_{1}, s}, π_{1}^{η_{2}, s} \dots$ ，以及 $π_{1}^{η_{1}, l}, π_{1}^{η_{2}, l}, \dots$ 。

对于每个回合 $t = 1, \dots, T$ ：
- 从凸专家算法（专家 1）获取预测 $x_{t}^{c}$ ，从指数凹专家算法（专家 2）和强凸专家算法（专家 3）分别获取 $x_{t}^{η, l}$ 和 $x_{t}^{η, s}$ 。
- 执行：
  $x_{t} = \frac{π_{t}^{c} η^{c} x_{t}^{c} + \sum_{η} (π_{t}^{η, s} η x_{t}^{η, s} + π_{t}^{η, l} η x_{t}^{η, l})}{π_{t}^{c} η^{c} + \sum_{η} (π_{t}^{η, s} η + π_{t}^{η, l} η)}$
- 观察梯度 $g_{t}$ 并发送给所有专家算法。
- 对所有的 $η$ 更新权重：
  $π_{t + 1}^{c} = \frac{π_{t}^{c} e^{- c_{t} (x_{t}^{c})}}{Φ_{t}}, π_{t + 1}^{η, s} = \frac{π_{t}^{η, s} e^{- s_{t}^{η} (x_{t}^{η, s})}}{Φ_{t}}, π_{t + 1}^{η, l} = \frac{π_{t}^{η, l} e^{- l_{t}^{η} (x_{t}^{η, l})}}{Φ_{t}}$
  其中：
  $Φ_{t} = \sum_{η} (π_{t}^{η, s} e^{- s_{t}^{η} (x_{t}^{η, s})} + π_{t}^{η, l} e^{- l_{t}^{η} (x_{t}^{η, l})}) + π_{t}^{c} e^{- c_{t} (x_{t}^{c})}$

凸专家算法（专家 1）

$x_{1}^{c} = 0$
对于每个回合 $t = 1, \dots, T$ ：
- 将 $x_{t}^{c}$ 发送给元算法
- 从元算法接收梯度 $g_{t}$
- 更新： $x_{t + 1}^{c} = Π_{D}^{I_{d}} (x_{t}^{c} - \frac{D}{η^{c} G \sqrt{t}} \nabla c_{t} (x_{t}^{c}))$ 其中 $\nabla c_{t} (x_{t}^{c}) = η^{c} g_{t}$

指数凹专家算法（专家 2）

输入：学习率 $η$
$x_{1}^{η, l} = 0, β = \frac{1}{2} min {\frac{1}{4 G^{l} D}, 1}, G^{l} = \frac{7}{25 D}, Σ_{1} = \frac{1}{β^{2} D^{2}} I_{d}$
对于每个回合 $t = 1, \dots, T$ ：
- 将 $x_{t}^{η, l}$ 发送给元算法
- 从元算法接收梯度 $g_{t}$
- 更新： $\begin{aligned} Σ_{t + 1} & = Σ_{t} + \nabla l_{t}^{η} (x_{t}^{η, l}) \nabla l_{t}^{η} (x_{t}^{η, l})^{⊤} \\ x_{t + 1}^{η, l} & = Π_{D}^{Σ_{t + 1}} (x_{t}^{η, l} - \frac{1}{β} Σ_{t + 1}^{- 1} \nabla l_{t}^{η} (x_{t}^{η, l})) \end{aligned}$ 其中 $\nabla l_{t}^{η} (x_{t}^{η, l}) = η g_{t} + 2 η^{2} g_{t} g_{t}^{⊤} (x_{t}^{η, l} - x_{t})$

强凸专家算法（专家 3）

输入：学习率 $η$
$x_{1}^{η, s} = 0$
对于每个回合 $t = 1, \dots, T$ ：
- 将 $x_{t}^{η, s}$ 发送给元算法
- 从元算法接收梯度 $g_{t}$
- 更新： $x_{t + 1}^{η, s} = Π_{D}^{I_{d}} (x_{t}^{η, s} - \frac{1}{2 η^{2} G^{2} t} \nabla s_{t}^{η} (x_{t}^{η, s}))$ 其中 $\nabla s_{t}^{η} (x_{t}^{η, s}) = η g_{t} + 2 η^{2} G^{2} (x_{t}^{η, s} - x_{t})$

8.3 【证明补充】随机多臂赌博机的遗憾界

172页中定理8.3给出了随机多臂赌博机的遗憾界，我们在此基础上对公式（8.42）至（8.47）证明过程进行补充。

首先，（8.42）给出当 ${\overset{―}{μ}}_{*} (p) + \sqrt{\frac{2 \ln t}{p}} \leq {\overset{―}{μ}}_{i} (q) + \sqrt{\frac{2 \ln t}{q}}$ 成立时，必然有三种可能情况中的一种成立。但这三种情况并不是互斥的，因此显得不直观，这里将第二种情况做了细微调整，即：

{\overset{―}{μ}}_{*} (p) + \sqrt{\frac{2 \ln t}{p}} \leq μ_{*}, μ_{*} \leq {\overset{―}{μ}}_{i} (q) + \sqrt{\frac{2 \ln t}{q}}, {\overset{―}{μ}}_{i} (q) + \sqrt{\frac{2 \ln t}{q}} \leq {\overset{―}{μ}}_{i} (p)

此时，构造（8.44）和（8.45）的逻辑更加顺畅。我们令 $l = ⌈ (2 \ln T) / Δ_{i}^{2} ⌉$ ，则（8.45）转化为：

P (μ_{*} \leq μ_{i} + \sqrt{\frac{2 \ln t}{q}}) = 0, q \geq l

代入（8.44），可得：

\begin{aligned} E [n_{i}^{T}] & \leq ⌈ \frac{2 \ln T}{Δ_{i}^{2}} ⌉ + 2 \sum_{t = 1}^{T - 1} \sum_{p = 1}^{t - 1} \sum_{q = l}^{t - 1} t^{- 4} \\ \leq \frac{2 \ln T}{Δ_{i}^{2}} + 1 + 2 \sum_{t = 1}^{T - 1} \sum_{p = 1}^{t} \sum_{q = 1}^{t} t^{- 4} \\ \leq \frac{2 \ln T}{Δ_{i}^{2}} + 1 + 2 lim_{T \to + \infty} \sum_{t = 1}^{T - 1} t^{- 2} \end{aligned}

根据 $p$ -级数判别法，当 $p = 2 > 1$ 时，级数收敛，因此 $lim_{T \to + \infty} \sum_{t = 1}^{T - 1} t^{- 2}$ 是有界的。至于该级数的具体值，对定理的结论没有影响，因此我们可以将其视为一个常数，然后带入后续推导中。为了证明的完整性，我们对此进行简要说明。

$lim_{T \to + \infty} \sum_{t = 1}^{T - 1} t^{- 2}$ 的取值在数学界被称为Basel问题，推导过程涉及诸多前置定理，感兴趣的读者可以查看这个讲义：The Basel Problem - Numerous Proofs。此处提供另一种在微积分变换中常见的缩放方法：

\begin{aligned} \sum_{t = 1}^{T - 1} t^{- 2} & \leq 1 + \int_{1}^{T - 1} \frac{1}{x^{2}} d x \\ = 1 + (- \frac{1}{x}) |_{1}^{T - 1} \\ = 2 - \frac{1}{T} \end{aligned}

对不等式两边同时取极限，可得：

lim_{T \to + \infty} \sum_{t = 1}^{T - 1} t^{- 2} \leq 2

代入（8.46），同样可得类似（8.47）的结论。

这里继续沿用书中给出的 $lim_{T \to + \infty} \sum_{t = 1}^{T} t^{- 2} = \frac{π^{2}}{6}$ ，代入（8.46）得到遗憾界（8.47）：

E [r e g r e t] \leq \sum_{i = 1}^{K} \frac{2 \ln T}{Δ_{i}^{2}} + O (1)

此时（8.46）变为：

E [n_{i}^{T}] \leq \sum_{i \neq *}^{K} \frac{2 \ln T}{Δ_{i}} + (1 + \frac{π^{2}}{3}) Δ_{i} = O (K \log T)

观察（8.47）可知，求和公式中的每一项符合对钩函数的构造，即：

f (x) = A x + \frac{B}{x}, x > 0, A > 0, B > 0

这里 $x = Δ_{i}, A = 1 + \frac{π^{2}}{3}, B = 2 \ln T$ ，因此无论 $Δ_{i}$ 过大或过小时，都会导致遗憾界的上界变大。另外，遗憾界跟摇臂的个数 $K$ 呈线性关系，当 $K$ 越大时，遗憾界也越大。

8.4 【概念解释】线性赌博机

176页的8.3.2节介绍了线性赌博机的概念，我们在此基础上对参数估计部分进行补充。

为了估计线性赌博机的参数，我们将原问题转化为岭回归问题，即（8.52）：

f (w) = (Y - w^{T} X)^{T} (Y - w^{T} X) + λ w^{T} w

为了求得最优解 $w^{*}$ ，我们令 $f^{'} (w) = 0$ ，可推导出（8.53）：

\begin{aligned} \frac{\partial f (w)}{\partial w} = - 2 X^{T} (Y - w^{T} X) + 2 λ w & = 0 \\ \to X^{T} Y & = (X^{T} X + λ I) w \\ \to w^{*} & = (X^{T} X + λ I)^{- 1} X^{T} Y \end{aligned}

相比于每次传入新数据 $(x_{t}, y_{t})$ 时从头计算 $w_{t}$ ，这里巧妙地利用了 Sherman-Morrison-Woodbury 公式将任何形如 $(A + u v^{T})^{- 1}$ 的矩阵逆转化为可逆矩阵 $A$ 和列向量 $u, v$ 之间的运算，在 $O (d^{2})$ 的时间复杂度内完成参数的更新。

8.5 【证明补充】Sherman-Morrison-Woodbury (或 Woodbury) 公式

177页的 Sherman-Morrison-Woodbury 公式变种是矩阵求逆中的一个重要工具，它可以通过已知矩阵的逆来快速计算被低秩修正的矩阵的逆。

该公式如下所示：

(A + U C V)^{- 1} = A^{- 1} - A^{- 1} U (C^{- 1} + V A^{- 1} U)^{- 1} V A^{- 1}

其中，A 是一个 $n \times n$ 的矩阵，C 是 $k \times k$ 的矩阵，U 和 V 是 $n \times k$ 的矩阵，（8.54）中 $C$ 为单位矩阵。

证明

该公式可以通过验证 $A + U C V$ 与其假设的逆（公式右侧）的乘积是否为单位矩阵来证明。我们对以下乘积进行计算：

(A + U C V) [A^{- 1} - A^{- 1} U (C^{- 1} + V A^{- 1} U)^{- 1} V A^{- 1}]

逐步推导如下：

\begin{aligned} = & {I + U C V A^{- 1}} - {U (C^{- 1} + V A^{- 1} U)^{- 1} V A^{- 1} + U C V A^{- 1} U (C^{- 1} + V A^{- 1} U)^{- 1} V A^{- 1}} \\ = & I + U C V A^{- 1} - (U + U C V A^{- 1} U) (C^{- 1} + V A^{- 1} U)^{- 1} V A^{- 1} \\ = & I + U C V A^{- 1} - U C (C^{- 1} + V A^{- 1} U) (C^{- 1} + V A^{- 1} U)^{- 1} V A^{- 1} \\ = & I + U C V A^{- 1} - U C V A^{- 1} \\ = & I \end{aligned}

8.6 【证明补充】单样本的近似梯度

第181页的引理8.2给出了单样本条件下的梯度近似公式，本节将提供该引理的完整证明过程。

E_{u \in S} [f (x + δ u) u] = \frac{δ}{d} \nabla E_{v \in B} [f (x + δ v)]

其中：

$d$ 为空间的维数；
$δ$ 为任意正数；
$B$ 为单位球的空间，即 $B = {v \in R^{d} ∣ ∥ v ∥ \leq 1}$ ；
$S$ 为单位球的表面，即 $S = {u \in R^{d} ∣ ∥ u ∥ = 1}$ 。

证明

为了证明上述等式，我们将分三个步骤进行推导。

1. 表达左边的期望

首先，考虑左边的期望：

E_{u \in S} [f (x + δ u) u] = \frac{1}{{Vol}_{d - 1} (S)} \int_{S} f (x + δ u) u d S (u)

其中， ${Vol}_{d - 1} (S)$ 表示 $(d - 1)$ 维单位球面的体积， $d S (u)$ 为球面上的微分面积元素。

进行变量替换，令 $w = δ u$ 。此时：

当 $u \in S$ 时， $w \in δ S$ ；
球面上的微分面积元素变化为 $d S (u) = \frac{d S (w)}{δ^{d - 1}}$ ，因为每个维度按 $δ$ 缩放， $(d - 1)$ 维体积按 $δ^{d - 1}$ 缩放。

将变量替换代入期望的表达式：

E_{u \in S} [f (x + δ u) u] = \frac{1}{{Vol}_{d - 1} (S)} \int_{S} f (x + δ u) u d S (u) = \frac{1}{{Vol}_{d - 1} (S) \cdot δ^{d - 1}} \int_{δ S} f (x + w) \frac{w}{δ} d S (w)

简化后得到：

E_{u \in S} [f (x + δ u) u] = \frac{1}{{Vol}_{d - 1} (δ S)} \int_{δ S} f (x + w) \frac{w}{∥ w ∥} d S (w)

2. 表达右边的期望及其梯度

接下来，考虑右边的期望：

E_{v \in B} [f (x + δ v)] = \frac{1}{{Vol}_{d} (B)} \int_{B} f (x + δ v) d v

其中， ${Vol}_{d} (B)$ 表示 $d$ 维单位球的体积， $d v$ 为体积上的微分元素。

同样进行变量替换，令 $w = δ v$ 。则：

当 $v \in B$ 时， $w \in δ B$ ；
微分体积元素变化为 $d v = \frac{d w}{δ^{d}}$ ，因为每个维度按 $δ$ 缩放，体积按 $δ^{d}$ 缩放。

代入后得到：

E_{v \in B} [f (x + δ v)] = \frac{1}{{Vol}_{d} (B) \cdot δ^{d}} \int_{δ B} f (x + w) d w = \frac{1}{{Vol}_{d} (δ B)} \int_{δ B} f (x + w) d w

为了计算 $\nabla E_{v \in B} [f (x + δ v)]$ ，令：

F (x) = E_{v \in B} [f (x + δ v)] = \frac{1}{{Vol}_{d} (δ B)} \int_{δ B} f (x + w) d w

梯度作用在积分上，由于 $x$ 和 $w$ 是独立变量，可以将梯度算子移入积分内部：

\nabla F (x) = \frac{1}{{Vol}_{d} (δ B)} \int_{δ B} \nabla_{x} f (x + w) d w

注意到：

\nabla_{x} f (x + w) = \nabla_{w} f (x + w)

这是因为 $x$ 和 $w$ 的关系是通过相加连接的，故梯度对 $x$ 的作用等同于对 $w$ 的作用。

根据散度定理，有：

\int_{δ B} \nabla_{w} f (x + w) d w = \int_{δ S} f (x + w) n (w) d S (w)

其中， $δ S$ 是半径为 $δ$ 的球面， $n (w)$ 为点 $w$ 处的单位外法向量。因此：

\nabla F (x) = \frac{1}{{Vol}_{d} (δ B)} \int_{δ S} f (x + w) \frac{w}{∥ w ∥} d S (w)

3. 关联两边的表达式

将步骤 1 和步骤 2 的结果进行对比，可以得到：

E_{u \in S} [f (x + δ u) u] = \frac{{Vol}_{d} (δ B)}{{Vol}_{d - 1} (δ S)} \nabla E_{v \in B} [f (x + δ v)]

为了确定系数，我们需要利用 $d$ 维球的体积与表面积之间的关系。

$d$ 维球的体积与半径 $δ$ 的关系为：

{Vol}_{d} (δ B) = δ^{d} \cdot {Vol}_{d} (B)

而球面的表面积与半径 $δ$ 的关系为：

{Vol}_{d - 1} (δ S) = δ^{d - 1} \cdot {Vol}_{d - 1} (S)

结合这两个关系，可以得到：

{Vol}_{d} (δ B) = \int_{0}^{δ} {Vol}_{d - 1} (rS) d r = \int_{0}^{δ} {Vol}_{d - 1} (S) r^{d - 1} d r = \frac{{Vol}_{d - 1} (S) \cdot δ^{d}}{d} = \frac{δ}{d} \cdot {Vol}_{d - 1} (δ S)

带入上述等式中，得证：

E_{u \in S} [f (x + δ u) u] = \frac{δ}{d} \nabla E_{v \in B} [f (x + δ v)]

8.7 【证明补充】凸赌博机的在线梯度下降

182页中引理8.3给出了凸赌博机的随机版本在线梯度下降，我们在此给出完整的证明过程。

设 $f_{1}, f_{2}, \dots, f_{T} : W \to R$ 为一列凸且可微的函数， $ω_{1}, ω_{2}, \dots, ω_{T} \in W$ 的定义满足 $ω_{1}$ 为任意选取的点，且 $ω_{t + 1} = Π_{W} (ω_{t} - η g_{t})$ ，其中 $η > 0$ ，且 $g_{1}, \dots, g_{T}$ 是满足 $E [g_{t} | ω_{t}] = \nabla f_{t} (ω_{t})$ 的随机向量变量，且 $∥ g_{t} ∥ \leq l$ ，其中 $l > 0$ 。则当 $η = \frac{Λ}{l \sqrt{T}}$ 时，有：

\sum_{t = 1}^{T} E [f_{t} (ω_{t})] - min_{ω \in W} \sum_{t = 1}^{T} f_{t} (ω) \leq l Λ \sqrt{T}

证明:
设 $ω^{⋆}$ 为在 $W$ 中使 $\sum_{t = 1}^{T} f_{t} (ω)$ 最小化的点。由于 $f_{t}$ 是凸且可微的，我们可以使用梯度界定 $f_{t} (ω_{t})$ 和 $f_{t} (ω^{⋆})$ 之间的差异：

f_{t} (ω^{⋆}) - f_{t} (ω_{t}) \geq \nabla f_{t} (ω_{t})^{⊤} (ω^{⋆} - ω_{t}) = E [g_{t} | ω_{t}]^{⊤} (ω^{⋆} - ω_{t})

对该不等式取期望，得到：

E [f_{t} (ω_{t}) - f_{t} (ω^{⋆})] \leq E [g_{t}^{⊤} (ω_{t} - ω^{⋆})]

我们使用 $∥ ω_{t} - ω^{⋆} ∥^{2}$ 作为潜在函数。注意到 $∥ Π_{W} (ω) - ω^{⋆} ∥ \leq ∥ ω - ω^{⋆} ∥$ ，因此：

\begin{aligned} ∥ ω_{t + 1} - ω^{⋆} ∥^{2} & = ∥ Π_{W} (ω_{t} - η g_{t}) - ω^{⋆} ∥^{2} \\ \leq ∥ ω_{t} - η g_{t} - ω^{⋆} ∥^{2} \\ = ∥ ω_{t} - ω^{⋆} ∥^{2} + η^{2} ∥ g_{t} ∥^{2} - 2 η (ω_{t} - ω^{⋆})^{⊤} g_{t} \\ \leq ∥ ω_{t} - ω^{⋆} ∥^{2} + η^{2} l^{2} - 2 η (ω_{t} - ω^{⋆})^{⊤} g_{t} \end{aligned}

整理后得到：

g_{t}^{⊤} (ω_{t} - ω^{⋆}) \leq \frac{∥ ω_{t} - ω^{⋆} ∥^{2} - ∥ ω_{t + 1} - ω^{⋆} ∥^{2} + η^{2} l^{2}}{2 η}

因此，我们有：

\begin{aligned} \sum_{t = 1}^{T} E [f_{t} (ω_{t})] - \sum_{t = 1}^{T} f_{t} (ω^{⋆}) & = \sum_{t = 1}^{T} E [f_{t} (ω_{t}) - f_{t} (ω^{⋆})] \\ \leq \sum_{t = 1}^{T} E [g_{t}^{⊤} (ω_{t} - ω^{⋆})] \\ \leq \sum_{t = 1}^{T} E [\frac{∥ ω_{t} - ω^{⋆} ∥^{2} - ∥ ω_{t + 1} - ω^{⋆} ∥^{2} + η^{2} l^{2}}{2 η}] \\ = \frac{E [∥ ω_{1} - ω^{⋆} ∥^{2}] - E [∥ ω_{T + 1} - ω^{⋆} ∥^{2}]}{2 η} + \frac{T η l^{2}}{2} \\ \leq \frac{E [∥ ω_{1} - ω^{⋆} ∥^{2}]}{2 η} + \frac{T η l^{2}}{2} \\ \leq \frac{Λ^{2}}{2 η} + \frac{T η l^{2}}{2} \end{aligned}

代入 $η = \frac{Λ}{l \sqrt{T}}$ 可得最终结果。

8.8 【证明补充】凸赌博机的缩减投影误差

182页中引理8.4给出了凸赌博机的缩减投影误差，我们在此给出完整的证明过程。

设 $f_{1}, f_{2}, \dots, f_{T} : W \to R$ 为一列凸且可微的函数且 $\forall ω \in W, i \in [T]$ 满足 $| f_{i} (ω) | \leq c$ ，有：

min_{ω \in (1 - α) W} \sum_{t = 1}^{T} f_{t} (ω) - min_{ω \in W} \sum_{t = 1}^{T} f_{t} (ω) \leq 2 α c T

证明

显然， $(1 - α) W \subseteq W$ 。因此，有：

min_{ω \in (1 - α) W} \sum_{t = 1}^{T} f_{t} (ω) = min_{ω \in W} \sum_{t = 1}^{T} f_{t} ((1 - α) ω)

由于每个 $f_{t}$ 是凸函数，且 $0 \in W$ ，则我们有：

\begin{aligned} min_{ω \in W} \sum_{t = 1}^{T} f_{t} ((1 - α) ω) & \leq min_{ω \in W} \sum_{t = 1}^{T} α f_{t} (0) + (1 - α) f_{t} (ω) \\ = min_{ω \in W} \sum_{t = 1}^{T} α (f_{t} (0) - f_{t} (ω)) + f_{t} (ω) \end{aligned}

最后，由于对于任意 $ω \in W$ 和 $t \in {1, \dots, T}$ ，我们有 $| f_{t} (ω) | \leq c$ ，因此可以得出：

\begin{aligned} \sum_{t = 1}^{T} min_{ω \in W} α (f_{t} (0) - f_{t} (ω)) + f_{t} (ω) & \leq min_{ω \in W} \sum_{t = 1}^{T} 2 α c + f_{t} (ω) \\ = 2 α c T + min_{ω \in W} \sum_{t = 1}^{T} f_{t} (ω) \end{aligned}

进行适当移项即可得原不等式。

8.9 【证明补充】凸赌博机的遗憾界

182页中定理8.5给出了凸赌博机的遗憾界，在证明开始时，作者对 $η, α, δ$ 的取值进行了限定。我们可以发现这些取值不是很直观，证明给出的解释也较为分散，部分取值与证明略有出入，因此我们在此进行补充。

对于步长 $η$ ，在缩放（8.87）中 $E [\sum_{t = 1}^{T} {\hat{f}}_{t} (z_{t})] - min_{w \in (1 - α) W} \sum_{t = 1}^{T} {\hat{f}}_{t} (w)$ 时，为使用引理8.3创造条件，因此采用步长 $η = \frac{Λ}{l^{'} \sqrt{T}}$ 。根据（8.89）的推导，我们可令 $Λ = Λ_{2}$ 且 $l^{'} = \frac{d c}{δ}$ ，此时，将 $η = \frac{Λ_{2}}{(d c / δ) \sqrt{T}}$ 带入到更新公式（8.76）中即可得到（8.88）。

对于缩减系数 $α$ 与扰动系数 $δ$ ，可以一同考虑这两个系数的取值。观察（8.91）第一个不等式的形式，我们发现这是一个关于 $δ$ 的对钩函数：

f (δ) = A δ + \frac{B}{δ} + C

假设 $α$ 的取值与 $δ$ 无关，那么：

A = 3 l T, B = d c Λ_{2} \sqrt{T}, C = 2 α c T

令 $f^{'} (δ) = 0$ ，可得：

δ^{*} = T^{- 1 / 4} \sqrt{\frac{d c Λ_{2}}{3 l}}

此时， $f (δ)$ 的最小值为：

f (δ^{*}) = O (T^{3 / 4})

如果我们想加速收敛，则可将 $α$ 的取值与 $δ$ 相关联。根据上面的结论，当迭代次数 $T$ 足够大时，必然有 $δ \to 0$ 。因此，不妨取 $α = \frac{δ}{Λ_{1}}$ ，代入（8.91）中并利用对钩函数 $f (δ)$ 的性质，得到：

\begin{aligned} δ^{*} = T^{- 1 / 4} \sqrt{\frac{d c Λ_{1} Λ_{2}}{3 (l Λ_{1} + c)}} \\ f (δ^{*}) = O (T^{3 / 4}) \end{aligned}

进一步地，可以发现， $δ^{*}$ 的取值并不唯一，这是因为（8.91）的第二个不等式缩放并非必需。如果取 $δ^{*} = T^{- 1 / 4} \sqrt{\frac{d c Λ_{1} Λ_{2}}{3 l Λ_{1} + 2 c}}$ ，同样可以得到更紧致的遗憾界，并保证定理的结论不变。

第8章：遗憾界 ​

本章前言 ​

8.1 【概念解释】超额风险与遗憾的区别 ​

8.2 【案例分享】Maler 算法 ​

假设和定义 ​

元算法（Maler） ​

凸专家算法（专家 1） ​

指数凹专家算法（专家 2） ​

强凸专家算法（专家 3） ​

8.3 【证明补充】随机多臂赌博机的遗憾界 ​

8.4 【概念解释】线性赌博机 ​

8.5 【证明补充】Sherman-Morrison-Woodbury (或 Woodbury) 公式 ​

证明 ​

8.6 【证明补充】单样本的近似梯度 ​

证明 ​

1. 表达左边的期望 ​

2. 表达右边的期望及其梯度 ​

3. 关联两边的表达式 ​

8.7 【证明补充】凸赌博机的在线梯度下降 ​

8.8 【证明补充】凸赌博机的缩减投影误差 ​

证明 ​

8.9 【证明补充】凸赌博机的遗憾界 ​

第8章：遗憾界

本章前言

8.1 【概念解释】超额风险与遗憾的区别

8.2 【案例分享】Maler 算法

假设和定义

元算法（Maler）

凸专家算法（专家 1）

指数凹专家算法（专家 2）

强凸专家算法（专家 3）

8.3 【证明补充】随机多臂赌博机的遗憾界

8.4 【概念解释】线性赌博机

8.5 【证明补充】Sherman-Morrison-Woodbury (或 Woodbury) 公式

证明

8.6 【证明补充】单样本的近似梯度

证明

1. 表达左边的期望

2. 表达右边的期望及其梯度

3. 关联两边的表达式

8.7 【证明补充】凸赌博机的在线梯度下降

8.8 【证明补充】凸赌博机的缩减投影误差

证明

8.9 【证明补充】凸赌博机的遗憾界