第8章:遗憾界
编辑:赵志民,詹好
本章前言
本章的内容围绕学习理论中的遗憾(Regret)概念展开(有的教材里也翻译为“悔”)。通常,我们使用超额风险(Excess Risk)来评估批量学习的分类器性能,而用遗憾来评估在线学习的分类器性能。二者的不同在于,前者衡量的是整个学习过程结束后所得到的分类器性能,可以理解为学习算法最终输出的模型与假设空间内最优模型的风险之差;而后者衡量的是算法运行过程中,所产生的模型与假设空间内最优模型的损失之差的和。
8.1 【概念解释】超额风险与遗憾的区别
8.1介绍了遗憾这一评估指标的基本概念,我们在此基础上梳理一下其与超额风险这一评估指标的区别。
超额风险这一评估指标被定义为:
其中,
而遗憾这一评估指标,被定义为:
其中,
由于
由此,我们可以总结出二者之间的两个主要区别:首先,超额风险引入了期望,而遗憾没有;其次,超额风险是在所有数据上进行的一次性计算,而遗憾是对多次损失的一个求和。同时,由于在线学习不依赖于任何分布假设,因此适用于非独立同分布样本或固定分布的情形。
8.2 【案例分享】Maler 算法
在8.2.3节的170页末尾,作者提到了Maler算法(Multiple Sub-algorithms & Learning Rates)(详细证明参考:Adaptivity and Optimality: A Universal Algorithm for Online Convex Optimization),这是一个能够自适应选择最优专家的在线学习算法,并在不同类型的损失函数上实现最优的遗憾界限:
- 一般凸函数:
- 指数凹函数:
- 强凸函数:
这里 表示时间总步数, 表示特征空间的维度。
下面,我们简要补充Maler算法的原理和实现。
假设和定义
假设 1(梯度有界性):所有损失函数
的梯度被 所有界: 假设 2(行动集的直径有界性):行动集
的直径被 所有界: 定义 1(凸函数):函数
是凸的,如果: 定义 2(强凸函数):函数
是 -强凸的,如果: 定义 3(指数凹函数):函数
是 -指数凹的(简称 -exp-concave),如果:
元算法(Maler)
输入:学习率
- 对于每个回合
: 从凸专家算法(专家 1)获取预测
,从指数凹专家算法(专家 2)和强凸专家算法(专家 3)分别获取 和 。 执行:
观察梯度
并发送给所有专家算法。 对所有的
更新权重: 其中:
凸专家算法(专家 1)
- 对于每个回合
: - 将
发送给元算法 - 从元算法接收梯度
- 更新:
其中
- 将
指数凹专家算法(专家 2)
- 输入:学习率
- 对于每个回合
: - 将
发送给元算法 - 从元算法接收梯度
- 更新:
其中
- 将
强凸专家算法(专家 3)
- 输入:学习率
- 对于每个回合
: - 将
发送给元算法 - 从元算法接收梯度
- 更新:
其中
- 将
8.3 【证明补充】随机多臂赌博机的遗憾界
172页中定理8.3给出了随机多臂赌博机的遗憾界,我们在此基础上对公式(8.42)至(8.47)证明过程进行补充。
首先,(8.42)给出当
此时,构造(8.44)和(8.45)的逻辑更加顺畅。我们令
代入(8.44),可得:
根据
对不等式两边同时取极限,可得:
代入(8.46),同样可得类似(8.47)的结论。
这里继续沿用书中给出的
此时(8.46)变为:
观察(8.47)可知,求和公式中的每一项符合对钩函数的构造,即:
这里
8.4 【概念解释】线性赌博机
176页的8.3.2节介绍了线性赌博机的概念,我们在此基础上对参数估计部分进行补充。
为了估计线性赌博机的参数,我们将原问题转化为岭回归问题,即(8.52):
为了求得最优解
相比于每次传入新数据
8.5 【证明补充】Sherman-Morrison-Woodbury (或 Woodbury) 公式
177页的 Sherman-Morrison-Woodbury 公式变种是矩阵求逆中的一个重要工具,它可以通过已知矩阵的逆来快速计算被低秩修正的矩阵的逆。
该公式如下所示:
其中,A 是一个
证明
该公式可以通过验证
逐步推导如下:
8.6 【证明补充】单样本的近似梯度
第181页的引理8.2给出了单样本条件下的梯度近似公式,本节将提供该引理的完整证明过程。
其中:
为空间的维数; 为任意正数; 为单位球的空间,即 ; 为单位球的表面,即 。
证明
为了证明上述等式,我们将分三个步骤进行推导。
1. 表达左边的期望
首先,考虑左边的期望:
其中,
进行变量替换,令
- 当
时, ; - 球面上的微分面积元素变化为
,因为每个维度按 缩放, 维体积按 缩放。
将变量替换代入期望的表达式:
简化后得到:
2. 表达右边的期望及其梯度
接下来,考虑右边的期望:
其中,
同样进行变量替换,令
- 当
时, ; - 微分体积元素变化为
,因为每个维度按 缩放,体积按 缩放。
代入后得到:
为了计算
梯度作用在积分上,由于
注意到:
这是因为
根据散度定理,有:
其中,
3. 关联两边的表达式
将步骤 1 和步骤 2 的结果进行对比,可以得到:
为了确定系数,我们需要利用
而球面的表面积与半径
结合这两个关系,可以得到:
带入上述等式中,得证:
8.7 【证明补充】凸赌博机的在线梯度下降
182页中引理8.3给出了凸赌博机的随机版本在线梯度下降,我们在此给出完整的证明过程。
设
证明:
设
对该不等式取期望,得到:
我们使用
整理后得到:
因此,我们有:
代入
8.8 【证明补充】凸赌博机的缩减投影误差
182页中引理8.4给出了凸赌博机的缩减投影误差,我们在此给出完整的证明过程。
设
证明
显然,
由于每个
最后,由于对于任意
进行适当移项即可得原不等式。
8.9 【证明补充】凸赌博机的遗憾界
182页中定理8.5给出了凸赌博机的遗憾界,在证明开始时,作者对
对于步长
对于缩减系数
假设
令
此时,
如果我们想加速收敛,则可将
进一步地,可以发现,
