Skip to content

第8章:遗憾界

编辑:赵志民,詹好


本章前言

本章的内容围绕学习理论中的遗憾(Regret)概念展开(有的教材里也翻译为“悔”)。通常,我们使用超额风险(Excess Risk)来评估批量学习的分类器性能,而用遗憾来评估在线学习的分类器性能。二者的不同在于,前者衡量的是整个学习过程结束后所得到的分类器性能,可以理解为学习算法最终输出的模型与假设空间内最优模型的风险之差;而后者衡量的是算法运行过程中,所产生的模型与假设空间内最优模型的损失之差的

8.1 【概念解释】超额风险与遗憾的区别

8.1介绍了遗憾这一评估指标的基本概念,我们在此基础上梳理一下其与超额风险这一评估指标的区别。

超额风险这一评估指标被定义为:

ER=E(x,y)D[l(wT+1,(x,y))]minwWE(x,y)D[l(w,(x,y))]

其中,ER 指的是excess risk,等式右边的前半部分 E(x,y)D[l(wT+1,(x,y))] 指的是模型 wT+1 的风险,等式右边的后半部分 minwWE(x,y)D[l(w,(x,y))] 指的是假设空间内的最优模型的风险。值得注意的是,这里的评估是在整个数据集上进行的,也正是因为如此,我们必须要引入期望的操作。

而遗憾这一评估指标,被定义为:

regret=t=1Tft(wt)minwWt=1Tft(w)

其中,ft(wt) 指的是:

t=1Tl(wt,(xt,yt))minwWt=1Tl(w,(xt,yt))

由于wt的计算过程与样本(xt,yt) 无关,而是与(x1,y1),...,(xt1,yt1) 有关,因此可以直接使用 l(w,(xt,yt)) 来衡量性能。

由此,我们可以总结出二者之间的两个主要区别:首先,超额风险引入了期望,而遗憾没有;其次,超额风险是在所有数据上进行的一次性计算,而遗憾是对多次损失的一个求和。同时,由于在线学习不依赖于任何分布假设,因此适用于非独立同分布样本或固定分布的情形。

8.2 【案例分享】Maler 算法

在8.2.3节的170页末尾,作者提到了Maler算法(Multiple Sub-algorithms & Learning Rates)(详细证明参考:Adaptivity and Optimality: A Universal Algorithm for Online Convex Optimization),这是一个能够自适应选择最优专家的在线学习算法,并在不同类型的损失函数上实现最优的遗憾界限:

  • 一般凸函数R(T)OT)
  • 指数凹函数R(T)O(dlogT)
  • 强凸函数R(T)O(logT) 这里T表示时间总步数,d表示特征空间的维度。

下面,我们简要补充Maler算法的原理和实现。

假设和定义

  1. 假设 1(梯度有界性):所有损失函数 ft(x) 的梯度被 G 所有界:

    t>0,maxxDft(x)G
  2. 假设 2(行动集的直径有界性):行动集 D 的直径被 D 所有界:

    maxx1,x2Dx1x2D
  3. 定义 1(凸函数):函数 f:DR 是凸的,如果:

    f(x1)f(x2)+f(x2)(x1x2),x1,x2D
  4. 定义 2(强凸函数):函数 f:DRλ-强凸的,如果:

    f(x1)f(x2)+f(x2)(x1x2)+λ2x1x22,x1,x2D
  5. 定义 3(指数凹函数):函数 f:DRα-指数凹的(简称 α-exp-concave),如果:

    exp(αf(x))是凹的

元算法(Maler)

输入:学习率 ηc,η1,η2,,专家的先验权重 π1c,π1η1,s,π1η2,s,以及 π1η1,l,π1η2,l,

  1. 对于每个回合 t=1,,T
    • 从凸专家算法(专家 1)获取预测 xtc,从指数凹专家算法(专家 2)和强凸专家算法(专家 3)分别获取 xtη,lxtη,s

    • 执行:

      xt=πtcηcxtc+η(πtη,sηxtη,s+πtη,lηxtη,l)πtcηc+η(πtη,sη+πtη,lη)
    • 观察梯度 gt 并发送给所有专家算法。

    • 对所有的 η 更新权重:

      πt+1c=πtcect(xtc)Φt,πt+1η,s=πtη,sestη(xtη,s)Φt,πt+1η,l=πtη,leltη(xtη,l)Φt

      其中:

      Φt=η(πtη,sestη(xtη,s)+πtη,leltη(xtη,l))+πtcect(xtc)

凸专家算法(专家 1)

  1. x1c=0
  2. 对于每个回合 t=1,,T
    • xtc 发送给元算法
    • 从元算法接收梯度 gt
    • 更新:xt+1c=ΠDId(xtcDηcGtct(xtc))其中 ct(xtc)=ηcgt

指数凹专家算法(专家 2)

  1. 输入:学习率 η
  2. x1η,l=0,β=12min{14GlD,1},Gl=725D,Σ1=1β2D2Id
  3. 对于每个回合 t=1,,T
    • xtη,l 发送给元算法
    • 从元算法接收梯度 gt
    • 更新:Σt+1=Σt+ltη(xtη,l)ltη(xtη,l)xt+1η,l=ΠDΣt+1(xtη,l1βΣt+11ltη(xtη,l))其中 ltη(xtη,l)=ηgt+2η2gtgt(xtη,lxt)

强凸专家算法(专家 3)

  1. 输入:学习率 η
  2. x1η,s=0
  3. 对于每个回合 t=1,,T
    • xtη,s 发送给元算法
    • 从元算法接收梯度 gt
    • 更新:xt+1η,s=ΠDId(xtη,s12η2G2tstη(xtη,s))其中 stη(xtη,s)=ηgt+2η2G2(xtη,sxt)

8.3 【证明补充】随机多臂赌博机的遗憾界

172页中定理8.3给出了随机多臂赌博机的遗憾界,我们在此基础上对公式(8.42)至(8.47)证明过程进行补充。

首先,(8.42)给出当μ(p)+2lntpμi(q)+2lntq成立时,必然有三种可能情况中的一种成立。但这三种情况并不是互斥的,因此显得不直观,这里将第二种情况做了细微调整,即:

μ(p)+2lntpμ,μμi(q)+2lntq,μi(q)+2lntqμi(p)

此时,构造(8.44)和(8.45)的逻辑更加顺畅。我们令l=(2lnT)/Δi2,则(8.45)转化为:

P(μμi+2lntq)=0,ql

代入(8.44),可得:

E[niT]2lnTΔi2+2t=1T1p=1t1q=lt1t42lnTΔi2+1+2t=1T1p=1tq=1tt42lnTΔi2+1+2limT+t=1T1t2

根据p-级数判别法,当p=2>1时,级数收敛,因此limT+t=1T1t2是有界的。至于该级数的具体值,对定理的结论没有影响,因此我们可以将其视为一个常数,然后带入后续推导中。为了证明的完整性,我们对此进行简要说明。

limT+t=1T1t2的取值在数学界被称为Basel问题,推导过程涉及诸多前置定理,感兴趣的读者可以查看这个讲义:The Basel Problem - Numerous Proofs。此处提供另一种在微积分变换中常见的缩放方法:

t=1T1t21+1T11x2dx=1+(1x)|1T1=21T

对不等式两边同时取极限,可得:

limT+t=1T1t22

代入(8.46),同样可得类似(8.47)的结论。

这里继续沿用书中给出的limT+t=1Tt2=π26,代入(8.46)得到遗憾界(8.47):

E[regret]i=1K2lnTΔi2+O(1)

此时(8.46)变为:

E[niT]iK2lnTΔi+(1+π23)Δi=O(KlogT)

观察(8.47)可知,求和公式中的每一项符合对钩函数的构造,即:

f(x)=Ax+Bx,x>0,A>0,B>0

这里x=Δi,A=1+π23,B=2lnT,因此无论Δi过大或过小时,都会导致遗憾界的上界变大。另外,遗憾界跟摇臂的个数K呈线性关系,当K越大时,遗憾界也越大。

8.4 【概念解释】线性赌博机

176页的8.3.2节介绍了线性赌博机的概念,我们在此基础上对参数估计部分进行补充。

为了估计线性赌博机的参数,我们将原问题转化为岭回归问题,即(8.52):

f(w)=(YwTX)T(YwTX)+λwTw

为了求得最优解w,我们令f(w)=0,可推导出(8.53):

f(w)w=2XT(YwTX)+2λw=0XTY=(XTX+λI)ww=(XTX+λI)1XTY

相比于每次传入新数据(xt,yt)时从头计算wt,这里巧妙地利用了 Sherman-Morrison-Woodbury 公式将任何形如(A+uvT)1的矩阵逆转化为可逆矩阵A和列向量u,v之间的运算,在O(d2)的时间复杂度内完成参数的更新。

8.5 【证明补充】Sherman-Morrison-Woodbury (或 Woodbury) 公式

177页的 Sherman-Morrison-Woodbury 公式变种是矩阵求逆中的一个重要工具,它可以通过已知矩阵的逆来快速计算被低秩修正的矩阵的逆。

该公式如下所示:

(A+UCV)1=A1A1U(C1+VA1U)1VA1

其中,A 是一个 n×n 的矩阵,C 是 k×k 的矩阵,U 和 V 是 n×k 的矩阵,(8.54)中C为单位矩阵。

证明

该公式可以通过验证 A+UCV 与其假设的逆(公式右侧)的乘积是否为单位矩阵来证明。我们对以下乘积进行计算:

(A+UCV)[A1A1U(C1+VA1U)1VA1]

逐步推导如下:

={I+UCVA1}{U(C1+VA1U)1VA1+UCVA1U(C1+VA1U)1VA1}=I+UCVA1(U+UCVA1U)(C1+VA1U)1VA1=I+UCVA1UC(C1+VA1U)(C1+VA1U)1VA1=I+UCVA1UCVA1=I

8.6 【证明补充】单样本的近似梯度

第181页的引理8.2给出了单样本条件下的梯度近似公式,本节将提供该引理的完整证明过程。

EuS[f(x+δu)u]=δdEvB[f(x+δv)]

其中:

  • d 为空间的维数;
  • δ 为任意正数;
  • B 为单位球的空间,即 B={vRdv1}
  • S 为单位球的表面,即 S={uRdu=1}

证明

为了证明上述等式,我们将分三个步骤进行推导。

1. 表达左边的期望

首先,考虑左边的期望:

EuS[f(x+δu)u]=1Vold1(S)Sf(x+δu)udS(u)

其中,Vold1(S) 表示 (d1) 维单位球面的体积,dS(u) 为球面上的微分面积元素。

进行变量替换,令 w=δu。此时:

  • uS 时,wδS
  • 球面上的微分面积元素变化为 dS(u)=dS(w)δd1,因为每个维度按 δ 缩放,(d1) 维体积按 δd1 缩放。

将变量替换代入期望的表达式:

EuS[f(x+δu)u]=1Vold1(S)Sf(x+δu)udS(u)=1Vold1(S)δd1δSf(x+w)wδdS(w)

简化后得到:

EuS[f(x+δu)u]=1Vold1(δS)δSf(x+w)wwdS(w)

2. 表达右边的期望及其梯度

接下来,考虑右边的期望:

EvB[f(x+δv)]=1Vold(B)Bf(x+δv)dv

其中,Vold(B) 表示 d 维单位球的体积,dv 为体积上的微分元素。

同样进行变量替换,令 w=δv。则:

  • vB 时,wδB
  • 微分体积元素变化为 dv=dwδd,因为每个维度按 δ 缩放,体积按 δd 缩放。

代入后得到:

EvB[f(x+δv)]=1Vold(B)δdδBf(x+w)dw=1Vold(δB)δBf(x+w)dw

为了计算 EvB[f(x+δv)],令:

F(x)=EvB[f(x+δv)]=1Vold(δB)δBf(x+w)dw

梯度作用在积分上,由于 xw 是独立变量,可以将梯度算子移入积分内部:

F(x)=1Vold(δB)δBxf(x+w)dw

注意到:

xf(x+w)=wf(x+w)

这是因为 xw 的关系是通过相加连接的,故梯度对 x 的作用等同于对 w 的作用。

根据散度定理,有:

δBwf(x+w)dw=δSf(x+w)n(w)dS(w)

其中,δS 是半径为 δ 的球面,n(w) 为点 w 处的单位外法向量。因此:

F(x)=1Vold(δB)δSf(x+w)wwdS(w)

3. 关联两边的表达式

将步骤 1 和步骤 2 的结果进行对比,可以得到:

EuS[f(x+δu)u]=Vold(δB)Vold1(δS)EvB[f(x+δv)]

为了确定系数,我们需要利用 d 维球的体积与表面积之间的关系。

d 维球的体积与半径 δ 的关系为:

Vold(δB)=δdVold(B)

而球面的表面积与半径 δ 的关系为:

Vold1(δS)=δd1Vold1(S)

结合这两个关系,可以得到:

Vold(δB)=0δVold1(rS)dr=0δVold1(S)rd1dr=Vold1(S)δdd=δdVold1(δS)

带入上述等式中,得证:

EuS[f(x+δu)u]=δdEvB[f(x+δv)]

8.7 【证明补充】凸赌博机的在线梯度下降

182页中引理8.3给出了凸赌博机的随机版本在线梯度下降,我们在此给出完整的证明过程。

f1,f2,,fT:WR 为一列凸且可微的函数,ω1,ω2,,ωTW 的定义满足 ω1 为任意选取的点,且 ωt+1=ΠW(ωtηgt),其中 η>0,且 g1,,gT 是满足 E[gt|ωt]=ft(ωt) 的随机向量变量,且 gtl,其中 l>0。则当 η=ΛlT 时,有:

t=1TE[ft(ωt)]minωWt=1Tft(ω)lΛT

证明:
ω 为在 W 中使 t=1Tft(ω) 最小化的点。由于 ft 是凸且可微的,我们可以使用梯度界定 ft(ωt)ft(ω) 之间的差异:

ft(ω)ft(ωt)ft(ωt)(ωωt)=E[gt|ωt](ωωt)

对该不等式取期望,得到:

E[ft(ωt)ft(ω)]E[gt(ωtω)]

我们使用 ωtω2 作为潜在函数。注意到 ΠW(ω)ωωω,因此:

ωt+1ω2=ΠW(ωtηgt)ω2ωtηgtω2=ωtω2+η2gt22η(ωtω)gtωtω2+η2l22η(ωtω)gt

整理后得到:

gt(ωtω)ωtω2ωt+1ω2+η2l22η

因此,我们有:

t=1TE[ft(ωt)]t=1Tft(ω)=t=1TE[ft(ωt)ft(ω)]t=1TE[gt(ωtω)]t=1TE[ωtω2ωt+1ω2+η2l22η]=E[ω1ω2]E[ωT+1ω2]2η+Tηl22E[ω1ω2]2η+Tηl22Λ22η+Tηl22

代入 η=ΛlT 可得最终结果。

8.8 【证明补充】凸赌博机的缩减投影误差

182页中引理8.4给出了凸赌博机的缩减投影误差,我们在此给出完整的证明过程。

f1,f2,,fT:WR 为一列凸且可微的函数且 ωW,i[T] 满足 |fi(ω)|c,有:

minω(1α)Wt=1Tft(ω)minωWt=1Tft(ω)2αcT

证明

显然,(1α)WW。因此,有:

minω(1α)Wt=1Tft(ω)=minωWt=1Tft((1α)ω)

由于每个ft是凸函数,且0W,则我们有:

minωWt=1Tft((1α)ω)minωWt=1Tαft(0)+(1α)ft(ω)=minωWt=1Tα(ft(0)ft(ω))+ft(ω)

最后,由于对于任意ωWt{1,,T},我们有|ft(ω)|c,因此可以得出:

t=1TminωWα(ft(0)ft(ω))+ft(ω)minωWt=1T2αc+ft(ω)=2αcT+minωWt=1Tft(ω)

进行适当移项即可得原不等式。

8.9 【证明补充】凸赌博机的遗憾界

182页中定理8.5给出了凸赌博机的遗憾界,在证明开始时,作者对η,α,δ的取值进行了限定。我们可以发现这些取值不是很直观,证明给出的解释也较为分散,部分取值与证明略有出入,因此我们在此进行补充。

对于步长η,在缩放(8.87)中 E[t=1Tf^t(zt)]minw(1α)Wt=1Tf^t(w) 时,为使用引理8.3创造条件,因此采用步长η=ΛlT。根据(8.89)的推导,我们可令Λ=Λ2l=dcδ,此时,将η=Λ2(dc/δ)T带入到更新公式(8.76)中即可得到(8.88)。

对于缩减系数α与扰动系数δ,可以一同考虑这两个系数的取值。观察(8.91)第一个不等式的形式,我们发现这是一个关于δ的对钩函数:

f(δ)=Aδ+Bδ+C

假设α的取值与δ无关,那么:

A=3lT,B=dcΛ2T,C=2αcT

f(δ)=0,可得:

δ=T1/4dcΛ23l

此时,f(δ)的最小值为:

f(δ)=O(T3/4)

如果我们想加速收敛,则可将α的取值与δ相关联。根据上面的结论,当迭代次数T足够大时,必然有δ0。因此,不妨取α=δΛ1,代入(8.91)中并利用对钩函数f(δ)的性质,得到:

δ=T1/4dcΛ1Λ23(lΛ1+c)f(δ)=O(T3/4)

进一步地,可以发现,δ的取值并不唯一,这是因为(8.91)的第二个不等式缩放并非必需。如果取δ=T1/4dcΛ1Λ23lΛ1+2c,同样可以得到更紧致的遗憾界,并保证定理的结论不变。

基于 CC BY-NC-SA 4.0 许可协议