第7章:收敛率
编辑:赵志民
本章前言
本章的内容围绕学习理论中的算法收敛率(Convergence Rate)展开。具体来说,我们将探讨在确定性优化和随机优化中的收敛率问题,并在最后分析支持向量机的实例。
7.1 【概念解释】算法收敛率
在算法分析中,收敛率是指迭代算法逼近解或收敛到最优或期望结果的速度,它衡量算法在减少当前解与最优解之间差异的快慢。
设
其中,
根据收敛率的不同情况,我们可以将其分类如下:
- 超线性收敛:
, ,表明每次迭代都会使得误差减小,且减小的速度越来越快。特别地,当 时,称为 阶收敛。例如, 时称为平方收敛, 时称为立方收敛。 - 线性收敛:
, ,表明每次迭代都会使得误差减小(误差呈几何级数下降),但减小的速度是一定的。 - 次线性收敛:
, ,表明每次迭代都会使得误差减小,但减小的速度越来越慢。
7.2 【证明补充】凸函数的确定性优化
书中给出的梯度下降算法中,输出的是
根据定理7.1,
作为对比,在7.2.2中的强凸函数梯度下降算法中,我们只输出了最后一次迭代值
另外,在 139页 定理7.1的(7.12)推导中,利用了第一章补充内容 AM-GM 不等式
当且仅当
因此,只有当
7.3 【证明补充】强凸函数的确定性优化
142页 中,在证明定理7.3时,对于(7.19)的推导补充如下。
首先,如果目标函数满足
而强凸系数
光滑系数
接着,令
- 当
时,(7.19)转化为:
因为
- 当
时, 为开口向上的二次函数。令 ,得到 的对称轴为 。我们可以分成以下两种情况讨论: - 当
时, 取得最小值只能在 处,故而得到(7.20)。 - 当
时, 取得最小值在 处,故而得到(7.21)。
- 当
余下的推导部分与书中相同,此处不再赘述。
7.4 【定理证明】鞅差序列的 Bernstein 不等式
149页 定理7.6 给出了鞅差序列的 Bernstein 不等式,我们在这里给出完整的证明过程。
假设
将
那么对于任意正数
证明
考虑函数
将其用于随机变量
由于
考虑一个随机过程:
我们证明这个过程对于滤波
证明如下:
应用之前证明的不等式,我们得到:
我们定义
由于
考虑到
因此:
由于上述不等式对任何
检查不等式右边的一阶导数,我们知道该下确界在
对于指数内部的表达式,我们进行如下变换:
其中
通过对表达式求二阶导数的方法,我们也可以证明:
综上所述,我们有:
7.5 【证明补充】Epoch-GD 的收敛率
150页 引理7.2给出了Epoch-GD外层循环收敛率的泛化上界,我们对其中部分推导进行必要补充。
首先,(7.60)中第二个不等式的推导利用了Cauchy-Schwarz不等式(1.14),即
其次,(7.62)中最后两个不等式的推导利用了一些常见的缩放技巧,我们在这里给出完整形式:
这里,第一个不等式利用了
最后,(7.64)中第二个不等式的推导利用了开口向下的二次函数
进一步地,152页引理7.3利用数学归纳法给出了特定步长和迭代次数下Epoch-GD外层循环收敛率的泛化上界,这为154页定理7.7中Epoch-GD的收敛率奠定了基础。我们对后者的部分推导进行必要补充。
首先,观察(7.75)可以发现,Epoch-GD外层的迭代次数
其次,(7.77)的推导利用了函数
对函数
接着对两边分别求导,可得:
易知当
易知当
综上,当
