第5章:稳定性
编辑:赵志民,李一飞,王茂霖,詹好
本章前言
本章将探讨学习理论中的稳定性。在前一章中,我们介绍了不同的复杂度度量方法,并给出了与特定算法无关的泛化界限。 然而,这些泛化界限是否能通过分析特定算法的性质得到更好的学习保障?这些分析是否能够扩展到具有相似性质的其他学习算法上? 本章旨在回答这些问题,通过算法稳定性的应用推导出依赖于算法的学习保证。
5.1 【概念解释】留一交叉验证的风险
90页中提到的留一风险(leave-one-out risk)是指依次从数据集中移除某一数据后,利用剩余数据训练的模型与被移除数据之间的风险。本质上,这保证了用于风险测试的数据不会包含在训练集中,类似于模型选择时的留一验证。
5.2 【证明补充】均匀稳定性与泛化误差上界
92页中,定理5.1讨论了均匀稳定性与泛化性的关系。以下是该证明过程中均匀稳定性与泛化性之间联系的分析。
证明简述
对于读者来说,前几章的阅读应使大家对涉及
由于定理中提到的替换样本
通过对损失函数的差值求和平均可以得到风险 (Risk) 的差距。由于替换样本的
之后进行简单的放缩估计即可得到最终的结果:
值得注意的是,(5.22)中的最后一步不等式推导其实省略了一步:
之所以这么做,是因为当样本量
另外,(5.23)式也省略了一步:
关于移除样本
均匀稳定性与泛化性的关系
在证明过程中,多处涉及了损失函数作差的放缩,即替换样本的
在 (5.24) 中,通过替换样本的稳定性,我们可以得到经验风险与泛化风险的差距(即
因此在 (5.25) 中,我们可以得到经验风险与泛化风险的差距(即
5.3 【证明补充】假设稳定性与泛化误差上界
94页中,定理5.2讨论了假设稳定性与泛化性的关系。以下是该证明过程中假设稳定性与泛化性之间联系的分析。
证明简述
证明涉及
证明中的一处难点在于(5.30)至(5.33)中关于变量
例如,在(5.30)中的第一步推导中,不失一般性地用
理解这一点后,任何关于变量
另外,在(5.32)的第一步推导中,使用了绝对值不等式
假设稳定性与泛化性的关系
该定理实际上给出了经验风险与泛化风险的差距的平方平均的界,这是因为假设稳定性并不是非常强的条件,而是为了放松均匀稳定性这一较强的条件而引入的。
5.4 【概念解释】过拟合与欠拟合的关系
过拟合和欠拟合是泛化性研究中的重要概念。当经验风险与泛化风险的差距较大时,会发生过拟合;相反,当泛化风险与经验风险的差距较大时,则发生欠拟合。因此,我们在算法设计时,希望尽可能缩小泛化风险与经验风险的差距。
96页中,定理5.3从算法稳定性的角度提出了防止过拟合的方案:当替换训练集的单个样本时,算法的输出函数变化不大,我们认为学习算法
5.5 【概念解释】稳定性与可学习性
97页中,定理5.4讨论了稳定性与可学性之间的关系。以下是定理5.4的梳理分析,探讨稳定性与可学性在证明中的关联。
证明简述
首先,我们回顾不可知 PAC 可学的概念:对于所有分布
该证明利用了经验风险与泛化风险之间的联系,构造出(5.39),然后分而治之地讨论不同情况下的稳定性关系。
其中,泛化风险与经验风险之差(5.40)可以根据定理5.1改写为:对于任意的
参考95页中对
在处理 ERM 算法情况下泛化风险与经验风险之差(5.42)时,原书中有一处小错误,但对最终结论影响不大。以下是正确的推导过程:
根据
结合(5.39)至(5.42)可知,至少以
此时(5.44)变为:
令
其中
至此,我们得到了
接下来的推导便水到渠成。
稳定性与可学性
这里只能达到不可知 PAC 可学的原因是泛化界只能以概率达到,无法保证在任何函数空间内都能达到上界以下。因此,这里只能讨论稳定性与不可知 PAC 可学性的关系。
事实上,稳定性与可学性的关系类似于第四章中讲到的泛化界与可学性的关系。通过 ERM 算法得到最小经验风险函数后,结合均匀稳定性带来的泛化上界,我们可以获得可学性。
5.6 【证明补充】二次分布下的 k-近邻算法稳定性
105页中,引理5.2讨论了二次分布
给定整数
则对任意正整数
首先,我们根据
当
第二步推导利用了 Stirling 公式,最后一步推导则利用了函数
因此,我们有:
当
当
综上,引理5.2得证。
5.7 【概念解释】稳定性理论的适用范围
细心的读者可能已经注意到,这里的稳定性仅在某些条件下才能适用,以下是对这些条件的总结。
首先,本章的分析假设输出函数
另外,在样本扰动分析中,我们几乎没有单独讨论新增样本的情况。这是因为在数据或概念发生漂移的情况下,稳定性的要求不一定成立,因为此时训练集的分布与真实分布已不再一致。而在研究训练集
具体而言,在线学习指的是在数据不断到来的过程中,动态地更新模型,因此该训练方式更关注模型的可塑性,即在旧场景中训练的模型是否能通过优化在新场景中表现优异。因此,在实际应用中,我们需要平衡学习算法的可塑性与稳定性。
为了更好地评估在线学习的性能,本书引入了遗憾界的概念,即在线学习与离线学习算法之间最小损失的差值,具体分析请参见第八章。
