第4章:泛化界
Edit: 赵志民,李一飞,王茂霖,詹好
本章前言
在机器学习中,泛化能力是衡量模型性能的核心标准之一。如何从有限的训练数据中获得能够在未见数据上表现良好的模型,始终是研究者关注的重要问题。本章将深入探讨与泛化界相关的理论基础和定理,通过对关键概念的补充说明和定理的详细推导,帮助读者更好地理解泛化误差的收敛性质以及不同假设空间下的泛化能力。本章还将介绍与泛化界密切相关的Rademacher复杂度及其在实际应用中的意义,为进一步的研究提供理论支持。
4.1 【概念解释】可分情形中的“等效”假设
61页中的「可分情形」部分提到了“等效假设”的概念。这其实是我们在面对模型选择时需要处理的问题。机器学习的任务实际上是从样本空间或属性空间中选择一个最符合实际的模型假设。在理想状态下,我们希望能排除不可能的情况,直接选择唯一可能的模型。然而,这是不现实的,因为训练数据无法覆盖所有可能的情况,这些数据仅是部分经验片段的记录。因此,机器学习成为了一个不适定问题(ill-posed problem)。
通常而言,不适定问题是指不满足以下任一条件的问题:
- 存在解:对于给定的问题,至少存在一个解,即这个问题是可以解决的。
- 唯一解:对于给定的问题,解是唯一的,没有其他可能的解。
- 解连续依赖于定解条件:解会随着初始条件或参数的变化而连续变化,不会出现突然跳跃或不连续的情况
在这里,由于我们无法仅依靠输入数据找到唯一解,这使得学习问题成为一个不适定问题,主要违反了条件2。而在更多时候,我们说机器学习是不适定的,主要是指其违反了条件3,在那种情况下,我们通常会用正则化等方式来解决。
4.2 【概念解释】定理4.1与定理2.1、定理2.2的关系
61页中的定理4.1与定理2.1和定理2.2之间存在密切联系。
定理2.1指出一个学习算法
其中,
定理2.2指出,所谓PAC可学,是指对于任何
在定理4.1中,假设学习算法
的条件,从而得到
因此,定理4.1实际上就是逆向使用了定理2.1和定理2.2。
4.3 【证明补充】定理4.2补充
63页中,在证明定理4.2时,省略了从式4.6到式4.7的推导过程。在这一过程中,主要用到了28页中式2.7的内容。
根据式4.6,有
引理2.1提出,若训练集 D 包含
使用第三个式子,即,
将其带入式4.6,则有,
令
从而得到式4.7。
4.4 【证明补充】引理4.1的证明思路
63页中,引入了引理4.1及其相关的证明。由于证明过程较长,这里对其思路进行梳理和分析。
对于假设空间
证明简述
当我们要证明这个定理时,需要首先回忆增长函数的定义:对于
由于泛化误差在实际过程中难以评估,证明中首先将泛化误差和经验误差的差距缩放为经验误差之间的差距。通过概率与期望之间的转化,我们将问题进一步转化,并通过上确界的定义给出一个具体的概念
第二步则是将经验误差之间的差距进一步转化为增长函数的差距,即证明了第二个公式:
在这个过程中,使用了式 4.16,通过给出任意置换下的情况,将期望问题转化为级数求和,进一步缩放成有关指数函数的公式:
注意,原不等式中的上界
再通过进一步缩放,得到最后的缩放公式(4.19)。此时,结合前述推导可证明引理。
即使将原不等式中的
4.5 【证明补充】定理4.3补充
67页中提到将式(4.24)带入引理4.1,即可证明定理4.3,具体推导如下:
定理4.3 表示为:
可以将其等价转化为:
将(4.24)带入引理4.1可得:
根据 3.1 可得:
所以引理4.1可以转化为:
令
从而得到了定理4.3的结论。
定理4.3 说明了期望误差和经验误差之间的差异程度,以概率形式限定在一定的区域范围内,虽然这并不完全代表误差一定会在
4.6 【概念解释】回顾 Rademacher 复杂度
68页谈论了基于 Rademacher 的泛化误差界,这里对 Rademacher 复杂度进行回顾。
由于 VC 维和数据分布无关,未考虑数据的特定分布情况,其得到的结论往往是“松”的。Rademacher 复杂度则是基于数据分布的考虑,在牺牲了一定“普适性”的情况下,得到更为“紧”的结论。
复杂度是人为定义的一套量化复杂度程度的概念。对应 Rademacher 复杂度,假设空间中表示能力越强的函数,其复杂度越高。回到46-47页,如果
对于 Rademacher 复杂度的定义,我们进一步将具体的数据样本点转化为数据的样本空间分布,在经验误差的形式外面套一层期望,从而得到了一般化的 Rademacher 复杂度的定义。经验 Rademacher 复杂度和 Rademacher 复杂度的关系就如同概率论中掷硬币的观测序列和将其视为一个先验分布的随机变量序列一样。
4.7 【证明补充】引理4.6的证明解析
71页的定理4.6给出了泛化误差下界的形式化表述:
虽然不等式右边的常数
事实上,根据公式(4.50)的推导,只要选择一个小于
进一步分析发现,随着维度
至于常数
4.8 【证明补充】引理4.2补充
74页提出了引理4.2,这里给出完整的证明过程。
令
其中
证明
我们设想两枚硬币
用
如果
因此,当我们选取
注意到
根据 Slud 不等式,我们有:
根据第一章补充内容中的正态分布不等式推论,我们有:
此处
事实上,根据上面的推导,我们可以进一步提升泛化误差的下界,即:
在引理末尾处,提到了至少需要
此时,我们发现
4.9 【证明补充】引理4.7的补充
75页的定理4.7主要表达的是:无论算法有多强,在不可分的情况下,总会有某种“坏”分布使得输出假设的泛化误差以常数概率为
另外,(4.63)的第三步为何不直接利用引理4.2进行推导呢?这是考虑到函数
在76页左下角的最后一个脚注中,提到了
此外,(4.65)中用到了引理4.3。令
同时,(4.69)到(4.70)的推导中体现了充分条件的思想。由(4.69)可知:
其中
我们希望能推导出更为简洁的
即使得
值得注意的是,整个证明过程共进行了四次启发式限制,分别为
4.10 【概念解释】 -间隔损失函数的 Lipschitz 性
79页提到,由经验损失(公式4.72)可知
根据Lipschitz连续性的定义,我们可以通过拉格朗日中值定理来证明这一点。具体来说,由拉格朗日中值定理可得:
其中
已知
因此,根据Lipschitz条件的定义,
4.11 【证明补充】定理4.8补充
79页的定理4.8给出了关于间隔损失函数的分类问题SVM的泛化误差界。
此处存在一个小的错误:公式4.80前的 “代入 (4.96)” 应为 “代入 (4.76)”。
观察要证明的公式,我们发现这是关于 Rademacher 复杂度的泛化上界推理,自然地回顾一下 Rademacher 复杂度。
现实任务中样本标记有时会受到噪声影响,因此我们与其在假设空间
在此直接考虑利用前面讲到的关于实值假设空间中的期望与 Rademacher 复杂度的不等式。通过前面 4.73 讲到的关于间隔函数的经验间隔损失的式子,可以带入得到大体形式。
由于前面引理提到的关于 Lipschitz 函数的性质,结合
