Skip to content

序言

编辑:詹好,赵志民,王茂霖


机器学习理论的成果与书籍

近年来,机器学习领域发展迅猛,相关的课程与教材层出不穷。国内的经典教材如周志华的 《机器学习》 和李航的 《统计学习方法》,为许多学子提供了机器学习的入门指引。而在国外,Tom Mitchell 的 Machine Learning、Richard O. Duda 等人的 Pattern Classification、Ethem Alpaydın 的 Introduction to Machine Learning 等书籍则提供了更为系统的学习路径。对于希望深入学习的读者,Christopher M. Bishop 的 Pattern Recognition and Machine Learning、Kevin P. Murphy 的 Machine Learning - A Probabilistic Perspective、Trevor Hastie 等人的 The Elements of Statistical Learning 等著作也能提供详尽的理论指导。这些书籍无论在国内外,都成为了学习机器学习的重要资源。

然而,从机器学习理论的角度来看,现有的学习材料仍存在不足之处。相比于聚焦机器学习算法的著作,专注于机器学习理论的书籍未得到足够的重视。尽管上述一些经典著作中涉及到理论探讨,但篇幅有限,往往仅以独立章节或片段呈现,难以满足深入研究的需求。

以往的机器学习理论经典教材大多为英文撰写。上世纪末围绕统计学习理论展开的讨论,催生了诸如 Vladimir Vapnik 的 The Nature of Statistical Learning TheoryStatistical Learning Theory,以及 Luc Devroye 等人的 A Probabilistic Theory of Pattern Recognition 等经典文献。近年来,Shai Shalev-Shwartz 和 Shalev Ben-David 的 Understanding Machine Learning,以及 Mehryar Mohri 等人的 Foundations of Machine Learning 进一步推进了这一领域的发展。虽然部分经典著作已有高质量的中文译本,但由中文作者撰写的机器学习理论入门书籍仍显不足。

如今,周志华、王魏、高尉、张利军等老师合著的 《机器学习理论导引》(以下简称《导引》)填补了这一空白。该书以通俗易懂的语言,为有志于学习和研究机器学习理论的读者提供了良好的入门指引。全书涵盖了 可学性、假设空间复杂度、泛化界、稳定性、一致性、收敛率、遗憾界 七个重要的概念和理论工具。

尽管学习机器学习理论可能不像学习算法那样能够立即应用,但只要持之以恒,深入探究,必将能够领悟到机器学习中的重要思想,并体会其中的深邃奥妙。

-- 詹好

机器学习理论的应用与反思

大模型时代最流行的信念莫过于:参数够多、数据够大、算力够强,任何问题终将被解决。代码生成、蛋白质结构预测、围棋博弈的突破似乎印证了这一判断。然而,这些成就无一例外地共享同一组前提条件:可验证的目标函数、有限的解空间、密集且结构化的反馈信号。一旦这些前提不再成立,无论是分布偏移下的强化学习、开放环境中的自主决策,还是参与者不断博弈的社会系统,规模的堆叠便不再带来相应的能力提升。问题的根源不在模型,而在任务本身的信息结构。

这一观察指向一个更深层的区分。一个函数是否可计算,即给定完整输入、算法能否在有限时间内给出正确输出,与它能否从数据中被学习,是两个截然不同的问题。AES 加密算法在给定密钥时可以精确执行,但仅从输入输出对中观察不出任何可供预测的规律。可计算性是闭世界的概念:信息完备,求解一次。可学习性是开世界的概念:信息逐步到达,渐进逼近。这一分离是理解机器学习理论的起点,也是本书围绕「可学习性」这一核心概念展开的根本原因。

在此基础上,本书的内容可以通过三个递进的「不等号」来理解。

能表示 ≠ 能学会。 通用逼近定理告诉我们,具有足够宽度的神经网络可以逼近任意连续函数。这一结果常被误读为「神经网络什么都能学」。然而,「存在某组参数使得网络逼近目标函数」与「通过有限数据和可行的优化过程找到这组参数」是根本不同的两件事。这就如同说一座图书馆藏有人类的全部知识,但如果你不知道答案在哪本书的哪一页,这个事实本身并不能帮你学会任何东西。本书第 2 章引入 PAC(概率近似正确)学习框架,将「能学会」从模糊的直觉转化为严格的数学定义:在多大概率下、需要多少样本、能将误差控制到多小。第 3 章进而通过 VC 维、Natarajan 维和 Rademacher 复杂度量化假设空间的有效复杂度:决定可学习性边界的,不是模型有多少参数,而是它在有限数据下有多少真正的自由度。

能学会 ≠ 学得好。 一个问题在理论上可学,不代表当前模型在当前数据上就学好了。训练集上的优异表现可能只是过拟合的幻象,考试及格不等于真正掌握。当前大语言模型中反复出现的幻觉现象与生成模型中的模式坍塌,并非简单的工程缺陷,而是学习问题在信息约束下的结构性代价:有效性、多样性与覆盖性之间存在不可避免的权衡。第 4 章给出泛化界:经验误差与真实误差之间到底差多少,在什么条件下可以控制这个差距。第 5 章从另一个角度考察同一个问题:如果替换训练集中的一个样本,模型的输出是否会剧烈变化?算法的稳定性直接决定了泛化的可靠性,两者的结合为我们提供了依赖于算法本身性质的学习保证。

学得好 ≠ 学到位。 即使泛化有了理论保证,三个追问依然悬而未决:当数据持续积累时,模型是否趋向最优?趋向最优的速度有多快?如果环境本身在变化,累积的损失还可控吗?第 6 章讨论一致性:在数据量趋于无穷时,学习算法是否收敛到贝叶斯最优分类器,这是对学习方法的终极检验。第 7 章量化收敛率:不仅要知道「最终能到」,还要知道「多快能到」,因为在现实的资源约束下,收敛速度往往比收敛本身更为关键。第 8 章转入在线学习的遗憾界:当数据以序列形式到达且不满足独立同分布假设时,算法的累积损失与事后最优策略之间的差距能否被有效控制。

由此可见,机器学习理论的意义并不在于为模型的能力划定一条悲观的上限,也不在于用不可能性结果否定实践的价值。恰恰相反,它通过揭示能力与限制所依赖的结构条件,赋予我们一种判断力:面对一个学习任务,能够区分「理论上可学」「实际上学好了」与「真正学到位了」三个层次,从而知道该在哪个环节发力。在一个人人都能调用大模型 API 的时代,对算法的肤浅使用不再构成壁垒;而能够理解学习何以可能、泛化何以可靠、收敛何以可期的人,才能在模型的成功与失败面前保持清醒、也更具想象力的判断。

理论不是学习的终点,而是实践的起点。希望这本钥匙书能帮读者打开那扇门。

-- 赵志民

机器学习理论的讲解与笔记

《导引》的讲解笔记在团队内部被亲切地称为《钥匙书》。“钥匙”寓意着帮助读者开启知识之门,解答学习中的疑惑。

《导引》作为一本理论性较强的著作,涵盖了大量数学定理和证明。尽管作者团队已尽力降低学习难度,但由于机器学习理论本身的复杂性,读者仍需具备较高的数学基础。这可能导致部分读者在学习过程中感到困惑,影响学习效果。此外,由于篇幅限制,书中对某些概念和理论的实例说明不足,也增加了理解的难度。

基于以上原因,我们决定编辑这本《钥匙书》作为参考笔记,对《导引》进行深入的注解和补充。其目的是帮助读者更快理解并掌握书中内容,同时记录我们在学习过程中的思考和心得。

《钥匙书》主要包含以下四个部分:

  1. 概念解释:介绍书中涉及但未详细阐释的相关概念。
  2. 证明补充:详细解释部分证明的思路,并补充书中省略的证明过程。
  3. 案例分享:增加相关实例,帮助读者加深对抽象概念的理解。

鉴于《导引》第一章的内容简明易懂,《钥匙书》从第二章开始详细展开。

对我个人而言,《机器学习理论导引》与Understanding Machine LearningFoundations of Machine Learning一样,都是既“无用”又“有用”的书籍。“无用”在于目前的经典机器学习理论尚难全面解释深度学习,尤其是现代生成式大模型的惊人表现。然而,我坚信未来的理论突破将基于现有研究成果,开创新的篇章。因此,分析结论可能并非最重要,真正宝贵的是其中蕴含的思想和分析思路。数学作为一种强有力的工具,能够帮助我们更深入地理解和探索。我期望未来的深度学习能够拥有更多坚实的理论支撑,从而更好地指导实践。正如费曼所言:“What I cannot create, I do not understand.”——“凡我不能创造,我就不能理解。”希望大家能从这些理论中获得启发,创造出更有意义的成果。

另一方面,这本书也让我认识到自身的不足。不同于传统的机器学习算法教材,本书要求读者具备良好的数学功底,通过数学工具从更抽象的角度分析机器学习算法的性质,而非算法本身。学习之路或许漫长,但正如《牧羊少年的奇幻漂流》中所言:“每个人的寻梦过程都是以‘新手的运气’为开端,又总是以‘对远征者的考验’收尾。”希望大家能坚持经历考验,最终实现自己的梦想。

自《钥匙书》v1.0 版本发布以来,受到了众多学习者的关注。我们也收到了许多关于教材内容的疑问。为进一步深入理解相关知识,并记录团队对机器学习理论相关书籍的学习过程,我们将持续对《钥匙书》进行不定期更新,期待大家的关注。

-- 王茂霖

项目成员贡献与特别鸣谢

詹好负责了项目的初期规划与统筹,并参与了第一版的编辑和审核;赵志民主导了项目二期的更新与维护,并负责全书最终编辑和校验;李一飞参与了第1-5章内容的编辑;王茂霖参与了第2-6章内容的编辑。

另外,特别鸣谢了谢文睿杨昱文,他们共同提供了本书的在线阅读功能;张雨对第2章的早期内容进行了修订,各成员的协作确保了本书高质量的编写和顺利完成。

基于 CC BY-NC-SA 4.0 许可协议