序言

编辑：詹好，赵志民，王茂霖

机器学习理论的成果与书籍

近年来，机器学习领域发展迅猛，相关的课程与教材层出不穷。国内的经典教材如周志华的《机器学习》和李航的《统计学习方法》，为许多学子提供了机器学习的入门指引。而在国外，Tom Mitchell 的 Machine Learning、Richard O. Duda 等人的 Pattern Classification、Ethem Alpaydın 的 Introduction to Machine Learning 等书籍则提供了更为系统的学习路径。对于希望深入学习的读者，Christopher M. Bishop 的 Pattern Recognition and Machine Learning、Kevin P. Murphy 的 Machine Learning - A Probabilistic Perspective、Trevor Hastie 等人的 The Elements of Statistical Learning 等著作也能提供详尽的理论指导。这些书籍无论在国内外，都成为了学习机器学习的重要资源。

然而，从机器学习理论的角度来看，现有的学习材料仍存在不足之处。相比于聚焦机器学习算法的著作，专注于机器学习理论的书籍未得到足够的重视。尽管上述一些经典著作中涉及到理论探讨，但篇幅有限，往往仅以独立章节或片段呈现，难以满足深入研究的需求。

以往的机器学习理论经典教材大多为英文撰写。上世纪末围绕统计学习理论展开的讨论，催生了诸如 Vladimir Vapnik 的 The Nature of Statistical Learning Theory 和 Statistical Learning Theory，以及 Luc Devroye 等人的 A Probabilistic Theory of Pattern Recognition 等经典文献。近年来，Shai Shalev-Shwartz 和 Shalev Ben-David 的 Understanding Machine Learning，以及 Mehryar Mohri 等人的 Foundations of Machine Learning 进一步推进了这一领域的发展。虽然部分经典著作已有高质量的中文译本，但由中文作者撰写的机器学习理论入门书籍仍显不足。

如今，周志华、王魏、高尉、张利军等老师合著的《机器学习理论导引》（以下简称《导引》）填补了这一空白。该书以通俗易懂的语言，为有志于学习和研究机器学习理论的读者提供了良好的入门指引。全书涵盖了 可学性、假设空间复杂度、泛化界、稳定性、一致性、收敛率、遗憾界 七个重要的概念和理论工具。

尽管学习机器学习理论可能不像学习算法那样能够立即应用，但只要持之以恒，深入探究，必将能够领悟到机器学习中的重要思想，并体会其中的深邃奥妙。

-- 詹好

机器学习理论的应用与反思

大模型时代最流行的信念莫过于：参数够多、数据够大、算力够强，任何问题终将被解决。代码生成、蛋白质结构预测、围棋博弈的突破似乎印证了这一判断。然而，这些成就无一例外地共享同一组前提条件：可验证的目标函数、有限的解空间、密集且结构化的反馈信号。一旦这些前提不再成立，无论是分布偏移下的强化学习、开放环境中的自主决策，还是参与者不断博弈的社会系统，规模的堆叠便不再带来相应的能力提升。问题的根源不在模型，而在任务本身的信息结构。

这一观察指向一个更深层的区分。一个函数是否可计算，即给定完整输入、算法能否在有限时间内给出正确输出，与它能否从数据中被学习，是两个截然不同的问题。AES 加密算法在给定密钥时可以精确执行，但仅从输入输出对中观察不出任何可供预测的规律。可计算性是闭世界的概念：信息完备，求解一次。可学习性是开世界的概念：信息逐步到达，渐进逼近。这一分离是理解机器学习理论的起点，也是本书围绕「可学习性」这一核心概念展开的根本原因。

在此基础上，本书的内容可以通过三个递进的「不等号」来理解。

能表示 ≠ 能学会。 通用逼近定理告诉我们，具有足够宽度的神经网络可以逼近任意连续函数。这一结果常被误读为「神经网络什么都能学」。然而，「存在某组参数使得网络逼近目标函数」与「通过有限数据和可行的优化过程找到这组参数」是根本不同的两件事。这就如同说一座图书馆藏有人类的全部知识，但如果你不知道答案在哪本书的哪一页，这个事实本身并不能帮你学会任何东西。本书第 2 章引入 PAC（概率近似正确）学习框架，将「能学会」从模糊的直觉转化为严格的数学定义：在多大概率下、需要多少样本、能将误差控制到多小。第 3 章进而通过 VC 维、Natarajan 维和 Rademacher 复杂度量化假设空间的有效复杂度：决定可学习性边界的，不是模型有多少参数，而是它在有限数据下有多少真正的自由度。

能学会 ≠ 学得好。 一个问题在理论上可学，不代表当前模型在当前数据上就学好了。训练集上的优异表现可能只是过拟合的幻象，考试及格不等于真正掌握。当前大语言模型中反复出现的幻觉现象与生成模型中的模式坍塌，并非简单的工程缺陷，而是学习问题在信息约束下的结构性代价：有效性、多样性与覆盖性之间存在不可避免的权衡。第 4 章给出泛化界：经验误差与真实误差之间到底差多少，在什么条件下可以控制这个差距。第 5 章从另一个角度考察同一个问题：如果替换训练集中的一个样本，模型的输出是否会剧烈变化？算法的稳定性直接决定了泛化的可靠性，两者的结合为我们提供了依赖于算法本身性质的学习保证。

学得好 ≠ 学到位。 即使泛化有了理论保证，三个追问依然悬而未决：当数据持续积累时，模型是否趋向最优？趋向最优的速度有多快？如果环境本身在变化，累积的损失还可控吗？第 6 章讨论一致性：在数据量趋于无穷时，学习算法是否收敛到贝叶斯最优分类器，这是对学习方法的终极检验。第 7 章量化收敛率：不仅要知道「最终能到」，还要知道「多快能到」，因为在现实的资源约束下，收敛速度往往比收敛本身更为关键。第 8 章转入在线学习的遗憾界：当数据以序列形式到达且不满足独立同分布假设时，算法的累积损失与事后最优策略之间的差距能否被有效控制。

由此可见，机器学习理论的意义并不在于为模型的能力划定一条悲观的上限，也不在于用不可能性结果否定实践的价值。恰恰相反，它通过揭示能力与限制所依赖的结构条件，赋予我们一种判断力：面对一个学习任务，能够区分「理论上可学」「实际上学好了」与「真正学到位了」三个层次，从而知道该在哪个环节发力。在一个人人都能调用大模型 API 的时代，对算法的肤浅使用不再构成壁垒；而能够理解学习何以可能、泛化何以可靠、收敛何以可期的人，才能在模型的成功与失败面前保持清醒、也更具想象力的判断。

理论不是学习的终点，而是实践的起点。希望这本钥匙书能帮读者打开那扇门。

-- 赵志民

机器学习理论的讲解与笔记

《导引》的讲解笔记在团队内部被亲切地称为《钥匙书》。“钥匙”寓意着帮助读者开启知识之门，解答学习中的疑惑。

《导引》作为一本理论性较强的著作，涵盖了大量数学定理和证明。尽管作者团队已尽力降低学习难度，但由于机器学习理论本身的复杂性，读者仍需具备较高的数学基础。这可能导致部分读者在学习过程中感到困惑，影响学习效果。此外，由于篇幅限制，书中对某些概念和理论的实例说明不足，也增加了理解的难度。

基于以上原因，我们决定编辑这本《钥匙书》作为参考笔记，对《导引》进行深入的注解和补充。其目的是帮助读者更快理解并掌握书中内容，同时记录我们在学习过程中的思考和心得。

《钥匙书》主要包含以下四个部分：

概念解释：介绍书中涉及但未详细阐释的相关概念。
证明补充：详细解释部分证明的思路，并补充书中省略的证明过程。
案例分享：增加相关实例，帮助读者加深对抽象概念的理解。

鉴于《导引》第一章的内容简明易懂，《钥匙书》从第二章开始详细展开。

对我个人而言，《机器学习理论导引》与Understanding Machine Learning和Foundations of Machine Learning一样，都是既“无用”又“有用”的书籍。“无用”在于目前的经典机器学习理论尚难全面解释深度学习，尤其是现代生成式大模型的惊人表现。然而，我坚信未来的理论突破将基于现有研究成果，开创新的篇章。因此，分析结论可能并非最重要，真正宝贵的是其中蕴含的思想和分析思路。数学作为一种强有力的工具，能够帮助我们更深入地理解和探索。我期望未来的深度学习能够拥有更多坚实的理论支撑，从而更好地指导实践。正如费曼所言：“What I cannot create, I do not understand.”——“凡我不能创造，我就不能理解。”希望大家能从这些理论中获得启发，创造出更有意义的成果。

另一方面，这本书也让我认识到自身的不足。不同于传统的机器学习算法教材，本书要求读者具备良好的数学功底，通过数学工具从更抽象的角度分析机器学习算法的性质，而非算法本身。学习之路或许漫长，但正如《牧羊少年的奇幻漂流》中所言：“每个人的寻梦过程都是以‘新手的运气’为开端，又总是以‘对远征者的考验’收尾。”希望大家能坚持经历考验，最终实现自己的梦想。

自《钥匙书》v1.0 版本发布以来，受到了众多学习者的关注。我们也收到了许多关于教材内容的疑问。为进一步深入理解相关知识，并记录团队对机器学习理论相关书籍的学习过程，我们将持续对《钥匙书》进行不定期更新，期待大家的关注。

-- 王茂霖

项目成员贡献与特别鸣谢

詹好负责了项目的初期规划与统筹，并参与了第一版的编辑和审核；赵志民主导了项目二期的更新与维护，并负责全书最终编辑和校验；李一飞参与了第1-5章内容的编辑；王茂霖参与了第2-6章内容的编辑。

另外，特别鸣谢了谢文睿和杨昱文，他们共同提供了本书的在线阅读功能；张雨对第2章的早期内容进行了修订，各成员的协作确保了本书高质量的编写和顺利完成。

序言 ​

机器学习理论的成果与书籍 ​

机器学习理论的应用与反思 ​

机器学习理论的讲解与笔记 ​

项目成员贡献与特别鸣谢 ​

序言

机器学习理论的成果与书籍

机器学习理论的应用与反思

机器学习理论的讲解与笔记

项目成员贡献与特别鸣谢