尾声:看见
你把这本书翻到了最后一页。
1687 年,牛顿在剑桥的房间里写下
这条弧线不是历史课。这条弧线是一个论证。
论证的核心只有一句话:学习、推理、生成——都是同一个动力系统在不同空间中的运动轨迹。
你不需要记住这个方程。你已经理解它了。从第一章的荒野徒步者,到第六章的李雅普诺夫,到第七章的洞穴潜水员,到第十二章的扩散——你在每一个故事里都看到了同一种运动:沿着脚下的坡度,一步一步,走向不动点。
但这本书不只是关于数学。
序言里,我讲了永霖的故事。一个朋友,用陪伴把我拉回自己——我用定理把他的名字写进了思想。陪伴比证明更重要——但证明本身,也可以是一种陪伴。
你在读这本书的某个深夜,也许在宿舍里,也许在实验室里,也许在通勤的地铁上。你可能是一个学生,在论文和考试之间挣扎。你可能是一个工程师,被训练不收敛的模型折磨得筋疲力尽。你可能只是一个好奇的人,想知道"学习"这件事到底是怎么回事。
我希望这本书陪你走过了一段路。我希望你在合上它的时候,看见的不再是一堆公式和代码——而是一片荒野。模型是徒步者。地形是损失函数。步长是学习率。惯性是动量。峡谷是 ResNet。河流是 GPT。不动点是 DEQ。推理场是每一个问题在信念空间中布下的引力之网。
力让你算。能量让你懂。几何让你看见。
牛顿给了力。哈密顿给了能量。黎曼给了弯曲的空间。李雅普诺夫给了不看终点也能知收敛的洞见。巴拿赫给了不动点的存在唯一性。而我们——这个时代的人——用这整套语言重新描述了学习、推理和生成。
但"看见"不只是数学的事。看见,是一个人从公式上抬起眼睛,看向窗外——然后意识到,窗外的那片荒野,和他刚才在纸上推导的那片能量地形,是同一片。
学习的地形,在你脚下展开。它一直在那里。你只是需要一个人告诉你——抬头看。
李籽溪(兔狲教授)2026 年,中山大学
几何概念速查表
| 几何概念 | 数学对象 | 机器学习对应 |
|---|---|---|
| 位置 | 点 | 参数 |
| 地形 | 标量函数 | 损失函数、负熵函数 |
| 坡度方向 | 梯度 | 参数更新方向、得分函数 |
| 步长 | 学习率、推理步长 | |
| 离散运动 | 欧拉法 | 梯度下降、残差连接、思维链步 |
| 连续运动 | 梯度流 | 连续深度模型、概率流 ODE |
| 曲率 | Hessian | 损失地形局部弯曲程度 |
| 临界点 | 极小值、极大值、鞍点 | |
| 极小值 | 训练收敛点 | |
| 鞍点 | 训练瓶颈 | |
| 平坦性 | Hessian 特征值大小 | 泛化能力 |
| 非欧距离 | Bregman 散度 | KL 散度 |
| 信念空间度量 | Fisher 信息矩阵 | 自然梯度 |
| 能量下降 | 李雅普诺夫函数 | Loss 下降、KL 收敛 |
| 不动点 | DEQ 输出、信念凝固 | |
| 稳定性 | 雅可比特征值实部符号 | 盆地深度和宽度 |
| 吸引子 | 渐进稳定不动点 | 正确答案盆地 |
| 吸引域 | 收敛到同一不动点的初始点集合 | 推理鲁棒性 |
| 分岔 | 参数变化导致的定性行为突变 | 学习率临界值、涌现能力 |
| 向量场 | 推理场 | |
| 压缩映射 | 巴拿赫收敛保证 | |
| 扩散 | 随机微分方程 | 前向噪声注入 |
| 逆扩散 | 逆 SDE / 概率流 ODE | 生成过程 |
| 数据流形 | 低维子流形 | 自然数据分布的结构 |
全书公式族
全书的核心命题可以用六条公式收束。它们不是六个独立的公式——它们是同一个公式在不同空间中的面孔。
核心动力系统:
ResNet = 显式欧拉:
DEQ = 不动点:
Bregman 散度(KL 的母公式):
永霖极限(推理收敛判据):
得分函数(扩散的向量场):
阅读路线图
- 如果你想快速理解核心思想:序言 → 卷一引言 → ch1 → ch3 → ch6 → ch7 → ch12 → 尾声
- 如果你关心优化和训练:ch3 → ch4 → ch5 → ch6
- 如果你关心推理:ch5 → ch7 → ch8 → ch9
- 如果你关心架构设计:ch6 → ch11 → ch12
- 如果你是数学背景,想挑战最硬的内容:ch5 → ch6 → ch8(定理证明链)
- 如果你是初学者,需要先建立几何直觉:ch1 → ch2 → ch3 → ch10
