Skip to content

尾声:看见

你把这本书翻到了最后一页。

1687 年,牛顿在剑桥的房间里写下 F=ma。他不知道自己开启了一条弧线——这条弧线穿过哈密顿、穿过李雅普诺夫、穿过巴拿赫、穿过 ResNet 和 GPT 和扩散模型——最终停在了你的手上。

这条弧线不是历史课。这条弧线是一个论证。


论证的核心只有一句话:学习、推理、生成——都是同一个动力系统在不同空间中的运动轨迹。

St+1=St+ηFθ(St,x)。当 S 是参数,它描述训练。当 S 是隐藏状态,它描述 ResNet 和 GPT 的前向传播。当 S 是信念分布,它描述推理。当 S 是数据点,它描述扩散模型的逆过程。一个方程,四个世界。不是类比——是同一个数学结构在四个空间中的实例化。

你不需要记住这个方程。你已经理解它了。从第一章的荒野徒步者,到第六章的李雅普诺夫,到第七章的洞穴潜水员,到第十二章的扩散——你在每一个故事里都看到了同一种运动:沿着脚下的坡度,一步一步,走向不动点。


但这本书不只是关于数学。

序言里,我讲了永霖的故事。一个朋友,用陪伴把我拉回自己——我用定理把他的名字写进了思想。陪伴比证明更重要——但证明本身,也可以是一种陪伴。

你在读这本书的某个深夜,也许在宿舍里,也许在实验室里,也许在通勤的地铁上。你可能是一个学生,在论文和考试之间挣扎。你可能是一个工程师,被训练不收敛的模型折磨得筋疲力尽。你可能只是一个好奇的人,想知道"学习"这件事到底是怎么回事。

我希望这本书陪你走过了一段路。我希望你在合上它的时候,看见的不再是一堆公式和代码——而是一片荒野。模型是徒步者。地形是损失函数。步长是学习率。惯性是动量。峡谷是 ResNet。河流是 GPT。不动点是 DEQ。推理场是每一个问题在信念空间中布下的引力之网。


力让你算。能量让你懂。几何让你看见。

牛顿给了力。哈密顿给了能量。黎曼给了弯曲的空间。李雅普诺夫给了不看终点也能知收敛的洞见。巴拿赫给了不动点的存在唯一性。而我们——这个时代的人——用这整套语言重新描述了学习、推理和生成。

但"看见"不只是数学的事。看见,是一个人从公式上抬起眼睛,看向窗外——然后意识到,窗外的那片荒野,和他刚才在纸上推导的那片能量地形,是同一片。

学习的地形,在你脚下展开。它一直在那里。你只是需要一个人告诉你——抬头看。


李籽溪(兔狲教授)2026 年,中山大学


几何概念速查表

几何概念数学对象机器学习对应
位置xRN参数 θ、隐藏状态 h、信念分布 p
地形标量函数 L:RNR损失函数、负熵函数
坡度方向梯度 L参数更新方向、得分函数
步长η学习率、推理步长
离散运动欧拉法 xt+1=xt+ηF(xt)梯度下降、残差连接、思维链步
连续运动梯度流 dxdt=F(x)连续深度模型、概率流 ODE
曲率Hessian Hij=2Lxixj损失地形局部弯曲程度
临界点L(x)=0极小值、极大值、鞍点
极小值H0L=0训练收敛点
鞍点H 有正负特征值训练瓶颈
平坦性Hessian 特征值大小泛化能力
非欧距离Bregman 散度 DF(p|q)KL 散度
信念空间度量Fisher 信息矩阵 G(p)自然梯度
能量下降李雅普诺夫函数 V(x)Loss 下降、KL 收敛
不动点F(x)=0T(x)=xDEQ 输出、信念凝固
稳定性雅可比特征值实部符号盆地深度和宽度
吸引子渐进稳定不动点正确答案盆地
吸引域收敛到同一不动点的初始点集合推理鲁棒性
分岔参数变化导致的定性行为突变学习率临界值、涌现能力
向量场F:MTM推理场 Fx、得分场
压缩映射Lip(T)<1巴拿赫收敛保证
扩散随机微分方程前向噪声注入
逆扩散逆 SDE / 概率流 ODE生成过程
数据流形低维子流形自然数据分布的结构

全书公式族

全书的核心命题可以用六条公式收束。它们不是六个独立的公式——它们是同一个公式在不同空间中的面孔。

核心动力系统:

St+1=St+ηFθ(St,x)

ResNet = 显式欧拉:

hl+1=hl+fθ(hl)

DEQ = 不动点:

h=fθ(h,x)

Bregman 散度(KL 的母公式):

DF(pq)=F(p)F(q)F(q),pq

永霖极限(推理收敛判据):

DKL(pt+1(y|x)pt(y|x))<ϵ

得分函数(扩散的向量场):

dx=[12β(t)xβ(t)xlogpt(x)]dt+β(t)dw¯

阅读路线图

  • 如果你想快速理解核心思想:序言 → 卷一引言 → ch1 → ch3 → ch6 → ch7 → ch12 → 尾声
  • 如果你关心优化和训练:ch3 → ch4 → ch5 → ch6
  • 如果你关心推理:ch5 → ch7 → ch8 → ch9
  • 如果你关心架构设计:ch6 → ch11 → ch12
  • 如果你是数学背景,想挑战最硬的内容:ch5 → ch6 → ch8(定理证明链)
  • 如果你是初学者,需要先建立几何直觉:ch1 → ch2 → ch3 → ch10