尾声：看见

你把这本书翻到了最后一页。

1687 年，牛顿在剑桥的房间里写下 $F = m a$ 。他不知道自己开启了一条弧线——这条弧线穿过哈密顿、穿过李雅普诺夫、穿过巴拿赫、穿过 ResNet 和 GPT 和扩散模型——最终停在了你的手上。

这条弧线不是历史课。这条弧线是一个论证。

论证的核心只有一句话：学习、推理、生成——都是同一个动力系统在不同空间中的运动轨迹。

$S_{t + 1} = S_{t} + η F_{θ} (S_{t}, x)$ 。当 $S$ 是参数，它描述训练。当 $S$ 是隐藏状态，它描述 ResNet 和 GPT 的前向传播。当 $S$ 是信念分布，它描述推理。当 $S$ 是数据点，它描述扩散模型的逆过程。一个方程，四个世界。不是类比——是同一个数学结构在四个空间中的实例化。

你不需要记住这个方程。你已经理解它了。从第一章的荒野徒步者，到第六章的李雅普诺夫，到第七章的洞穴潜水员，到第十二章的扩散——你在每一个故事里都看到了同一种运动：沿着脚下的坡度，一步一步，走向不动点。

但这本书不只是关于数学。

序言里，我讲了永霖的故事。一个朋友，用陪伴把我拉回自己——我用定理把他的名字写进了思想。陪伴比证明更重要——但证明本身，也可以是一种陪伴。

你在读这本书的某个深夜，也许在宿舍里，也许在实验室里，也许在通勤的地铁上。你可能是一个学生，在论文和考试之间挣扎。你可能是一个工程师，被训练不收敛的模型折磨得筋疲力尽。你可能只是一个好奇的人，想知道"学习"这件事到底是怎么回事。

我希望这本书陪你走过了一段路。我希望你在合上它的时候，看见的不再是一堆公式和代码——而是一片荒野。模型是徒步者。地形是损失函数。步长是学习率。惯性是动量。峡谷是 ResNet。河流是 GPT。不动点是 DEQ。推理场是每一个问题在信念空间中布下的引力之网。

力让你算。能量让你懂。几何让你看见。

牛顿给了力。哈密顿给了能量。黎曼给了弯曲的空间。李雅普诺夫给了不看终点也能知收敛的洞见。巴拿赫给了不动点的存在唯一性。而我们——这个时代的人——用这整套语言重新描述了学习、推理和生成。

但"看见"不只是数学的事。看见，是一个人从公式上抬起眼睛，看向窗外——然后意识到，窗外的那片荒野，和他刚才在纸上推导的那片能量地形，是同一片。

学习的地形，在你脚下展开。它一直在那里。你只是需要一个人告诉你——抬头看。

李籽溪（兔狲教授）2026 年，中山大学

几何概念速查表

几何概念	数学对象	机器学习对应
位置	点 $x \in R^{N}$	参数 $θ$ 、隐藏状态 $h$ 、信念分布 $p$
地形	标量函数 $L : R^{N} \to R$	损失函数、负熵函数
坡度方向	梯度 $\nabla L$	参数更新方向、得分函数
步长	$η$	学习率、推理步长
离散运动	欧拉法 $x_{t + 1} = x_{t} + η F (x_{t})$	梯度下降、残差连接、思维链步
连续运动	梯度流 $\frac{d x}{d t} = F (x)$	连续深度模型、概率流 ODE
曲率	Hessian $H_{i j} = \frac{\partial^{2} L}{\partial x_{i} \partial x_{j}}$	损失地形局部弯曲程度
临界点	$\nabla L (x^{*}) = 0$	极小值、极大值、鞍点
极小值	$H ≻ 0$ 且 $\nabla L = 0$	训练收敛点
鞍点	$H$ 有正负特征值	训练瓶颈
平坦性	Hessian 特征值大小	泛化能力
非欧距离	Bregman 散度 $D_{F} (p \| q)$	KL 散度
信念空间度量	Fisher 信息矩阵 $G (p)$	自然梯度
能量下降	李雅普诺夫函数 $V (x) ↘$	Loss 下降、KL 收敛
不动点	$F (x^{}) = 0$ 或 $T (x^{}) = x^{*}$	DEQ 输出、信念凝固
稳定性	雅可比特征值实部符号	盆地深度和宽度
吸引子	渐进稳定不动点	正确答案盆地
吸引域	收敛到同一不动点的初始点集合	推理鲁棒性
分岔	参数变化导致的定性行为突变	学习率临界值、涌现能力
向量场	$F : M \to T M$	推理场 $F_{x}$ 、得分场
压缩映射	$Lip (T) < 1$	巴拿赫收敛保证
扩散	随机微分方程	前向噪声注入
逆扩散	逆 SDE / 概率流 ODE	生成过程
数据流形	低维子流形	自然数据分布的结构

全书公式族

全书的核心命题可以用六条公式收束。它们不是六个独立的公式——它们是同一个公式在不同空间中的面孔。

核心动力系统：

S_{t + 1} = S_{t} + η F_{θ} (S_{t}, x)

ResNet = 显式欧拉：

h_{l + 1} = h_{l} + f_{θ} (h_{l})

DEQ = 不动点：

h^{*} = f_{θ} (h^{*}, x)

Bregman 散度（KL 的母公式）：

D_{F} (p ∥ q) = F (p) - F (q) - ⟨ \nabla F (q), p - q ⟩

永霖极限（推理收敛判据）：

D_{KL} (p_{t + 1} (y | x) ∥ p_{t} (y | x)) < ϵ

得分函数（扩散的向量场）：

d x = [- \frac{1}{2} β (t) x - β (t) \nabla_{x} \log p_{t} (x)] d t + \sqrt{β (t)} d \bar{w}

阅读路线图

如果你想快速理解核心思想：序言 → 卷一引言 → ch1 → ch3 → ch6 → ch7 → ch12 → 尾声
如果你关心优化和训练：ch3 → ch4 → ch5 → ch6
如果你关心推理：ch5 → ch7 → ch8 → ch9
如果你关心架构设计：ch6 → ch11 → ch12
如果你是数学背景，想挑战最硬的内容：ch5 → ch6 → ch8（定理证明链）
如果你是初学者，需要先建立几何直觉：ch1 → ch2 → ch3 → ch10

尾声：看见 ​

几何概念速查表 ​

全书公式族 ​

阅读路线图 ​

尾声：看见

几何概念速查表

全书公式族

阅读路线图