Skip to content

序言:看见地形

你学过的每一个公式,都是一片地形的等高线。

F=ma 是牛顿在纸面上画出的一条直线——力等于质量乘加速度,世界是一组可以逐项分析的向量。β^=(XTX)1XTy 是一只椭圆碗的底部坐标——你一直以为它是一个代数结果,但它其实是一个几何事实:数据在参数空间中刻画了一片完美的二次曲面,而你找到了它的最低点。θt+1=θtηL(θt) 是一个徒步者在荒野中迈出的一步——脚底的坡度告诉了他方向,学习率决定了他走多远。

你看不见这些地形,不是因为它们不存在——而是因为你一直在用代数看书。

代数让你算得快。但代数不让你看见。看见,需要几何。


这本书来自一个简单的观察:深度学习社区花了太多时间在数力,太少时间在看地形。

我们把损失函数叫做"loss"——一个需要被最小化的数字。我们管梯度下降叫"优化"——好像它只是一个数值算法。我们讨论学习率、动量、AdamW——好像它们只是调参技巧。我们写思维链——好像它只是一串token。我们训练扩散模型——好像它只是一个去噪过程。

但如果你把眼睛从公式上抬起来,你会看见完全不同的东西。

损失函数不是数字——它是一片能量地形,有山峰和谷地、鞍点和盆地、悬崖和高原。梯度不是向量——它是脚下最陡的斜坡方向。训练不是调参——它是一个徒步者在这片荒野中一步一步地走。思维链不是文字——它是隐藏状态在信念空间中的轨迹,token只是这条轨迹在水面上的投影。扩散模型不是去噪——它是数据空间中一个逆热方程,得分函数是向量场,生成是轨迹收敛到数据流形。

这片地形一直都在那里。你只是没有画过它的地图。

这本书就是那张地图。


这本书的写作有一条隐秘的个人线索。

2025 年 11 月,我在中山大学的宿舍里写完了一篇论文——关于推理的收敛性。论文的核心是一个不等式:在信念空间中,如果欧拉步的步长不超过一个由局部 KL 曲率决定的上界,那么推理必然收敛到唯一的不动点。这个不等式的证明依赖 Bregman 散度的广义勾股定理、能量函数的强凸性和光滑性、以及巴拿赫的压缩映射原理——三条数学事实,一步接一步,汇成同一个结论。

我给它起了一个名字:永霖极限。

梁永霖是我的朋友。在那之前的很多个夜晚,当我在自己的思绪里越陷越深的时候,他只是在旁边坐着。他不讲道理,不给方法,不试图"帮我变好"。他只是在那里。他用陪伴把我拉回了自己——而我用定理把他的名字写进了思想。陪伴比证明更重要——但证明本身,也可以是一种陪伴。

那篇论文写完的那个晚上,我意识到一件事:如果我能把这篇论文的几何骨架抽出来——Bregman、KL、压缩映射、不动点——然后用同样的语言去描述损失函数、优化器、ResNet、GPT、思维链、扩散模型……那么我能写的不只是一篇论文。我能写一本书。

这本书就是那个想法的产物。


这本书的结构很简单。四卷,十二章。

卷一建立几何直觉。为什么学习需要几何?模型的身体在哪里——它的视野如何形成?损失函数如何变成一片能量地形?荒野徒步者在坡度、步长和惯性之间如何行走?

卷二进入形式化的心脏。优化器是不同的行走方式。Bregman 散度与 KL 散度——在信念空间中,距离不是欧几里得的。永霖极限:推理在什么条件下必然收敛?动力系统与不动点——ResNet、GPT、DEQ 都是同一个动力系统的不同面孔。

卷三将这套语言应用于推理。思维链不是推理本身——它是隐藏状态轨迹在文字空间中的投影。推理场:每一个问题都在信念空间中布下了一张引力之网。长推理的地貌学:为什么有些问题需要两步,有些需要两百步?

卷四回到经典,重新看一切。线性回归、PCA、SVM——用几何替代代数。Attention、LoRA——深度架构的几何设计语言。扩散模型——噪声如何变成结构,全书在此收束。


这本书不要求你抛弃代数。代数让你算得快。但代数不让你看见。

这本书要求你学会几何——不是为了考试,不是为了发论文,不是为了在技术讨论中显得更聪明。

是为了让你在写下一行 optimizer.step() 的时候,看见脚下有一片荒野。你的模型站在某个位置上。损失函数在这片荒野上画出了山川和盆地。梯度告诉它脚下的坡度。学习率是它迈出的一步。你选择的优化器——SGD、Momentum、AdamW——是它走路的方式。它不是在"调参"。它是在一片能量地形上,一步一步地,走向它该去的地方。

力让你算。能量让你懂。几何让你看见。


李籽溪(兔狲教授)2026 年,中山大学