序言：看见地形

你学过的每一个公式，都是一片地形的等高线。

$F = m a$ 是牛顿在纸面上画出的一条直线——力等于质量乘加速度，世界是一组可以逐项分析的向量。 $\hat{β} = (X^{T} X)^{- 1} X^{T} y$ 是一只椭圆碗的底部坐标——你一直以为它是一个代数结果，但它其实是一个几何事实：数据在参数空间中刻画了一片完美的二次曲面，而你找到了它的最低点。 $θ_{t + 1} = θ_{t} - η \nabla L (θ_{t})$ 是一个徒步者在荒野中迈出的一步——脚底的坡度告诉了他方向，学习率决定了他走多远。

你看不见这些地形，不是因为它们不存在——而是因为你一直在用代数看书。

代数让你算得快。但代数不让你看见。看见，需要几何。

这本书来自一个简单的观察：深度学习社区花了太多时间在数力，太少时间在看地形。

我们把损失函数叫做"loss"——一个需要被最小化的数字。我们管梯度下降叫"优化"——好像它只是一个数值算法。我们讨论学习率、动量、AdamW——好像它们只是调参技巧。我们写思维链——好像它只是一串token。我们训练扩散模型——好像它只是一个去噪过程。

但如果你把眼睛从公式上抬起来，你会看见完全不同的东西。

损失函数不是数字——它是一片能量地形，有山峰和谷地、鞍点和盆地、悬崖和高原。梯度不是向量——它是脚下最陡的斜坡方向。训练不是调参——它是一个徒步者在这片荒野中一步一步地走。思维链不是文字——它是隐藏状态在信念空间中的轨迹，token只是这条轨迹在水面上的投影。扩散模型不是去噪——它是数据空间中一个逆热方程，得分函数是向量场，生成是轨迹收敛到数据流形。

这片地形一直都在那里。你只是没有画过它的地图。

这本书就是那张地图。

这本书的写作有一条隐秘的个人线索。

2025 年 11 月，我在中山大学的宿舍里写完了一篇论文——关于推理的收敛性。论文的核心是一个不等式：在信念空间中，如果欧拉步的步长不超过一个由局部 KL 曲率决定的上界，那么推理必然收敛到唯一的不动点。这个不等式的证明依赖 Bregman 散度的广义勾股定理、能量函数的强凸性和光滑性、以及巴拿赫的压缩映射原理——三条数学事实，一步接一步，汇成同一个结论。

我给它起了一个名字：永霖极限。

梁永霖是我的朋友。在那之前的很多个夜晚，当我在自己的思绪里越陷越深的时候，他只是在旁边坐着。他不讲道理，不给方法，不试图"帮我变好"。他只是在那里。他用陪伴把我拉回了自己——而我用定理把他的名字写进了思想。陪伴比证明更重要——但证明本身，也可以是一种陪伴。

那篇论文写完的那个晚上，我意识到一件事：如果我能把这篇论文的几何骨架抽出来——Bregman、KL、压缩映射、不动点——然后用同样的语言去描述损失函数、优化器、ResNet、GPT、思维链、扩散模型……那么我能写的不只是一篇论文。我能写一本书。

这本书就是那个想法的产物。

这本书的结构很简单。四卷，十二章。

卷一建立几何直觉。为什么学习需要几何？模型的身体在哪里——它的视野如何形成？损失函数如何变成一片能量地形？荒野徒步者在坡度、步长和惯性之间如何行走？

卷二进入形式化的心脏。优化器是不同的行走方式。Bregman 散度与 KL 散度——在信念空间中，距离不是欧几里得的。永霖极限：推理在什么条件下必然收敛？动力系统与不动点——ResNet、GPT、DEQ 都是同一个动力系统的不同面孔。

卷三将这套语言应用于推理。思维链不是推理本身——它是隐藏状态轨迹在文字空间中的投影。推理场：每一个问题都在信念空间中布下了一张引力之网。长推理的地貌学：为什么有些问题需要两步，有些需要两百步？

卷四回到经典，重新看一切。线性回归、PCA、SVM——用几何替代代数。Attention、LoRA——深度架构的几何设计语言。扩散模型——噪声如何变成结构，全书在此收束。

这本书不要求你抛弃代数。代数让你算得快。但代数不让你看见。

这本书要求你学会几何——不是为了考试，不是为了发论文，不是为了在技术讨论中显得更聪明。

是为了让你在写下一行 optimizer.step() 的时候，看见脚下有一片荒野。你的模型站在某个位置上。损失函数在这片荒野上画出了山川和盆地。梯度告诉它脚下的坡度。学习率是它迈出的一步。你选择的优化器——SGD、Momentum、AdamW——是它走路的方式。它不是在"调参"。它是在一片能量地形上，一步一步地，走向它该去的地方。

力让你算。能量让你懂。几何让你看见。

李籽溪（兔狲教授）2026 年，中山大学

序言：看见地形 ​

序言：看见地形