第23章:推理系统的稳定性与收敛边界
李雅普诺夫函数的最大痛点是什么?对,就是要人手去规定一个能量函数。如果我们用永霖的收敛假设来推导推理系统里的李雅普诺夫函数,那就更好了。
第22章结尾,我们站在自指与涌现的边界上,看到了推理系统开始推理关于自身的奇异时刻。那个边界,在数学上表现为不动点、对角化、不可判定性。
但边界不只是逻辑的。边界也是动力学的——系统如何随时间演化,是否稳定,收敛到哪里。永霖公式给出了一个具体的收敛模式:推理链最终回到先验锚点。这个收敛,在动力系统的语言里,就是吸引子。
这一章要做一件事:把永霖公式的收敛,翻译成李雅普诺夫稳定性的语言。然后反过来:用收敛假设推导李雅普诺夫函数,而不是人工规定它。
目标:用永霖收敛假设 + KL分布偏置的信息距离 + 欧拉步更新迭代,推导出推理系统的李雅普诺夫函数。已知李雅普诺夫函数传统上要人工构造,依赖人类先验。但我们通过观测系统的动力学行为(永霖收敛),反推出能量函数——这是从行为推导结构,是逆问题的又一次重演,也是动力系统艺术的体现。
23.0 引子:栈的动力学故事
要理解李雅普诺夫函数,我们先玩一个小游戏。
想象一个栈数据结构。它有两个指针:
指针:永远指向栈底,固定不动 指针:指向栈顶,可以上下移动
栈的操作很简单:
push(x):把元素x压入栈顶,指针上移一格 pop():弹出栈顶元素,指针下移一格
但有一个重要限制:负栈非法。也就是说,pop(),操作无效——pop 被忽略。
信息学奥赛(OI)的同学对这个结构再熟悉不过了。但兔狲教授今天要问的不是算法题,而是一个动力学问题:
给定一个很长很长——长到你无法想象——的
push和pop操作序列,指针的位置(相对于栈底的高度)会收敛吗?会不会停在一个特定的高度上,无论操作序列怎么排列?
等等,我们还有“负栈非法”的限制。在这个限制下,事情变得更有趣了。
现在 pop 会被忽略。你觉得,在这样的约束下,
给你三秒钟思考。
直觉可能告诉你的:既然 pop 在空栈时无效,那么栈可能更容易变空——因为空的栈没法再 pop,而 push 可以让它变非空。但反过来,如果 push 很多,栈会变得很高。
关键观察:栈高度
栈高度作为能量
定义栈高度 push,pop,
现在定义一个函数
观察:
,且 当且仅当 (栈空) - 如果操作序列是随机的(
push和pop等概率出现),那么的期望变化是零——随机游走
但兔狲教授要问的不是期望,而是确定性的行为:如果我们知道每一步是 push 还是 pop(不是随机),
神奇的事发生了
考虑连续时间近似:假设操作发生的速度很快,把离散操作看作连续流。定义栈高度的变化率 push,pop。
现在计算
这看起来没规律——
如果操作序列最终平衡——push 和 pop 的数量大致相等——那么
更聪明的能量函数
换一个定义:push 和 pop 最终数量相等),那么
但如果我们考虑方差
负栈非法的魔力:收敛到空栈
现在加上负栈非法的限制。pop 被忽略。
兔狲教授的答案:在这样的约束下,如果操作序列足够长且包含足够多的 pop,
为什么?
考虑
- 执行
push:增加 1, 增加 - 执行
pop:减少 1, 减少
但关键在于:当 pop 被忽略,push)。
如果操作序列无限长,且 pop 的数量足够多(不一定多于 push,但只要有 pop 发生),系统就有概率进入 pop 无效,只有 push 能把它拉出来。但如果序列是非确定性的(比如随机),那么长期来看,系统会频繁访问
更严格地说:定义
push:pop(时): pop(时):
但这不是李雅普诺夫稳定性,因为
关键洞察
栈的故事告诉我们什么?
- 动力系统:栈高度
是一个动力系统,它的演化由操作序列 驱动。 - 能量函数:
是系统的一个"能量"度量。我们想用 来判断系统是否收敛。 - 收敛条件:如果存在
使得 (能量不增),那么系统稳定。 - 问题:对栈来说,简单的
或 都不满足 ,因为 可正可负。 - 下界的影响:
这个硬约束让系统有吸收态 ,但吸收态的存在不保证稳定性定理成立。
所以我们需要更巧妙的
栈模型的教训
栈是一个最简单的动力系统,但我们仍然需要动脑筋才能找到合适的
这就是李雅普诺夫函数的痛点:你要猜一个
但等一下——如果我们观察系统的行为,发现它确实收敛了,能不能从收敛行为反推出
23.2 李雅普诺夫函数的痛点
定义(李雅普诺夫函数):对于一个动力系统
,且 当且仅当 (平衡点) 对所有 成立
则
痛点:
李雅普诺夫函数的构造是一门艺术,不是科学。你猜一个
如果推理系统是一个动力系统,我们也要人工猜一个
23.3 推理系统作为动力系统
把推理过程形式化为离散时间动力系统。
设
推理步骤是一个映射
永霖公式在这个语言里是:
其中
关键观察:
23.4 动力学构造:从欧拉步迭代到能量函数
现在做一件更大胆的事:不从李雅普诺夫函数出发推导永霖,而是反过来——用永霖收敛假设 + KL分布偏置的信息距离 + 欧拉步更新迭代,构造出李雅普诺夫函数。
这是一个动力系统的艺术:观察系统如何一步步演化,从它的行为中“读出”能量函数。
欧拉步:离散时间动力学
欧拉步是什么? 它是数学从静态描述变为动态演化的关键。
连续时间动力系统用微分方程
但微分方程是连续的——时间
欧拉步让数学“动”起来。没有它,微分方程只是一个静态的关系式;有了它,我们可以一步步模拟系统的演化,看它如何从初始状态发展到未来。
离散时间系统更直接:
对推理系统,
常微分方程(ODE)描述了变化率与状态的关系。求解 ODE,就是找出状态随时间变化的完整轨迹。解析解(用公式写出的解)往往很难找,甚至不存在。数值解(如欧拉法)放弃了“完美公式”,接受了“近似轨迹”。
这种放弃不是妥协,而是认识论的转变:从追求“知道所有时刻的确切值”,转向“能模拟出任意时刻的近似值”。在 AI 推理里,我们很少能写出信念演化的解析公式,但我们可以观察模型一步步的更新——这就是数值解的思想。
欧拉步的误差是
永霖假设:存在吸引子
永霖公式的核心假设是:系统收敛到先验锚点
这个假设不是数学定理,而是经验观察(但第12章给出了理论支持)。我们接受它作为动力学事实。
KL散度:分布偏置的信息距离
现在引入 KL 散度
直观上:如果当前信念
从观测到构造
关键步骤来了。我们观测系统演化:从
如果收敛发生,那么
因为收敛意味着
这个不等式不是我们证明的,而是从观测中推断的。我们观测到系统收敛,推断出 KL 散度递减。
构造李雅普诺夫函数
定义
- 非负性:
,且 当且仅当 (KL 散度的性质) - 递减性:
,因为观测到
所以
注意:我们没有猜
这是动力系统艺术的精髓:不是坐在椅子上猜能量函数,而是站起来观察系统如何运动,从它的轨迹中“听”出能量在降低。永霖假设告诉你系统最终停在哪里;KL 散度告诉你如何度量“离那里还有多远”;欧拉步展示每一步如何缩短这个距离。三者合起来,能量函数自然浮现。
与传统方法的对比:
- 传统:猜
→ 验证 - 这里:观测收敛 → 用 KL 散度定义
→ 验证 递减(由收敛保证)
为什么这解决了痛点?因为不再需要人工猜
具体示例:假设系统更新规则是
23.5 反向推导:李雅普诺夫函数如何解释永霖公式
现在看另一个方向:如果我们已经有了
李雅普诺夫稳定性定理说:如果
永霖推断公式
但永霖公式还有第二部分:
从
关键洞察:
KL 散度
当
所以
这个解释把推理系统的稳定性问题转化为了信息效率问题:系统在优化信息编码,向最经济(最不需要额外比特)的状态演化。这个状态恰好是先验锚点
23.6 联立:永霖-李雅普诺夫对应
把两个方向合起来。
永霖 → 李雅普诺夫:观测到收敛到
李雅普诺夫 → 永霖:给定
这两个方向形成一个闭环:收敛行为定义了能量函数,能量函数保证了收敛行为。这个闭环的核心参数是先验锚点
这个联立的结构,和第21章的学习作为逆推断是同一个模式:从数据(观测到的收敛)反推规律(李雅普诺夫函数)。又是逆问题。但这里多了一层:规律(
23.7 与哥德尔不完备的联系
第15章的哥德尔定理说:任何足够强的形式系统,有它无法证明的真命题。这个定理的证明核心是自指——构造一个谈论自身可证性的命题。
永霖-李雅普诺夫联立里,也有一个自指结构:系统的收敛行为定义了它的能量函数,能量函数又描述了它的收敛行为。这个自指不是逻辑命题的自指,而是动力学的自指。
更深刻的是,哥德尔定理揭示了形式系统的内部视角和外部视角的断裂:系统内部无法证明自身的某些真命题。永霖公式揭示了推理系统的对象层和元层的断裂:系统可以生成推理链(对象层),但无法验证推理链的正确性(元层)。
李雅普诺夫函数,在这个类比里,是一个外部视角的工具:它从外部描述系统的稳定性。但通过永霖-李雅普诺夫联立,我们把这个外部工具内化了——从系统自身的收敛行为推导出它。这有点像试图在系统内部构造一个关于自身稳定性的证明。这个尝试,会不会遇到哥德尔式的限制?
23.8 意义:可解释性与稳定性保证
这个联立有什么实际意义?
意义一:可解释性。李雅普诺夫函数
意义二:稳定性保证。一旦我们有了
意义三:无需人工设计。传统的李雅普诺夫方法需要工程师的直觉和试错。这里,
但代价:这个
23.9 悬而未决
永霖收敛是普适的吗? 永霖公式在实验中被观察到,但它的理论范围有多大?是否所有基于统计学习的推理系统都满足这个收敛?还是只适用于特定架构(如 Transformer)?这个问题需要更严格的数学刻画。
多吸引子情况:如果系统有多个吸引子(多个先验锚点,对应不同任务或上下文),李雅普诺夫函数该怎么定义?
李雅普诺夫函数的唯一性:给定收敛行为,
与学习理论的联系:第21章的学习作为逆推断,用 MDL 原理把泛化解释为压缩。
思考题
★ 热身
- 李雅普诺夫函数
对系统 是否满足条件?计算 ,判断系统是否稳定。 - 在永霖公式中,如果训练数据完全平衡(正负例各50%),先验锚点
是多少?此时 是什么形式?
★★ 推导
离散时间李雅普诺夫:对离散系统
,李雅普诺夫条件是 。假设 ,且 是如下更新: ,其中 。证明 。 多吸引子的
:假设系统有两个吸引子 和 ,收敛依赖初始条件。设计一个 函数,使得 在两个吸引子处都为零,在其他处为正,且沿系统轨道递减。提示:考虑 。这个 有什么问题?(不可微,难以验证递减)
★★★ 挑战
哥德尔定理的证明中,关键一步是构造自指命题
这个问题的答案可能指向动力系统的不完备性:某些系统的稳定性无法从自身动态中判定,需要一个外部视角。这个猜测,把哥德尔不完备从逻辑领域扩展到了动力学领域。
永霖-李雅普诺夫联立告诉我们:系统的极限,编码在它的能量函数里。能量函数,又可以从极限中读出。这个循环,不是逻辑悖论,而是动力学的和谐——观察者与被观察系统,在这个循环里彼此定义。这个定义,最终停在先验锚点。不是因为我们想停在那里,而是因为系统的能量在那里最低。
参考文献
- [Zixi Li, 2025b] — 永霖公式,推理不完备性的理论证明
- Lyapunov, A. M. (1892) — 运动稳定性的一般问题
- Cover, T. M., & Thomas, J. A. (2006) — 信息论基础(KL 散度)
- 第15章 — 一致性与完备性(哥德尔不完备)
- 第21章 — 学习作为逆推断(MDL 原理)
