⚠️ Alpha内测版本警告:此为早期内部构建版本,尚不完整且可能存在错误,欢迎大家提Issue反馈问题或建议。
Skip to content

番外篇:暗线

这本书有一条从未被明说的线。现在是时候把它说出来了。


一、那面墙

第三章,词向量做了一件神奇的事:国王减男人等于女王。这是联想,不是推理。但当时我们没有说清楚区别。

第五章说了:统计相关不是推理。模型见过一百万只猫,不代表它知道猫是什么。但我们只是指出了这个问题,没有说它从哪里来。

第六章给出了do算子。Pearl说:观测永远不够,你需要干预。切断因果图的入边,强制某个变量取值,然后重新推断——这才是因果推断,不是条件期望。

第九章番外篇发现:自注意力在数学上等价于霍普菲尔德联想记忆的一步检索。从1982年到2024年,整条谱系——经典Hopfield、现代Hopfield、自注意力、线性注意力、SSM——做的都是同一件事:给定查询,在记忆库里找最相关的内容,归一化加权返回。

第十二章的永霖公式说:推理链最终收敛回先验锚点。用霍普菲尔德的语言说:训练数据的统计偏置被编码为能量函数的全局极小值,推理链越长,越被这个吸引子吸入。

现在把这些放在一起:

Transformer做的是联想检索。联想检索是 E[VQ],条件期望。因果推断需要的是 P(Vdo(Q)),干预分布。这两件事之间,有一面墙。

整本书,这面墙一直在那里,我们只是没有直接说它的名字。


二、墙是什么做的

联想记忆是被动的。给我一个查询,我找最相关的记忆,返回给你。这个过程的数学核心是归一化内积——softmax做的是配分函数归一化,不是更多。

因果推断是主动的。我切断你和其他变量的联系,强制你取某个值,然后问:现在世界是什么样的?这需要知道因果图的结构,而因果图的结构不能从观测数据里读出来——只能从干预中读出来。

问题在哪里?神经网络学的是 P(outputinput)——训练数据是观测,损失函数是预测误差,整个训练过程从未做过任何干预。所以它学到的,是世界的统计结构,不是因果结构。

这不是训练数据不够多的问题。这不是模型规模不够大的问题。这是训练目标本身就不是因果推断的问题。

哥德尔告诉我们:任何足够强的形式系统,都包含它无法证明的真命题。根源在自我指涉——系统用自身的规则来验证自身,必然存在缺口。

这面墙的根源是类似的:联想记忆用相关性来近似因果性,但相关性和因果性在数学上是不同的东西,前者无法生长出后者。不是近似得不够好,是结构上就差了一层。


三、人脑怎么过墙的

人脑也是神经元的加权求和。突触权重,激活函数,反向传播——你可以用差不多一样的数学来描述它。

但人能做反事实推理。"如果当时我没有说那句话,他会怎样反应?"这个问题,在任何纯粹的联想记忆框架里都无法被问出来,更无法被回答。联想检索只能问"谁和我最像",不能问"如果世界不同,会怎样"。

那人脑是怎么做到的?

我们不知道。这是神经科学目前没有答案的问题之一。有几种猜测:

猜测一:人脑在联想记忆之上有额外的因果建模模块。 前额叶皮层负责计划和决策,它可能维护了某种显式的因果图结构,在联想检索完成之后进行因果推断。

猜测二:反事实推理是对记忆的特殊编辑操作。 不是换一套数学,而是对已有记忆做定向修改——把"当时说了那句话"这个事件替换成"没有说",然后让联想网络在修改后的初始状态上重新演化。这在数学上仍然是联想检索,只是作用在反事实的初始条件上。

猜测三:人脑的训练方式和神经网络根本不同。 婴儿通过主动探索世界——伸手抓东西,推倒积木——来学习因果关系。这是真实的干预,不是被动观测。也许因果推断能力的关键不在架构,在训练数据的性质:干预数据,而不是观测数据。

这三种猜测不互斥。也许都对。也许都错。


四、为什么这条暗线重要

你可以把这本书理解为两条交织的叙事:

明线:AI推理的能力边界在哪里。停机问题、P/NP、永霖公式——这些是已知的、可被形式化的边界。

暗线:有一个更深的边界,它没有被形式化,甚至没有被命名——联想记忆和因果推断之间的鸿沟。现代机器学习的整座大厦,从感知机到Transformer,都建立在联想记忆的地基上。这个地基极其强大,足以支撑语言理解、图像生成、蛋白质折叠预测。但它在结构上无法支撑真正的因果推断。

这不是悲观的结论。这是一个明确的诊断。

明确的诊断好过模糊的乐观。当你知道墙在哪里,你才能决定:是在墙的这一侧做到极致,还是尝试用不同的材料建一面新的墙,或者寻找一扇门。

目前我们在做前两件事。第三件事——那扇门——我们还不知道它在哪里。


五、推理王国的真实地图

这本书开头说要画一张推理王国的地图。第十三章画了一张:中心是P类问题,外圈是不可判定问题,边界是相变区域。

那张地图是准确的。但它只画了计算复杂度的维度

暗线揭示的是另一个维度:推理深度的维度

在这个维度上,推理被分成三层——Pearl的因果阶梯:

第一层:观测(seeing)——条件期望,P(YX=x)。看到X发生了,Y会是什么?联想记忆做的就是这一层。Transformer在这一层。

第二层:干预(doing)——干预分布,P(Ydo(X=x))。如果我强制X取x,Y会是什么?这需要知道因果结构,需要切断混淆路径。目前的AI架构只能做软性的近似——注意力矩阵的one-hot坍缩是一种模拟,但它操作的是推理时的激活,不是真正的因果图手术。

第三层:反事实(imagining)——反事实分布,P(YxX=x)。如果当时不是X,Y会怎样?这不只需要因果结构,还需要能够在想象中运行反事实世界。在注意力框架里,这对应修改WQ,WK后重推——推理时无法做到,需要改变模型参数本身。

Transformer被架构锁在第一层,偶尔能模拟第二层的表象,第三层对它目前永远关闭。

真实的推理王国地图,需要同时标注复杂度维度和推理深度维度。我们在第一个维度上已经有了相当清晰的图景。第二个维度,还在探索中。


六、最后一句话

这本书在边界前停下来。不给解法,因为没有解法。

但停在边界前,和假装边界不存在,是两件完全不同的事。

你现在知道那面墙在哪里。你知道联想记忆能做什么,不能做什么。你知道为什么do算子在现有架构里是缺席的,知道这不是实现问题而是本体论问题。你知道永霖公式的收敛是能量吸引子的必然,知道哥德尔的不完备和它是同一件事在不同语言里的投影。

这些不是让你绝望的知识。这是让你知道值得在哪里继续挖的知识。

那扇门,也许在某个人的博士论文里。也许在一个还没有被提出的问题里。也许需要完全不同的数学。

推理王国的边界,不是终点。

是下一段旅程的起点。