Skip to content

哲学后记:生成认知与世界模型尚未解决的问题

本讲的争论大多是在领域内部展开的:语言派对世界模型派,JEPA 对 WAM,Scaling 对结构设计。但有一种批判从外部横切了所有这些争论。

2025 年,Banafsheh Rafiee 与 Richard Sutton 发表了论文《迈向生成式人工智能》(Toward Enactive Artificial IntelligencearXiv:2605.24238),系统评估了当前所有 AI,包括 LLM、视觉模型和世界模型,与生物智能体所展现的认知之间的真实差距。他们的框架来自认知科学,而不是 AI 研究本身。这个外部视角让一些内部争论容易忽视的东西变得清晰。


被动表征的上限

AI 的主流范式,无论是符号系统还是神经网络,都遵循同一种结构:接收输入,建立内部表征,在表征上推理,输出动作。在这种观点下,智能的质量就是内部表征的质量,对世界建模越准确,行为就越好。

Rafiee 和 Sutton 把这种思路称为表征主义,并指出它有一个结构性的上限。

世界是开放的、动态的、无限复杂的,任何有限的内部模型都无法完全捕捉它。机器人学家 Rodney Brooks 的表达更直接:"世界本身就是它最好的模型。"任何情境中最及时、最丰富、最准确的信息,永远在世界本身,而不在任何内部副本里。

这个观点本身并不新鲜。Rafiee 和 Sutton 的贡献是给出了一套系统性的替代框架:生成认知(enactive cognition)。它的核心主张是:认知不是对预先形成的表征进行处理,而是在具身主体与环境的持续互动中被生成出来的。感知、认知和行动不是流水线,而是在实践中相互构成、不可分割的整体。

要理解这套框架的真正要求,需要看清它具体规定了什么。


四个支柱

这套框架建立在四个特征上,它们共同描述真正意义上的生成智能。

经验:不是数据,而是智能体自身的行动与后果史。一个监督学习模型学的是他人经验的压缩痕迹,封装进数据集里。生成式经验要求智能体自己去行动、观察结果、失败、修正。强化学习在这一点上最接近,但即便是强化学习,通常也依赖外部工程师设计的奖励函数,而不是从智能体自身的自我维持过程中自然产生。

感知与行动的不可分割性:感知不是先于行动的输入,它本身就是一种行动能力。人类不是被动接收视觉输入,而是通过移动眼睛、头部和身体,主动揭示环境结构。一个只能预测自己会看到什么,却无法通过运动改变自己所看到的东西的系统,与世界的关系从根本上是残缺的。

自主性:智能体不是简单的刺激-反应机器,而是自我组织、自我维持的系统。环境中的物体之所以有意义,是因为它们与智能体自身的目标和持续存在相关。一个真正自主的系统,从自身内部动态中生成成败标准,而不是靠外部标签或奖励函数来指定。

具身性:身体不是在别处计算好的计划的执行平台,身体的具体形态、传感器位置和运动能力决定了环境的含义,以及哪些行动是可能的。同一把椅子,对人类是"可坐的",对蚂蚁可能是巨大障碍,对机器人则取决于关节结构和控制带宽。智能不像经典 AI 假设的那样与基底无关。


世界模型在哪里

对照这四个支柱,世界模型明显比 LLM 走得更远,但仍有关键差距。

Dreamer 系列在行动之前在潜在空间里仿真动作后果,这是一种纯反应式系统所不具备的预测性预判能力。它弥合了一部分感知-行动的裂缝:策略在"梦境"中学习,动作在其中是一等输入,而不是事后附加的。

但在另外三个支柱上,差距依然存在。

经验上:世界模型仍然在离线数据集或精心管理的仿真环境中训练。数据是工程师设计的,不是智能体在追求自身生存目标的过程中产生的。世界模型从固定轨迹中学习动力学,而不是通过受自身需求驱动的开放式探索来获取它们。

自主性上:Dreamer 和 TD-MPC 里的奖励函数是外部指定的,智能体不决定什么值得在乎,而是由人类确定目标,由智能体去优化。内在动机研究存在于 RL 的边缘,但尚未在任何主流世界模型架构中大规模整合。

具身性上:本课程中的世界模型大多处理来自固定视角摄像头或标准化传感器的像素观察,身体的具体结构,即它可以如何被移动来揭示新信息,以及由其特定配置产生的行动可能性,不在当前世界模型的学习范围之内。


这套框架揭示了什么

生成认知框架并不能解决 L05 的架构争论,但它改变了这些争论真正争的是什么。

JEPA 对 WAM 的问题是:预测应该发生在像素空间还是表征空间。从生成认知的角度看,这是一个次要问题。更重要的是:智能体的预测能力是否与自己的行动史和自我生成的目标相耦合,还是只是预收集数据的被动观察者。一个完全在离线轨迹上训练的世界模型,无论架构多优秀,在生成认知的意义上仍然基本上是被动的。架构问题是真实的,但它位于一个更根本的问题的下游:学习是如何被扎根的。

语言派对世界模型派的争论换个视角也截然不同。两边通常的表述方式都在问:怎样建立更好的内部表征。生成认知问的是:无论表征多么准确,它们本身是否就足够了。Brooks 的那句话不是在为更差的表征辩护,而是在说:智能体与世界之间的关系,无法被完全封装进任何模型内部。

Rafiee、Sutton 与世界模型派的交汇点:前进路径在于物理世界中以行动为基础的学习,而不是积累更多被动观察。

两者的分歧:世界模型研究者专注于架构与规模;Rafiee 和 Sutton 认为缺失的成分不是架构上的,而是关系性的,一种当前任何系统都尚未具备的智能体、身体与环境之间不同的耦合方式。


留给你

Rafiee 和 Sutton 认为,即便是最接近生成认知的强化学习,在自主性和具身性上仍有不足。如果他们是对的,在工程层面,一个真正意义上的生成式 AI 系统应该是什么样的?训练数据的收集方式、奖励信号的设计、机器人身体的构造,哪些必须改变?

还有一个更难的问题:如果认知从根本上是生成性的,认知在行动中产生,而不是储存在表征里,那么"世界模型"作为一个可分离的内部模块,这个概念本身还成立吗?或者说,世界模型最终不是你建造的东西,而是你通过某种正确的方式在世界中生活而获得的属性?


延伸阅读

  • Rafiee, B. & Sutton, R. S. (2025). Toward Enactive Artificial Intelligence:本篇后记的原始论文
  • Brooks, R. (1991). "Intelligence Without Representation." Artificial Intelligence 47(1-3): 139-159. "世界本身就是它最好的模型"这一论点的奠基性文献