各条路线的核心赌注与收尾问题
各条路线的核心赌注
L03 已经从工程选型角度对比了六大架构族的优劣。这里换一个视角:每条路线背后押注的是什么假设?这个假设成立,意味着什么?
| 架构路线 | 核心押注 | 如果押注成立 |
|---|---|---|
| RNN/RSSM | 物理世界的关键动态可以用紧凑的循环状态表示,不需要像素级重建 | Dreamer 式的样本高效 RL 可以扩展到复杂真实任务 |
| Transformer | 智能的核心是长程序列依赖,统一的注意力机制比手工设计的状态分离更强 | STORM/Dreamer V4 这条线会收敛到一个通用世界模型主干 |
| Diffusion | 物理世界的规律蕴含在像素分布里,高保真生成本身就是理解 | 足够大的扩散模型会自动涌现出物理推理能力,不需要显式建模 |
| JEPA | 像素是噪声,语义才是信号,预测应该发生在抽象表示层而非感知层 | 不生成像素的模型反而会比生成式模型更快获得物理理解 |
| WAM | 世界模型和策略不应该是两个分离的模块,视频本身就是动作学习的监督信号 | 联合训练会打破模型基础和策略学习之间的分工,产生新的涌现能力 |
| CWM | 代码执行空间是一种可被明确建模的"世界",LLM 学会预测程序状态变化后才算真正理解代码 | 世界模型思路可以迁移到数字空间,不限于物理感知 |
这六个赌注不是互斥的,但它们对"智能的核心是什么"的回答彼此冲突。RNN 派认为状态表示是核心,Transformer 派认为序列建模是核心,Diffusion 派认为生成忠实度是核心,JEPA 派认为语义抽象是核心,WAM 派认为动作和感知的联合建模才是核心,而 CWM 则提出了一个横跨语言派与世界模型派的问题:如果"世界"是一个 Python 解释器,LLM 学会在里面做预测,它算哪边?
这场争论不会在论文里分出胜负,而是会在未来几年里被基准测试逼出答案。
CWM:代码执行空间的世界模型
物理世界的世界模型预测的是像素、关节角度、传感器读数。但"世界"不必是物理的。Meta 2024 年发布的 CWM(Code World Model,arXiv:2510.02387) 把这个思路扩展到代码执行空间:Python 解释器本身就是一个确定性的动力学系统,每执行一行代码,就是对"当前程序状态"施加一个"动作",产生"下一个程序状态"。

CWM 是一个 320 亿参数的开源 LLM,在预训练之后额外做了中间训练(mid-training),数据是两类执行轨迹:
- Python 执行轨迹:动作 = 一行 Python 语句,观测 = 执行后局部变量的完整状态(变量名、类型、值)。训练目标是让模型学会"这行代码执行完之后内存里有什么",而不只是"这行代码写法对不对"。
- ForagerAgent 轨迹:一个自动在 Docker 容器里执行软件工程任务的智能体,生成大规模的"修改代码→观察错误输出→再修改"轨迹。动作 = shell 命令或代码编辑,观测 = 终端响应。
这个设计和物理世界模型的 RSSM 框架在结构上几乎一一对应:编码器把程序状态压缩成表示,动力学函数预测下一步状态,只不过"物理引擎"换成了"Python 解释器"。
为什么这是一个边界问题? CWM 的存在让"语言派 vs 世界模型派"的分界线变得模糊。它用 Transformer 架构(语言派的主力武器),训练数据是自然语言文本加上代码(语言派的数据),但训练目标是预测程序执行状态的动态变化(世界模型派的核心主张)。如果 CWM 最终证明"理解代码 = 能在解释器里做预测",那么下一个问题是:理解物理,是不是也意味着"能在物理引擎里做预测"?这个问题的答案,同时关乎语言派和世界模型派的未来。
Harness 越来越薄:世界模型的工程预言
CWM 把"世界"的边界拓展到了代码执行空间。与此同时,在物理世界的 agent 工程领域,有人从完全不同的方向得出了一个相近的结论。
2026 年 Sequoia AI Ascent 上,Boris Cherny(Claude Code 的创造者)做出了一个值得在此记录的预言:
"harness 在变得没那么重要。一年后,模型会对齐得好得多,所以今天围绕 prompt injection、命令的静态验证、permission mode、human in the loop 的这些 safety 机制,都会变得没那么重要,因为模型自己就会做对的事。"
这里的 harness(直译为"驾具",agent 工程中指围绕模型搭建的外部控制层:权限校验、工具调用规则、安全拦截、人工确认节点等一整套脚手架代码)正是当前 AI agent 系统能够稳定运行的主要依赖。Boris 的判断是,随着模型能力提升,这层脚手架会越来越薄。
这个判断从工程角度看是一个关于 harness 演化方向的预测,但从世界模型的视角看,它指向了一个更深的问题:harness 代码量的指数级下降,最 promising 的路径恰恰是以世界模型作为基座。
原因来自世界模型的两个禀赋:
第一,预见性(predictive foresight)。世界模型的核心能力是在行动之前,在潜在空间里推演"如果执行这个动作,接下来会发生什么"。这意味着不再需要在 harness 层通过静态规则枚举"禁止做什么",而是由模型在内部动力学中直接预测后果,让高风险动作在规划阶段就被过滤,不是靠规则,而是靠对结果的预见。
第二,因果内化(causal internalization)。当前 LLM 或 VLM 在面对复杂任务时,对动作与环境状态之间的因果链理解是统计性的,而非结构性的。这正是 harness 不得不用大量外部约束来弥补的根本原因:模型不知道"把这个文件删了之后系统会坏掉",所以 harness 要替它守门。一旦基座模型具备了完整的因果世界模型,它就能在内部推理中直接维护这些约束,harness 的守门作用就自然消退。
这两个禀赋不是 LLM 的 scaling 所能直接带来的,因为更大的语言模型仍然在 token 分布上做预测,而不是在状态空间上做因果推演。这正是世界模型思路与纯语言路线在 agent 工程上的分歧所在:前者让模型成为自己的安全层,后者需要用越来越厚的 harness 来补偿模型的因果盲区。
Sequoia AI Ascent 2026 Boris Cherny 访谈:youtube.com/watch?v=SlGRN8jh2RI
不被看好者的赌注
谢赛宁知道自己在做的事情不是主流:
"你可以不相信我们,那我们就走着瞧。这条路我现在已经 all-in 了,你跟不跟?"
2012 年的 Hinton 也是这个语气,2016 年坚持做强化学习的 Sutton(Richard Sutton,强化学习领域奠基人,《Reinforcement Learning: An Introduction》作者,即写下 Bitter Lesson 的同一位研究者)也是,在大多数人不相信的方向上,all-in。
LeCun 的乐观更宏大一些,但方向一致:
"这件事情跟过去深度学习、神经网络发生的事情一模一样。总有一小群人,能够清晰地看见这个世界发展的脉络。"
这两句话放在一起,既是宣言,也是风险声明。历史上确实有那么一小群人看对了,但也有更多一小群人,最终没有等来那个转折点。
世界模型研究者的赌注是:语言不是思考的基底,物理世界的预测和理解才是智能的核心。如果他们对了,未来十年 AI 的中心不会是硅谷的数据中心,而是工厂、医院、农场里的传感器网络。
如果他们错了,Scaling Law 会持续有效,LLM 会通过更多数据和更大的模型,逐渐逼近物理理解,不是用世界模型的方式,而是用语言的方式。
带着这三个问题往下走
问题一:你认为语言是世界模型的"捷径"还是"捷道"?
"捷径"意味着你走了一条绕过真正挑战的路,最终会走到死胡同。"捷道"意味着你走了一条更高效的路,最终还是能到同一个目的地。这两者的区别,决定了 LLM 的天花板在哪里。
问题二:如果 Sutton 的 Bitter Lesson 是对的,世界模型会不会也有自己的 Bitter Lesson 时刻?
某一天,是不是会出现一个"更简单、更通用"的方法,把世界模型派精心设计的架构一举超越,就像 AlphaZero 超越深蓝,就像 Transformer 超越 LSTM?Bitter Lesson 本身,会有 Bitter Lesson 吗?
问题三:世界模型是所有人会抵达的终点,还是其中一条分叉路?
也许最后的答案不是"谁赢了",而是不同的应用场景走向不同的技术路线:语言生成、代码助手走 LLM 路线;机器人、工业控制、自动驾驶走世界模型路线;而某些任务,也许是你我最常用的那些,永远在两者之间的灰色地带。
如果真是这样,那这场争论的意义,不在于分出胜负,而在于让我们更清楚地知道:我们想解决的到底是什么问题,以及我们正在走的路,通向哪里。