Skip to content

世界模型是什么:渲染、模拟与规划

"世界模型,是所有人都会抵达的终点。这条路我现在已经 all-in 了,你跟不跟?"

谢赛宁这句话有一个隐含的前提:他说的"世界模型",和大多数人嘴里那个词,未必是同一件事。这个分歧不是措辞问题,而是真实的概念裂缝。2025 年,李飞飞与 World Labs 团队的一篇文章对这一混乱进行了系统的澄清。


三种功能性的世界模型

计算机视觉、机器人学、强化学习、生成 AI,这几个领域都声称在开发"世界模型",但各自指代的东西截然不同。混乱的根源在于对"世界"本身定义的模糊。

强化学习里的经典框架 POMDP(部分可观测马尔可夫决策过程)提供了一个清晰的基准:智能体采取行动,行动改变世界状态,产生观察信息,驱动下一步行动。这个循环里有一个关键区分,状态(state)是世界在某一时刻的完整描述,包括所有物体、位置、速度和属性;观察(observation)是智能体实际能感知到的东西,通常是状态的一个不完整投影,比如图像或视频帧。

当今被称为"世界模型"的各类系统,本质上都是这个循环的不同输出。基于此,李飞飞的文章区分出三种功能性类型。

渲染器:输出人能看懂的观察

渲染器的职责是输出观察信息,通常以像素形式呈现。衡量渲染器好坏的主要标准是视觉保真度。

文生视频模型(Veo、Sora)是渲染器,交互式生成系统(Genie、World Labs 的 RTFM)是渲染器。它们的共同特点是对三维结构没有显式理解,呈现的是"看起来像什么",而不是"实际是什么"。这就是为什么 AI 生成的城市在俯视图上完美无缺,但从内部驾驶却会发现建筑崩坏、街道几何违反物理。

模拟器:输出符合物理规律的状态

模拟器输出的是世界状态本身,在几何、物理或动力学上忠实于现实。相比渲染器只需视觉说服力,模拟器要满足更严格的结构约束:几何关系必须经得起推敲,物理过程必须遵守牛顿定律,动态行为必须符合因果规律。

模拟器的用户是两类:建筑师、工程师、游戏开发者,他们需要超越视觉真实感的准确性;以及强化学习智能体、机器人控制器、自动驾驶系统,它们需要在虚拟环境中安全测试真实场景中危险或昂贵的情况。

Dreamer 系列(V1–V4)训练策略的"梦境"正是一种隐式模拟器:它在潜在空间里维护状态表示,根据动作推演下一个状态,策略在这个内部仿真里学习,然后迁移到真实环境。

规划器:输出智能体应该采取的动作

规划器输出的是动作,给定当前观察和目标,智能体下一步应该怎么做。某种意义上,规划器是渲染器的逆过程:渲染器把动作转换为观察;规划器把观察转换为动作,由此闭合感知-行动循环。

VLA(Vision-Language-Action,以视觉观测和语言指令为输入、直接输出机器人动作的端到端模型)是规划器,CEM-MPC 和 TD-MPC(两种基于世界模型的规划算法,L03 会详细介绍)是规划器,Dreamer 里的潜在 Actor-Critic 也是规划器。规划器是三类中最难做好的。目前看起来令人印象深刻的机器人演示,几乎都局限于高度受控的实验室环境;演示视频与能在真实厨房、仓库、手术室可靠工作的机器人之间,仍有巨大的鸿沟。


模拟器是关键

三类可以单独界定,但它们共享同一个根基:对世界如何运作的深层认识,几何、物理、动力学。一个真正理解世界的模型应该能够完成所有三项任务:从多个角度渲染一个杯子的样子,模拟杯子被推动时会发生什么,以及规划一只手该如何拿起这个杯子。

在三者中,模拟器获得的商业关注最少,但在功能上最为关键。原因是方向性的。

渲染器优化视觉可信度,不要求物理准确性。这个天花板是真实的:渲染器的输出足够美观,却不足以用于机器人训练或工程设计。

规划器最具吸引力,但没有一个对世界如何运作的内部模型,规划器只能靠记忆情境和模式匹配来输出动作。这正是 LeCun 批评 VLA 路线的核心论点:它记住了海量的驾驶场景,却没有内部的因果模型,一旦遇到真正陌生的情况,它没有推理后果的能力。

模拟器是连接两者的桥梁。如果语言是对世界的抽象,像素是对世界的投影,那么几何、物理和动力学就是世界本身。模拟器在这个层面上运作,提供那个结构骨架,从中既可以衍生出视觉呈现供人类消费,也可以衍生出动作后果供智能体使用。


当前领域的最前沿:边界在融合

李飞飞的文章里有一个值得注意的观察:当前最有趣的研究正在有意模糊这三个类别的边界。

World Labs 的 Marble(一个从单张或少量图像重建三维场景的生成模型)已经从单个模型同时输出高斯散射(用于渲染)和碰撞网格(用于物理模拟),一个输出服务视觉,另一个服务物理引擎。一些机器人实验室的最新工作表明,预训练的视频渲染器可以直接作为动作预测的骨干,把渲染器和规划器的职责合并进同一个模型。

两条线指向同一个方向:一个模型,能渲染、能模拟、能规划,根据下游需要切换输出。


一个哲学脚注

李飞飞的三分法并非偶然,它和认识论里的一个经典三角有对应关系。

模拟器回答的是本体论问题:世界本身是什么。 独立于观察者存在的客观物理结构,有空间、力学和因果的固有规则。

渲染器回答的是现象论问题:世界看起来是什么。 人通过感官得到的表象,视觉显像,我们肉眼看见的一切都是世界在感知维度上的投影。

规划器回答的是实践论问题:主体能做什么。 立足表象、面向客观世界的行动能力,主体通过实践作用于世界、改造世界。

Craik 在 1943 年用"外部现实的小规模模型"描述人脑的预测机制时,指向的正是这三个维度的统一体:在本体层推演,在现象层呈现,在实践层输出行动建议。谢赛宁所说的"终点",在这个意义上早已有了答案,只是工程手段用了八十年才追上这个直觉。


延伸阅读

  • Li, F.-F. et al., World Labs (2025). What Is a World Model?:三种功能性世界模型的系统定义
  • 谢赛宁访谈(2024). 世界模型、具身智能与 AMI Labs:谢赛宁对"世界模型是所有人都会抵达的终点"这一判断的完整阐述
  • Ha & Schmidhuber (2018): World Models(见 L01 延伸阅读):最早把渲染(V)、模拟(M)、规划(C)清晰分离的工程框架