世界模型是什么：渲染、模拟与规划

"世界模型，是所有人都会抵达的终点。这条路我现在已经 all-in 了，你跟不跟？"

谢赛宁这句话有一个隐含的前提：他说的"世界模型"，和大多数人嘴里那个词，未必是同一件事。这个分歧不是措辞问题，而是真实的概念裂缝。2025 年，李飞飞与 World Labs 团队的一篇文章对这一混乱进行了系统的澄清。

三种功能性的世界模型

计算机视觉、机器人学、强化学习、生成 AI，这几个领域都声称在开发"世界模型"，但各自指代的东西截然不同。混乱的根源在于对"世界"本身定义的模糊。

强化学习里的经典框架 POMDP（部分可观测马尔可夫决策过程）提供了一个清晰的基准：智能体采取行动，行动改变世界状态，产生观察信息，驱动下一步行动。这个循环里有一个关键区分，状态（state）是世界在某一时刻的完整描述，包括所有物体、位置、速度和属性；观察（observation）是智能体实际能感知到的东西，通常是状态的一个不完整投影，比如图像或视频帧。

当今被称为"世界模型"的各类系统，本质上都是这个循环的不同输出。基于此，李飞飞的文章区分出三种功能性类型。

渲染器：输出人能看懂的观察

渲染器的职责是输出观察信息，通常以像素形式呈现。衡量渲染器好坏的主要标准是视觉保真度。

文生视频模型（Veo、Sora）是渲染器，交互式生成系统（Genie、World Labs 的 RTFM）是渲染器。它们的共同特点是对三维结构没有显式理解，呈现的是"看起来像什么"，而不是"实际是什么"。这就是为什么 AI 生成的城市在俯视图上完美无缺，但从内部驾驶却会发现建筑崩坏、街道几何违反物理。

模拟器：输出符合物理规律的状态

模拟器输出的是世界状态本身，在几何、物理或动力学上忠实于现实。相比渲染器只需视觉说服力，模拟器要满足更严格的结构约束：几何关系必须经得起推敲，物理过程必须遵守牛顿定律，动态行为必须符合因果规律。

模拟器的用户是两类：建筑师、工程师、游戏开发者，他们需要超越视觉真实感的准确性；以及强化学习智能体、机器人控制器、自动驾驶系统，它们需要在虚拟环境中安全测试真实场景中危险或昂贵的情况。

Dreamer 系列（V1–V4）训练策略的"梦境"正是一种隐式模拟器：它在潜在空间里维护状态表示，根据动作推演下一个状态，策略在这个内部仿真里学习，然后迁移到真实环境。

规划器：输出智能体应该采取的动作

规划器输出的是动作，给定当前观察和目标，智能体下一步应该怎么做。某种意义上，规划器是渲染器的逆过程：渲染器把动作转换为观察；规划器把观察转换为动作，由此闭合感知-行动循环。

VLA（Vision-Language-Action，以视觉观测和语言指令为输入、直接输出机器人动作的端到端模型）是规划器，CEM-MPC 和 TD-MPC（两种基于世界模型的规划算法，L03 会详细介绍）是规划器，Dreamer 里的潜在 Actor-Critic 也是规划器。规划器是三类中最难做好的。目前看起来令人印象深刻的机器人演示，几乎都局限于高度受控的实验室环境；演示视频与能在真实厨房、仓库、手术室可靠工作的机器人之间，仍有巨大的鸿沟。

模拟器是关键

三类可以单独界定，但它们共享同一个根基：对世界如何运作的深层认识，几何、物理、动力学。一个真正理解世界的模型应该能够完成所有三项任务：从多个角度渲染一个杯子的样子，模拟杯子被推动时会发生什么，以及规划一只手该如何拿起这个杯子。

在三者中，模拟器获得的商业关注最少，但在功能上最为关键。原因是方向性的。

渲染器优化视觉可信度，不要求物理准确性。这个天花板是真实的：渲染器的输出足够美观，却不足以用于机器人训练或工程设计。

规划器最具吸引力，但没有一个对世界如何运作的内部模型，规划器只能靠记忆情境和模式匹配来输出动作。这正是 LeCun 批评 VLA 路线的核心论点：它记住了海量的驾驶场景，却没有内部的因果模型，一旦遇到真正陌生的情况，它没有推理后果的能力。

模拟器是连接两者的桥梁。如果语言是对世界的抽象，像素是对世界的投影，那么几何、物理和动力学就是世界本身。模拟器在这个层面上运作，提供那个结构骨架，从中既可以衍生出视觉呈现供人类消费，也可以衍生出动作后果供智能体使用。

当前领域的最前沿：边界在融合

李飞飞的文章里有一个值得注意的观察：当前最有趣的研究正在有意模糊这三个类别的边界。

World Labs 的 Marble（一个从单张或少量图像重建三维场景的生成模型）已经从单个模型同时输出高斯散射（用于渲染）和碰撞网格（用于物理模拟），一个输出服务视觉，另一个服务物理引擎。一些机器人实验室的最新工作表明，预训练的视频渲染器可以直接作为动作预测的骨干，把渲染器和规划器的职责合并进同一个模型。

两条线指向同一个方向：一个模型，能渲染、能模拟、能规划，根据下游需要切换输出。

一个哲学脚注

李飞飞的三分法并非偶然，它和认识论里的一个经典三角有对应关系。

模拟器回答的是本体论问题：世界本身是什么。 独立于观察者存在的客观物理结构，有空间、力学和因果的固有规则。

渲染器回答的是现象论问题：世界看起来是什么。 人通过感官得到的表象，视觉显像，我们肉眼看见的一切都是世界在感知维度上的投影。

规划器回答的是实践论问题：主体能做什么。 立足表象、面向客观世界的行动能力，主体通过实践作用于世界、改造世界。

Craik 在 1943 年用"外部现实的小规模模型"描述人脑的预测机制时，指向的正是这三个维度的统一体：在本体层推演，在现象层呈现，在实践层输出行动建议。谢赛宁所说的"终点"，在这个意义上早已有了答案，只是工程手段用了八十年才追上这个直觉。

世界模型是什么：渲染、模拟与规划 ​

三种功能性的世界模型 ​

渲染器：输出人能看懂的观察 ​

模拟器：输出符合物理规律的状态 ​

规划器：输出智能体应该采取的动作 ​

模拟器是关键 ​

当前领域的最前沿：边界在融合 ​

一个哲学脚注 ​

延伸阅读 ​