世界模型(World Model)
世界模型是一个学出来的环境动力学预测器:给定当前观测(原始像素或压缩后的隐状态)和一个候选动作,它预测下一刻会发生什么,回答"如果执行动作
在具身智能里,它落地为四件事——规划、在想象中学习行为、预训练与动作相关的表征、以及当作便宜的模拟器和数据引擎来训练与评测策略。这门教程把它和视觉-语言-动作大模型(VLA)放在同一条"大脑:智能决策"主线上,因为当前最受关注的世界模型几乎都在为机器人策略服务。
观测(像素 / 隐状态) + 候选动作
-> 世界模型预测下一状态(像素 / 隐空间)
-> 在"想象"里 rollout 多条动作序列
-> 用预测结果做:规划(MPC) / 想象中训练 / 表征预训练 / 离线评测
-> 与 VLA 互补:策略选动作,世界模型想象后果
1. 什么是世界模型
把世界模型和它周边的两个概念区分清楚,是这个方向最该先搞定的事:
- 世界模型 vs 仿真器:传统仿真器(MuJoCo、Isaac)由人手写物理规则;世界模型是从数据里学出来的动力学,逼真度和覆盖面来自数据,而不是来自工程师写的方程。
- 世界模型 vs 策略:策略输出动作,世界模型输出"下一状态"。一个负责行动,一个负责预演。
- 世界模型 vs 视频生成:能生成逼真的视频,不等于掌握了因果、物理一致的动力学。这是"Sora 算不算世界模型"争论的核心。
判断一个模型是不是世界模型,看它是否做动作条件预测:预测以候选动作为条件,从而支持"如果我这么做会怎样"的 what-if 推演。
2. 三条技术路线
当前世界模型大致分三族,差别在预测什么和在哪里预测。
模型化 RL 与隐空间动力学
学一个紧凑的隐空间动力学模型,要么在里面用采样规划(CEM、MPPI),要么完全在它"想象"出的隐空间 rollout 里训练 actor-critic。代表:World Models、PlaNet、Dreamer 系列、MuZero、TD-MPC2。
生成式视频世界模型与神经模拟器
用大规模生成式视频模型(扩散或自回归)以动作或文本为条件合成未来帧,既当可交互模拟器,又当逼真的合成数据引擎。代表:Genie 系列、Sora、UniSim、NVIDIA Cosmos、GAIA、1X World Model。
JEPA 隐空间预测
自监督地预测未来表征而不是像素,把算力集中在与动作相关的动态上;动作条件版本可以直接在隐空间做 MPC 规划。代表:Meta 的 V-JEPA 2 与 V-JEPA 2-AC。
由此引出两条核心设计轴:生成式 vs 预测式(重建像素帧,还是预测抽象表征)、像素 vs 隐空间(在原始像素上预测,还是在压缩隐状态上预测)。
3. 核心概念
- 动作条件预测:预测以候选动作为条件,支撑规划与评测的 what-if rollout。
- 隐空间动力学与 RSSM:在压缩隐状态而非像素上建模状态转移,是 PlaNet、Dreamer 的基础。
- 想象 rollout:完全在模型预测的状态里训练或规划,Dreamer 就是"在梦里"训 actor-critic。
- JEPA:联合嵌入预测架构,预测未来表征而非像素,更省算力也更聚焦动作相关动态。
- 图像目标 MPC:采样大量动作序列在模型里 rollout,按预测状态与目标图的距离打分,执行最优首步再重规划。
- 逆动力学模型:从相邻两帧反推中间动作,把无动作标签的生成视频变成可训练的动作数据。
- 神经轨迹:视频世界模型生成、再打上伪动作标签的机器人 episode,用来低成本扩充策略训练数据。
- 数据引擎:用世界模型批量生产可控、逼真、富含边角案例的合成 rollout,喂给下游训练与评测。
4. 在具身智能中的四种用法
具身场景里,世界模型是"想象与模拟器",VLA 是"控制器",世界模型从四个角度补强策略,这也是"世界模型怎么落地"的直接答案:
- 神经模拟器与数据引擎:生成逼真、可控的合成 rollout(神经轨迹),打上伪动作标签,低成本、大规模地训练策略,并批量制造目标边角案例。代表:NVIDIA Cosmos 喂 Isaac GR00T、DreamGen 与 GR00T-Dreams、UniSim 零样本迁移、GAIA 用于自动驾驶。
- 规划与想象:在模型里 rollout 候选动作,选出最能达成目标的一条(模型预测控制),或完全在想象的隐空间里训练行为。代表:V-JEPA 2-AC、UniPi、Dreamer、TD-MPC。
- 表征与策略预训练:预测未来帧或未来表征,能学到与动作相关的动力学并迁移给策略。代表:GR-1 与 GR-2、V-JEPA。
- 策略评测:用学到的模拟器在大量场景里给策略打分,不必占用真机。代表:1X World Model、智元 GE-Sim。
WorldVLA 这类混合模型更进一步,把控制器和世界模型塞进同一个自回归模型,让两个分支互相增强。
5. 代表性系统
下面按三条路线给出经过核对的代表性系统(机构、首次发布年份、一句话定位),方便对照论文和工程实现按需深入。
模型化 RL 与隐空间动力学
| 系统 | 机构 | 年份 | 一句话 |
|---|---|---|---|
| World Models | Google Brain · IDSIA | 2018 | VAE 加 RNN 加控制器,首次在 RNN 的"梦境"里训练策略,奠定隐空间动力学范式 |
| PlaNet | Google · DeepMind | 2019 | 提出 RSSM,在隐空间用 CEM 规划,样本效率提升约两个数量级 |
| Dreamer 到 DreamerV3 | Google · DeepMind | 2020 到 2023 | 完全在想象的隐空间里训 actor-critic;DreamerV3 用同一套超参横扫 150+ 任务,并从零在 Minecraft 挖到钻石 |
| MuZero | DeepMind | 2019 到 2020 | 学习奖励、价值、策略模型并用 MCTS 规划,不告知规则也能达到 AlphaZero 水平 |
| TD-MPC2 | UC San Diego | 2023 | 无解码器的隐式世界模型,单个 317M 模型覆盖 80 个任务 |
生成式视频世界模型与神经模拟器
| 系统 | 机构 | 年份 | 一句话 |
|---|---|---|---|
| Genie 1 到 Genie 3 | Google DeepMind | 2024 到 2025 | 从无标注视频学到可交互世界;Genie 3 做到 24fps、720p 实时可玩,分钟级一致性 |
| Sora | OpenAI | 2024 | 文本到视频扩散 Transformer,被定位为"通用物理世界模拟器",也是世界模型之争的焦点 |
| UniSim | Google DeepMind · UC Berkeley | 2023 | 生成式真实世界通用模拟器,纯在模拟器里训练的策略可零样本迁移到真机,ICLR 2024 杰出论文 |
| NVIDIA Cosmos | NVIDIA | 2025 | Predict、Transfer、Reason 三族物理感知世界基础模型,作可控合成数据引擎喂给 Isaac GR00T |
| DreamGen 与 GR00T-Dreams | NVIDIA GEAR Lab | 2025 | 微调视频世界模型生成语言条件 rollout,用逆动力学打伪动作标签训练通用策略 |
| GAIA-1 与 GAIA-2 | Wayve | 2023 到 2025 | 自动驾驶生成式世界模型,作神经模拟器批量产出安全关键场景数据 |
| 1X World Model | 1X Technologies | 2024 | 动作可控的生成式视频世界模型,在"比特世界"里评测人形机器人策略 |
JEPA 隐空间预测
| 系统 | 机构 | 年份 | 一句话 |
|---|---|---|---|
| V-JEPA 2 | Meta FAIR | 2025 | 自监督视频世界模型,预测表征而非像素,在 100 万小时视频上训练 |
| V-JEPA 2-AC | Meta FAIR | 2025 | 动作条件版,用不到 62 小时 Droid 视频做到零样本图像目标抓取放置 |
操作领域视频预测与 VLA 融合
| 系统 | 机构 | 年份 | 一句话 |
|---|---|---|---|
| UniPi | Google · MIT | 2023 | 文本条件视频扩散先生成目标视频,再用逆动力学模型抽出可执行动作 |
| GR-1 与 GR-2 | ByteDance Research | 2023 到 2024 | 在大规模视频上做未来帧预训练,再微调成同时预测图像与动作的模型 |
| WorldVLA | Alibaba DAMO | 2025 | 单个自回归模型在共享 token 上统一 VLA 与世界模型,两个分支互相增强 |
6. 求职与面试视角
在做世界模型的机构:Google DeepMind(Dreamer、MuZero、Genie、UniSim)、Meta FAIR(V-JEPA 2)、OpenAI(Sora)、NVIDIA(Cosmos、GEAR Lab)、Wayve(GAIA)、Tesla(World Simulator)、1X、智元、字节 ByteDance(GR 系列)、阿里 DAMO(WorldVLA)、腾讯(HunyuanWorld)、World Labs。
值得补的技能:
- 扩散与自回归两条视频生成路线
- 模型化 RL 与规划(CEM、MPPI、MCTS,以及 Dreamer 式想象训练)
- 自监督表征学习(JEPA、隐空间动力学)
- 大规模数据与仿真基建(合成数据管线、sim-to-real)
高频面试与八股:
- 生成式世界模型与预测式 JEPA 的区别,像素预测与隐空间预测各自取舍
- Dreamer 与 MuZero 的差别:在想象里训 actor-critic,还是在学到的模型上做 MCTS
- 世界模型、仿真器、VLA 三者怎么区分又怎么配合
- 世界模型在 sim-to-real 里的数据引擎角色
- Sora 算不算世界模型:帧逼真和因果、物理一致的差别
- 动作条件的几种做法:显式动作、隐动作、逆动力学补标签
- 长时一致性、记忆、实时交互与可控性
7. 延伸阅读
- 世界模型综述解读:把一份 500+ 篇的世界模型综述挂到本页框架上,给出各板块必读与阅读顺序
- 视觉-语言-动作大模型(VLA):世界模型与 VLA 高度耦合,建议先把 VLA 主线读一遍
- 强化学习与控制:模型化 RL 一路的前置基础
- 仿真工具:对照手写仿真器,理解"学出来的模拟器"