跳到主要内容

世界模型(World Model)

世界模型是一个学出来的环境动力学预测器:给定当前观测(原始像素或压缩后的隐状态)和一个候选动作,它预测下一刻会发生什么,回答"如果执行动作 ,世界会变成什么样"。在大量交互或视频数据上训练之后,它变成一个可查询、可前向 rollout 的"模拟器",让智能体在"想象"里推演后果。它和策略是一对:策略负责选动作,世界模型负责想象后果

在具身智能里,它落地为四件事——规划、在想象中学习行为、预训练与动作相关的表征、以及当作便宜的模拟器和数据引擎来训练与评测策略。这门教程把它和视觉-语言-动作大模型(VLA)放在同一条"大脑:智能决策"主线上,因为当前最受关注的世界模型几乎都在为机器人策略服务。

观测(像素 / 隐状态) + 候选动作
-> 世界模型预测下一状态(像素 / 隐空间)
-> 在"想象"里 rollout 多条动作序列
-> 用预测结果做:规划(MPC) / 想象中训练 / 表征预训练 / 离线评测
-> 与 VLA 互补:策略选动作,世界模型想象后果

1. 什么是世界模型

把世界模型和它周边的两个概念区分清楚,是这个方向最该先搞定的事:

  • 世界模型 vs 仿真器:传统仿真器(MuJoCo、Isaac)由人手写物理规则;世界模型是从数据里出来的动力学,逼真度和覆盖面来自数据,而不是来自工程师写的方程。
  • 世界模型 vs 策略:策略输出动作,世界模型输出"下一状态"。一个负责行动,一个负责预演。
  • 世界模型 vs 视频生成:能生成逼真的视频,不等于掌握了因果、物理一致的动力学。这是"Sora 算不算世界模型"争论的核心。

判断一个模型是不是世界模型,看它是否做动作条件预测:预测以候选动作为条件,从而支持"如果我这么做会怎样"的 what-if 推演。

2. 三条技术路线

当前世界模型大致分三族,差别在预测什么在哪里预测

模型化 RL 与隐空间动力学

学一个紧凑的隐空间动力学模型,要么在里面用采样规划(CEM、MPPI),要么完全在它"想象"出的隐空间 rollout 里训练 actor-critic。代表:World Models、PlaNet、Dreamer 系列、MuZero、TD-MPC2。

生成式视频世界模型与神经模拟器

用大规模生成式视频模型(扩散或自回归)以动作或文本为条件合成未来帧,既当可交互模拟器,又当逼真的合成数据引擎。代表:Genie 系列、Sora、UniSim、NVIDIA Cosmos、GAIA、1X World Model。

JEPA 隐空间预测

自监督地预测未来表征而不是像素,把算力集中在与动作相关的动态上;动作条件版本可以直接在隐空间做 MPC 规划。代表:Meta 的 V-JEPA 2 与 V-JEPA 2-AC。

由此引出两条核心设计轴:生成式 vs 预测式(重建像素帧,还是预测抽象表征)、像素 vs 隐空间(在原始像素上预测,还是在压缩隐状态上预测)。

3. 核心概念

  • 动作条件预测:预测以候选动作为条件,支撑规划与评测的 what-if rollout。
  • 隐空间动力学与 RSSM:在压缩隐状态而非像素上建模状态转移,是 PlaNet、Dreamer 的基础。
  • 想象 rollout:完全在模型预测的状态里训练或规划,Dreamer 就是"在梦里"训 actor-critic。
  • JEPA:联合嵌入预测架构,预测未来表征而非像素,更省算力也更聚焦动作相关动态。
  • 图像目标 MPC:采样大量动作序列在模型里 rollout,按预测状态与目标图的距离打分,执行最优首步再重规划。
  • 逆动力学模型:从相邻两帧反推中间动作,把无动作标签的生成视频变成可训练的动作数据。
  • 神经轨迹:视频世界模型生成、再打上伪动作标签的机器人 episode,用来低成本扩充策略训练数据。
  • 数据引擎:用世界模型批量生产可控、逼真、富含边角案例的合成 rollout,喂给下游训练与评测。

4. 在具身智能中的四种用法

具身场景里,世界模型是"想象与模拟器",VLA 是"控制器",世界模型从四个角度补强策略,这也是"世界模型怎么落地"的直接答案:

  1. 神经模拟器与数据引擎:生成逼真、可控的合成 rollout(神经轨迹),打上伪动作标签,低成本、大规模地训练策略,并批量制造目标边角案例。代表:NVIDIA Cosmos 喂 Isaac GR00T、DreamGen 与 GR00T-Dreams、UniSim 零样本迁移、GAIA 用于自动驾驶。
  2. 规划与想象:在模型里 rollout 候选动作,选出最能达成目标的一条(模型预测控制),或完全在想象的隐空间里训练行为。代表:V-JEPA 2-AC、UniPi、Dreamer、TD-MPC。
  3. 表征与策略预训练:预测未来帧或未来表征,能学到与动作相关的动力学并迁移给策略。代表:GR-1 与 GR-2、V-JEPA。
  4. 策略评测:用学到的模拟器在大量场景里给策略打分,不必占用真机。代表:1X World Model、智元 GE-Sim。

WorldVLA 这类混合模型更进一步,把控制器和世界模型塞进同一个自回归模型,让两个分支互相增强。

5. 代表性系统

下面按三条路线给出经过核对的代表性系统(机构、首次发布年份、一句话定位),方便对照论文和工程实现按需深入。

模型化 RL 与隐空间动力学

系统机构年份一句话
World ModelsGoogle Brain · IDSIA2018VAE 加 RNN 加控制器,首次在 RNN 的"梦境"里训练策略,奠定隐空间动力学范式
PlaNetGoogle · DeepMind2019提出 RSSM,在隐空间用 CEM 规划,样本效率提升约两个数量级
Dreamer 到 DreamerV3Google · DeepMind2020 到 2023完全在想象的隐空间里训 actor-critic;DreamerV3 用同一套超参横扫 150+ 任务,并从零在 Minecraft 挖到钻石
MuZeroDeepMind2019 到 2020学习奖励、价值、策略模型并用 MCTS 规划,不告知规则也能达到 AlphaZero 水平
TD-MPC2UC San Diego2023无解码器的隐式世界模型,单个 317M 模型覆盖 80 个任务

生成式视频世界模型与神经模拟器

系统机构年份一句话
Genie 1 到 Genie 3Google DeepMind2024 到 2025从无标注视频学到可交互世界;Genie 3 做到 24fps、720p 实时可玩,分钟级一致性
SoraOpenAI2024文本到视频扩散 Transformer,被定位为"通用物理世界模拟器",也是世界模型之争的焦点
UniSimGoogle DeepMind · UC Berkeley2023生成式真实世界通用模拟器,纯在模拟器里训练的策略可零样本迁移到真机,ICLR 2024 杰出论文
NVIDIA CosmosNVIDIA2025Predict、Transfer、Reason 三族物理感知世界基础模型,作可控合成数据引擎喂给 Isaac GR00T
DreamGen 与 GR00T-DreamsNVIDIA GEAR Lab2025微调视频世界模型生成语言条件 rollout,用逆动力学打伪动作标签训练通用策略
GAIA-1 与 GAIA-2Wayve2023 到 2025自动驾驶生成式世界模型,作神经模拟器批量产出安全关键场景数据
1X World Model1X Technologies2024动作可控的生成式视频世界模型,在"比特世界"里评测人形机器人策略

JEPA 隐空间预测

系统机构年份一句话
V-JEPA 2Meta FAIR2025自监督视频世界模型,预测表征而非像素,在 100 万小时视频上训练
V-JEPA 2-ACMeta FAIR2025动作条件版,用不到 62 小时 Droid 视频做到零样本图像目标抓取放置

操作领域视频预测与 VLA 融合

系统机构年份一句话
UniPiGoogle · MIT2023文本条件视频扩散先生成目标视频,再用逆动力学模型抽出可执行动作
GR-1 与 GR-2ByteDance Research2023 到 2024在大规模视频上做未来帧预训练,再微调成同时预测图像与动作的模型
WorldVLAAlibaba DAMO2025单个自回归模型在共享 token 上统一 VLA 与世界模型,两个分支互相增强

6. 求职与面试视角

在做世界模型的机构:Google DeepMind(Dreamer、MuZero、Genie、UniSim)、Meta FAIR(V-JEPA 2)、OpenAI(Sora)、NVIDIA(Cosmos、GEAR Lab)、Wayve(GAIA)、Tesla(World Simulator)、1X、智元、字节 ByteDance(GR 系列)、阿里 DAMO(WorldVLA)、腾讯(HunyuanWorld)、World Labs。

值得补的技能

  • 扩散与自回归两条视频生成路线
  • 模型化 RL 与规划(CEM、MPPI、MCTS,以及 Dreamer 式想象训练)
  • 自监督表征学习(JEPA、隐空间动力学)
  • 大规模数据与仿真基建(合成数据管线、sim-to-real)

高频面试与八股

  • 生成式世界模型与预测式 JEPA 的区别,像素预测与隐空间预测各自取舍
  • Dreamer 与 MuZero 的差别:在想象里训 actor-critic,还是在学到的模型上做 MCTS
  • 世界模型、仿真器、VLA 三者怎么区分又怎么配合
  • 世界模型在 sim-to-real 里的数据引擎角色
  • Sora 算不算世界模型:帧逼真和因果、物理一致的差别
  • 动作条件的几种做法:显式动作、隐动作、逆动力学补标签
  • 长时一致性、记忆、实时交互与可控性

7. 延伸阅读