世界模型(World Model)

世界模型是一个学出来的环境动力学预测器：给定当前观测（原始像素或压缩后的隐状态）和一个候选动作，它预测下一刻会发生什么，回答"如果执行动作，世界会变成什么样"。在大量交互或视频数据上训练之后，它变成一个可查询、可前向 rollout 的"模拟器"，让智能体在"想象"里推演后果。它和策略是一对：策略负责选动作，世界模型负责想象后果。

在具身智能里，它落地为四件事——规划、在想象中学习行为、预训练与动作相关的表征、以及当作便宜的模拟器和数据引擎来训练与评测策略。这门教程把它和视觉-语言-动作大模型(VLA)放在同一条"大脑：智能决策"主线上，因为当前最受关注的世界模型几乎都在为机器人策略服务。

观测（像素 / 隐状态） + 候选动作
  -> 世界模型预测下一状态（像素 / 隐空间）
  -> 在"想象"里 rollout 多条动作序列
  -> 用预测结果做：规划(MPC) / 想象中训练 / 表征预训练 / 离线评测
  -> 与 VLA 互补：策略选动作，世界模型想象后果

1. 什么是世界模型

把世界模型和它周边的两个概念区分清楚，是这个方向最该先搞定的事：

世界模型 vs 仿真器：传统仿真器（MuJoCo、Isaac）由人手写物理规则；世界模型是从数据里学出来的动力学，逼真度和覆盖面来自数据，而不是来自工程师写的方程。
世界模型 vs 策略：策略输出动作，世界模型输出"下一状态"。一个负责行动，一个负责预演。
世界模型 vs 视频生成：能生成逼真的视频，不等于掌握了因果、物理一致的动力学。这是"Sora 算不算世界模型"争论的核心。

判断一个模型是不是世界模型，看它是否做动作条件预测：预测以候选动作为条件，从而支持"如果我这么做会怎样"的 what-if 推演。

2. 三条技术路线

当前世界模型大致分三族，差别在预测什么和在哪里预测。

模型化 RL 与隐空间动力学

学一个紧凑的隐空间动力学模型，要么在里面用采样规划（CEM、MPPI），要么完全在它"想象"出的隐空间 rollout 里训练 actor-critic。代表：World Models、PlaNet、Dreamer 系列、MuZero、TD-MPC2。

生成式视频世界模型与神经模拟器

用大规模生成式视频模型（扩散或自回归）以动作或文本为条件合成未来帧，既当可交互模拟器，又当逼真的合成数据引擎。代表：Genie 系列、Sora、UniSim、NVIDIA Cosmos、GAIA、1X World Model。

JEPA 隐空间预测

自监督地预测未来表征而不是像素，把算力集中在与动作相关的动态上；动作条件版本可以直接在隐空间做 MPC 规划。代表：Meta 的 V-JEPA 2 与 V-JEPA 2-AC。

由此引出两条核心设计轴：生成式 vs 预测式（重建像素帧，还是预测抽象表征）、像素 vs 隐空间（在原始像素上预测，还是在压缩隐状态上预测）。

3. 核心概念

动作条件预测：预测以候选动作为条件，支撑规划与评测的 what-if rollout。
隐空间动力学与 RSSM：在压缩隐状态而非像素上建模状态转移，是 PlaNet、Dreamer 的基础。
想象 rollout：完全在模型预测的状态里训练或规划，Dreamer 就是"在梦里"训 actor-critic。
JEPA：联合嵌入预测架构，预测未来表征而非像素，更省算力也更聚焦动作相关动态。
图像目标 MPC：采样大量动作序列在模型里 rollout，按预测状态与目标图的距离打分，执行最优首步再重规划。
逆动力学模型：从相邻两帧反推中间动作，把无动作标签的生成视频变成可训练的动作数据。
神经轨迹：视频世界模型生成、再打上伪动作标签的机器人 episode，用来低成本扩充策略训练数据。
数据引擎：用世界模型批量生产可控、逼真、富含边角案例的合成 rollout，喂给下游训练与评测。

4. 在具身智能中的四种用法

具身场景里，世界模型是"想象与模拟器"，VLA 是"控制器"，世界模型从四个角度补强策略，这也是"世界模型怎么落地"的直接答案：

神经模拟器与数据引擎：生成逼真、可控的合成 rollout（神经轨迹），打上伪动作标签，低成本、大规模地训练策略，并批量制造目标边角案例。代表：NVIDIA Cosmos 喂 Isaac GR00T、DreamGen 与 GR00T-Dreams、UniSim 零样本迁移、GAIA 用于自动驾驶。
规划与想象：在模型里 rollout 候选动作，选出最能达成目标的一条（模型预测控制），或完全在想象的隐空间里训练行为。代表：V-JEPA 2-AC、UniPi、Dreamer、TD-MPC。
表征与策略预训练：预测未来帧或未来表征，能学到与动作相关的动力学并迁移给策略。代表：GR-1 与 GR-2、V-JEPA。
策略评测：用学到的模拟器在大量场景里给策略打分，不必占用真机。代表：1X World Model、智元 GE-Sim。

WorldVLA 这类混合模型更进一步，把控制器和世界模型塞进同一个自回归模型，让两个分支互相增强。

5. 代表性系统

下面按三条路线给出经过核对的代表性系统（机构、首次发布年份、一句话定位），方便对照论文和工程实现按需深入。

模型化 RL 与隐空间动力学

系统	机构	年份	一句话
World Models	Google Brain · IDSIA	2018	VAE 加 RNN 加控制器，首次在 RNN 的"梦境"里训练策略，奠定隐空间动力学范式
PlaNet	Google · DeepMind	2019	提出 RSSM，在隐空间用 CEM 规划，样本效率提升约两个数量级
Dreamer 到 DreamerV3	Google · DeepMind	2020 到 2023	完全在想象的隐空间里训 actor-critic；DreamerV3 用同一套超参横扫 150+ 任务，并从零在 Minecraft 挖到钻石
MuZero	DeepMind	2019 到 2020	学习奖励、价值、策略模型并用 MCTS 规划，不告知规则也能达到 AlphaZero 水平
TD-MPC2	UC San Diego	2023	无解码器的隐式世界模型，单个 317M 模型覆盖 80 个任务

生成式视频世界模型与神经模拟器

系统	机构	年份	一句话
Genie 1 到 Genie 3	Google DeepMind	2024 到 2025	从无标注视频学到可交互世界；Genie 3 做到 24fps、720p 实时可玩，分钟级一致性
Sora	OpenAI	2024	文本到视频扩散 Transformer，被定位为"通用物理世界模拟器"，也是世界模型之争的焦点
UniSim	Google DeepMind · UC Berkeley	2023	生成式真实世界通用模拟器，纯在模拟器里训练的策略可零样本迁移到真机，ICLR 2024 杰出论文
NVIDIA Cosmos	NVIDIA	2025	Predict、Transfer、Reason 三族物理感知世界基础模型，作可控合成数据引擎喂给 Isaac GR00T
DreamGen 与 GR00T-Dreams	NVIDIA GEAR Lab	2025	微调视频世界模型生成语言条件 rollout，用逆动力学打伪动作标签训练通用策略
GAIA-1 与 GAIA-2	Wayve	2023 到 2025	自动驾驶生成式世界模型，作神经模拟器批量产出安全关键场景数据
1X World Model	1X Technologies	2024	动作可控的生成式视频世界模型，在"比特世界"里评测人形机器人策略

JEPA 隐空间预测

系统	机构	年份	一句话
V-JEPA 2	Meta FAIR	2025	自监督视频世界模型，预测表征而非像素，在 100 万小时视频上训练
V-JEPA 2-AC	Meta FAIR	2025	动作条件版，用不到 62 小时 Droid 视频做到零样本图像目标抓取放置

操作领域视频预测与 VLA 融合

系统	机构	年份	一句话
UniPi	Google · MIT	2023	文本条件视频扩散先生成目标视频，再用逆动力学模型抽出可执行动作
GR-1 与 GR-2	ByteDance Research	2023 到 2024	在大规模视频上做未来帧预训练，再微调成同时预测图像与动作的模型
WorldVLA	Alibaba DAMO	2025	单个自回归模型在共享 token 上统一 VLA 与世界模型，两个分支互相增强

6. 求职与面试视角

在做世界模型的机构：Google DeepMind（Dreamer、MuZero、Genie、UniSim）、Meta FAIR（V-JEPA 2）、OpenAI（Sora）、NVIDIA（Cosmos、GEAR Lab）、Wayve（GAIA）、Tesla（World Simulator）、1X、智元、字节 ByteDance（GR 系列）、阿里 DAMO（WorldVLA）、腾讯（HunyuanWorld）、World Labs。

值得补的技能：

扩散与自回归两条视频生成路线
模型化 RL 与规划（CEM、MPPI、MCTS，以及 Dreamer 式想象训练）
自监督表征学习（JEPA、隐空间动力学）
大规模数据与仿真基建（合成数据管线、sim-to-real）

高频面试与八股：

生成式世界模型与预测式 JEPA 的区别，像素预测与隐空间预测各自取舍
Dreamer 与 MuZero 的差别：在想象里训 actor-critic，还是在学到的模型上做 MCTS
世界模型、仿真器、VLA 三者怎么区分又怎么配合
世界模型在 sim-to-real 里的数据引擎角色
Sora 算不算世界模型：帧逼真和因果、物理一致的差别
动作条件的几种做法：显式动作、隐动作、逆动力学补标签
长时一致性、记忆、实时交互与可控性

7. 延伸阅读

世界模型综述解读：把一份 500+ 篇的世界模型综述挂到本页框架上，给出各板块必读与阅读顺序
视觉-语言-动作大模型(VLA)：世界模型与 VLA 高度耦合，建议先把 VLA 主线读一遍
强化学习与控制：模型化 RL 一路的前置基础
仿真工具：对照手写仿真器，理解"学出来的模拟器"

路径选择

第一项目

课程入口

本体方向

部署与综合

大脑：智能决策

小脑：运动控制

感知系统

工程底座

世界模型(World Model)

1. 什么是世界模型

2. 三条技术路线

模型化 RL 与隐空间动力学

生成式视频世界模型与神经模拟器

JEPA 隐空间预测

3. 核心概念

4. 在具身智能中的四种用法

5. 代表性系统

模型化 RL 与隐空间动力学

生成式视频世界模型与神经模拟器

JEPA 隐空间预测

操作领域视频预测与 VLA 融合

6. 求职与面试视角

7. 延伸阅读

1. 什么是世界模型​

2. 三条技术路线​

模型化 RL 与隐空间动力学​

生成式视频世界模型与神经模拟器​

JEPA 隐空间预测​

3. 核心概念​

4. 在具身智能中的四种用法​

5. 代表性系统​

模型化 RL 与隐空间动力学​

生成式视频世界模型与神经模拟器​

JEPA 隐空间预测​

操作领域视频预测与 VLA 融合​

6. 求职与面试视角​

7. 延伸阅读​

1. 什么是世界模型

2. 三条技术路线

模型化 RL 与隐空间动力学

生成式视频世界模型与神经模拟器

JEPA 隐空间预测

3. 核心概念

4. 在具身智能中的四种用法

5. 代表性系统

模型化 RL 与隐空间动力学

生成式视频世界模型与神经模拟器

JEPA 隐空间预测

操作领域视频预测与 VLA 融合

6. 求职与面试视角

7. 延伸阅读