世界模型综述解读
Jiahua Dong 等人的综述《Learning to Model the World: A Survey of World Models in Artificial Intelligence》(TechRxiv, 2026) 配套维护着 Awesome-World-Models 清单:500+ 篇论文、跨度 2004 到 2026,按 12 个板块组织,是目前覆盖最全的一张世界模型地图。
世界模型导读搭的是「三条技术路线 + 四种具身用法」的认知框架,这篇综述提供的是论文级的细目。把两者对齐之后,读者就能从概念直接跳到该读的论文,并按一条顺序读下去。
1. 综述的定位与范围
这篇综述把世界模型拆成机制、应用、可信评测三层,对应 12 个板块:
- 机制(Part 1 到 4):强化学习世界模型、观测级生成式世界模型、隐空间世界模型、物体中心世界模型
- 应用(Part 5 到 9):机器人、自动驾驶、科学、虚拟游戏、GUI 智能体
- 可信与评测(Part 10 到 12):可解释与可信世界模型、基准、性能对比
它是 GitHub 上持续更新的活清单,2023 到 2026 的工作占绝大多数,把它当成一个随时回查的索引,而不是一次读完的静态文档。
2. 十二个板块对照三条路线
综述的 Part 1 到 4 大致对应导读里的三条机制路线,Part 5 到 9 是应用域,Part 10 到 12 是可信与评测:
| 综述板块 | 对应导读 | 代表论文 |
|---|---|---|
| Part 1 强化学习世界模型 | 路线 A 模型化 RL 与隐空间动力学 | PlaNet、Dreamer、MuZero、TD-MPC2 |
| Part 2 观测级生成式 | 路线 B 生成式视频世界模型 | Sora、iVideoGPT、GameNGen |
| Part 3 隐空间世界模型 | 路线 A 与 C 隐空间和 JEPA | I-JEPA、V-JEPA 2、DINO-WM |
| Part 4 物体中心 | 机制 表征视角 | Slot Attention、SlotFormer |
| Part 5 机器人 | 应用域 具身,对应四种用法 | PETS、RoboDreamer、Genie Envisioner |
| Part 6 自动驾驶 | 应用域 自动驾驶 | GAIA-1、Vista、DriveDreamer、Copilot4D |
| Part 7 科学 | 应用域 科学计算 | — |
| Part 8 虚拟游戏 | 应用域 游戏模拟 | GameNGen、Oasis、Matrix-Game |
| Part 9 GUI 智能体 | 应用域 图形界面智能体 | WMA、WebDreamer、WKM |
| Part 10 可解释与可信 | 方法论与机理分析 | General Agents Need World Models |
| Part 11 基准 | 评测数据与指标 | World-In-World、ACT-Bench |
| Part 12 性能对比 | 横向对比 | 性能对比汇总图 |
3. 各板块必读
挑选时优先与具身相关、且已被广泛复现或验证的工作。
机制层
- PlaNet (ICML 2019):提出 RSSM,在隐空间用 CEM 规划,模型化 RL 的起点。
- Dreamer 到 DreamerV3 (ICLR 2020 到 Nature 2025):完全在想象的隐空间里训 actor-critic;DreamerV3 用同一套超参横扫 150+ 任务。
- MuZero:学习奖励、价值、策略模型并用 MCTS 规划,不告知规则也达 AlphaZero 水平。
- TD-MPC2 (ICLR 2024):无解码器的隐式世界模型,单个 317M 模型覆盖 80 个任务。
- Sora (2024):把大规模视频生成当"物理世界模拟器",也是世界模型之争的焦点。
- iVideoGPT (NeurIPS 2024):自回归 token 化的可交互视频世界模型,支持动作条件预测、规划与模型化 RL。
- GameNGen (ICLR 2025):扩散模型实时当游戏引擎,把生成直接做成可玩模拟。
- I-JEPA 与 V-JEPA 2 (CVPR 2023 到 NeurIPS 2025):JEPA 路线代表,预测未来表征而非像素。
- DINO-WM (ICML 2025):在预训练视觉特征上建世界模型,实现零样本规划。
应用层
- PETS (NeurIPS 2018):概率集成动力学模型,少量交互即可做模型化控制,机器人方向的奠基工作。
- RoboDreamer (ICML 2024):组合式世界模型,让机器人想象没见过的指令组合。
- Genie Envisioner (2025):操作领域的统一世界基础平台,GE-Sim 作动作条件神经模拟器做闭环策略训练。
- GAIA-1 与 Vista (2023 到 2024):自动驾驶生成式世界模型,作神经模拟器批量产出安全关键场景。
- Oasis 与 Matrix-Game (2024 到 2025):完全生成式的可玩世界,每帧由键鼠输入实时合成。
机器人板块要和导读的四种用法对照着读:数据引擎看 Cosmos 与 DreamGen,规划看 V-JEPA 2-AC 与 UniPi,表征预训练看 GR-1 与 GR-2,策略评测看 1X World Model。
评测与可信
- Part 11 基准:World-In-World、ACT-Bench 等评测数据与指标,并梳理 MuJoCo、Isaac、Genesis 等物理引擎。
- General Agents Need World Models (ICML 2025):从理论角度论证"通用智能体为什么必须有世界模型",是高频被引的立论文章。
4. 面向求职的阅读顺序
- 机制打底:PlaNet 到 Dreamer 系列到 MuZero(路线 A),再读 V-JEPA 2(路线 C),最后 Sora 与 iVideoGPT(路线 B)。
- 具身落地:精读 Part 5 机器人,并回看导读的四种用法,把每种用法对上代表系统。
- 选一个应用域深入:按目标岗位二选一,自动驾驶看 GAIA 与 Vista,游戏与通用看 GameNGen 与 Genie。
- 评测与可信:用 Part 11 建立基准和指标的概念,用 Part 10 想清楚"为什么需要世界模型"。
- 面试前:用 Part 12 的性能对比图建立横向印象,能在面试里快速给出方法之间的取舍。
5. 原文与清单
- 综述论文:Learning to Model the World: A Survey of World Models in Artificial Intelligence(Dong et al., TechRxiv, 2026)
- 论文清单:Awesome-World-Models
- 概念框架:回到世界模型导读对照三条路线与四种用法