跳到主要内容

世界模型综述解读

Jiahua Dong 等人的综述《Learning to Model the World: A Survey of World Models in Artificial Intelligence》(TechRxiv, 2026) 配套维护着 Awesome-World-Models 清单:500+ 篇论文、跨度 2004 到 2026,按 12 个板块组织,是目前覆盖最全的一张世界模型地图。

世界模型导读搭的是「三条技术路线 + 四种具身用法」的认知框架,这篇综述提供的是论文级的细目。把两者对齐之后,读者就能从概念直接跳到该读的论文,并按一条顺序读下去。

1. 综述的定位与范围

这篇综述把世界模型拆成机制、应用、可信评测三层,对应 12 个板块:

  • 机制(Part 1 到 4):强化学习世界模型、观测级生成式世界模型、隐空间世界模型、物体中心世界模型
  • 应用(Part 5 到 9):机器人、自动驾驶、科学、虚拟游戏、GUI 智能体
  • 可信与评测(Part 10 到 12):可解释与可信世界模型、基准、性能对比

它是 GitHub 上持续更新的活清单,2023 到 2026 的工作占绝大多数,把它当成一个随时回查的索引,而不是一次读完的静态文档。

2. 十二个板块对照三条路线

综述的 Part 1 到 4 大致对应导读里的三条机制路线,Part 5 到 9 是应用域,Part 10 到 12 是可信与评测:

综述板块对应导读代表论文
Part 1 强化学习世界模型路线 A 模型化 RL 与隐空间动力学PlaNet、Dreamer、MuZero、TD-MPC2
Part 2 观测级生成式路线 B 生成式视频世界模型Sora、iVideoGPT、GameNGen
Part 3 隐空间世界模型路线 A 与 C 隐空间和 JEPAI-JEPA、V-JEPA 2、DINO-WM
Part 4 物体中心机制 表征视角Slot Attention、SlotFormer
Part 5 机器人应用域 具身,对应四种用法PETS、RoboDreamer、Genie Envisioner
Part 6 自动驾驶应用域 自动驾驶GAIA-1、Vista、DriveDreamer、Copilot4D
Part 7 科学应用域 科学计算
Part 8 虚拟游戏应用域 游戏模拟GameNGen、Oasis、Matrix-Game
Part 9 GUI 智能体应用域 图形界面智能体WMA、WebDreamer、WKM
Part 10 可解释与可信方法论与机理分析General Agents Need World Models
Part 11 基准评测数据与指标World-In-World、ACT-Bench
Part 12 性能对比横向对比性能对比汇总图

3. 各板块必读

挑选时优先与具身相关、且已被广泛复现或验证的工作。

机制层

  • PlaNet (ICML 2019):提出 RSSM,在隐空间用 CEM 规划,模型化 RL 的起点。
  • Dreamer 到 DreamerV3 (ICLR 2020 到 Nature 2025):完全在想象的隐空间里训 actor-critic;DreamerV3 用同一套超参横扫 150+ 任务。
  • MuZero:学习奖励、价值、策略模型并用 MCTS 规划,不告知规则也达 AlphaZero 水平。
  • TD-MPC2 (ICLR 2024):无解码器的隐式世界模型,单个 317M 模型覆盖 80 个任务。
  • Sora (2024):把大规模视频生成当"物理世界模拟器",也是世界模型之争的焦点。
  • iVideoGPT (NeurIPS 2024):自回归 token 化的可交互视频世界模型,支持动作条件预测、规划与模型化 RL。
  • GameNGen (ICLR 2025):扩散模型实时当游戏引擎,把生成直接做成可玩模拟。
  • I-JEPA 与 V-JEPA 2 (CVPR 2023 到 NeurIPS 2025):JEPA 路线代表,预测未来表征而非像素。
  • DINO-WM (ICML 2025):在预训练视觉特征上建世界模型,实现零样本规划。

应用层

  • PETS (NeurIPS 2018):概率集成动力学模型,少量交互即可做模型化控制,机器人方向的奠基工作。
  • RoboDreamer (ICML 2024):组合式世界模型,让机器人想象没见过的指令组合。
  • Genie Envisioner (2025):操作领域的统一世界基础平台,GE-Sim 作动作条件神经模拟器做闭环策略训练。
  • GAIA-1 与 Vista (2023 到 2024):自动驾驶生成式世界模型,作神经模拟器批量产出安全关键场景。
  • Oasis 与 Matrix-Game (2024 到 2025):完全生成式的可玩世界,每帧由键鼠输入实时合成。

机器人板块要和导读的四种用法对照着读:数据引擎看 Cosmos 与 DreamGen,规划看 V-JEPA 2-AC 与 UniPi,表征预训练看 GR-1 与 GR-2,策略评测看 1X World Model。

评测与可信

  • Part 11 基准:World-In-World、ACT-Bench 等评测数据与指标,并梳理 MuJoCo、Isaac、Genesis 等物理引擎。
  • General Agents Need World Models (ICML 2025):从理论角度论证"通用智能体为什么必须有世界模型",是高频被引的立论文章。

4. 面向求职的阅读顺序

  1. 机制打底:PlaNet 到 Dreamer 系列到 MuZero(路线 A),再读 V-JEPA 2(路线 C),最后 Sora 与 iVideoGPT(路线 B)。
  2. 具身落地:精读 Part 5 机器人,并回看导读的四种用法,把每种用法对上代表系统。
  3. 选一个应用域深入:按目标岗位二选一,自动驾驶看 GAIA 与 Vista,游戏与通用看 GameNGen 与 Genie。
  4. 评测与可信:用 Part 11 建立基准和指标的概念,用 Part 10 想清楚"为什么需要世界模型"。
  5. 面试前:用 Part 12 的性能对比图建立横向印象,能在面试里快速给出方法之间的取舍。

5. 原文与清单