世界模型综述解读

Jiahua Dong 等人的综述《Learning to Model the World: A Survey of World Models in Artificial Intelligence》(TechRxiv, 2026) 配套维护着 Awesome-World-Models 清单：500+ 篇论文、跨度 2004 到 2026，按 12 个板块组织，是目前覆盖最全的一张世界模型地图。

世界模型导读搭的是「三条技术路线 + 四种具身用法」的认知框架，这篇综述提供的是论文级的细目。把两者对齐之后，读者就能从概念直接跳到该读的论文，并按一条顺序读下去。

1. 综述的定位与范围

这篇综述把世界模型拆成机制、应用、可信评测三层，对应 12 个板块：

机制(Part 1 到 4)：强化学习世界模型、观测级生成式世界模型、隐空间世界模型、物体中心世界模型
应用(Part 5 到 9)：机器人、自动驾驶、科学、虚拟游戏、GUI 智能体
可信与评测(Part 10 到 12)：可解释与可信世界模型、基准、性能对比

它是 GitHub 上持续更新的活清单，2023 到 2026 的工作占绝大多数，把它当成一个随时回查的索引，而不是一次读完的静态文档。

2. 十二个板块对照三条路线

综述的 Part 1 到 4 大致对应导读里的三条机制路线，Part 5 到 9 是应用域，Part 10 到 12 是可信与评测：

综述板块	对应导读	代表论文
Part 1 强化学习世界模型	路线 A 模型化 RL 与隐空间动力学	PlaNet、Dreamer、MuZero、TD-MPC2
Part 2 观测级生成式	路线 B 生成式视频世界模型	Sora、iVideoGPT、GameNGen
Part 3 隐空间世界模型	路线 A 与 C 隐空间和 JEPA	I-JEPA、V-JEPA 2、DINO-WM
Part 4 物体中心	机制表征视角	Slot Attention、SlotFormer
Part 5 机器人	应用域具身，对应四种用法	PETS、RoboDreamer、Genie Envisioner
Part 6 自动驾驶	应用域自动驾驶	GAIA-1、Vista、DriveDreamer、Copilot4D
Part 7 科学	应用域科学计算	—
Part 8 虚拟游戏	应用域游戏模拟	GameNGen、Oasis、Matrix-Game
Part 9 GUI 智能体	应用域图形界面智能体	WMA、WebDreamer、WKM
Part 10 可解释与可信	方法论与机理分析	General Agents Need World Models
Part 11 基准	评测数据与指标	World-In-World、ACT-Bench
Part 12 性能对比	横向对比	性能对比汇总图

3. 各板块必读

挑选时优先与具身相关、且已被广泛复现或验证的工作。

机制层

PlaNet (ICML 2019)：提出 RSSM，在隐空间用 CEM 规划，模型化 RL 的起点。
Dreamer 到 DreamerV3 (ICLR 2020 到 Nature 2025)：完全在想象的隐空间里训 actor-critic；DreamerV3 用同一套超参横扫 150+ 任务。
MuZero：学习奖励、价值、策略模型并用 MCTS 规划，不告知规则也达 AlphaZero 水平。
TD-MPC2 (ICLR 2024)：无解码器的隐式世界模型，单个 317M 模型覆盖 80 个任务。
Sora (2024)：把大规模视频生成当"物理世界模拟器"，也是世界模型之争的焦点。
iVideoGPT (NeurIPS 2024)：自回归 token 化的可交互视频世界模型，支持动作条件预测、规划与模型化 RL。
GameNGen (ICLR 2025)：扩散模型实时当游戏引擎，把生成直接做成可玩模拟。
I-JEPA 与 V-JEPA 2 (CVPR 2023 到 NeurIPS 2025)：JEPA 路线代表，预测未来表征而非像素。
DINO-WM (ICML 2025)：在预训练视觉特征上建世界模型，实现零样本规划。

应用层

PETS (NeurIPS 2018)：概率集成动力学模型，少量交互即可做模型化控制，机器人方向的奠基工作。
RoboDreamer (ICML 2024)：组合式世界模型，让机器人想象没见过的指令组合。
Genie Envisioner (2025)：操作领域的统一世界基础平台，GE-Sim 作动作条件神经模拟器做闭环策略训练。
GAIA-1 与 Vista (2023 到 2024)：自动驾驶生成式世界模型，作神经模拟器批量产出安全关键场景。
Oasis 与 Matrix-Game (2024 到 2025)：完全生成式的可玩世界，每帧由键鼠输入实时合成。

机器人板块要和导读的四种用法对照着读：数据引擎看 Cosmos 与 DreamGen，规划看 V-JEPA 2-AC 与 UniPi，表征预训练看 GR-1 与 GR-2，策略评测看 1X World Model。

评测与可信

Part 11 基准：World-In-World、ACT-Bench 等评测数据与指标，并梳理 MuJoCo、Isaac、Genesis 等物理引擎。
General Agents Need World Models (ICML 2025)：从理论角度论证"通用智能体为什么必须有世界模型"，是高频被引的立论文章。

4. 面向求职的阅读顺序

机制打底：PlaNet 到 Dreamer 系列到 MuZero(路线 A)，再读 V-JEPA 2(路线 C)，最后 Sora 与 iVideoGPT(路线 B)。
具身落地：精读 Part 5 机器人，并回看导读的四种用法，把每种用法对上代表系统。
选一个应用域深入：按目标岗位二选一，自动驾驶看 GAIA 与 Vista，游戏与通用看 GameNGen 与 Genie。
评测与可信：用 Part 11 建立基准和指标的概念，用 Part 10 想清楚"为什么需要世界模型"。
面试前：用 Part 12 的性能对比图建立横向印象，能在面试里快速给出方法之间的取舍。

5. 原文与清单

综述论文：Learning to Model the World: A Survey of World Models in Artificial Intelligence(Dong et al., TechRxiv, 2026)
论文清单：Awesome-World-Models
概念框架：回到世界模型导读对照三条路线与四种用法

路径选择

第一项目

课程入口

本体方向

部署与综合

大脑：智能决策

小脑：运动控制

感知系统

工程底座

世界模型综述解读

1. 综述的定位与范围

2. 十二个板块对照三条路线

3. 各板块必读

机制层

应用层

评测与可信

4. 面向求职的阅读顺序

5. 原文与清单

1. 综述的定位与范围​

2. 十二个板块对照三条路线​

3. 各板块必读​

机制层​

应用层​

评测与可信​

4. 面向求职的阅读顺序​

5. 原文与清单​

1. 综述的定位与范围

2. 十二个板块对照三条路线

3. 各板块必读

机制层

应用层

评测与可信

4. 面向求职的阅读顺序

5. 原文与清单