五模型总结、落地策略与课程展望
总结对比表
| 模型 | 主要指标 | 新增诊断指标 | 常见失效模式 | 诊断方法 |
|---|---|---|---|---|
| Dreamer(RSSM) | 重建 FID、奖励相关性 ρ | 想象轨迹熵(KL 崩塌预警) | 编码器退化、想象奖励失真、KL 崩塌 | FID 上升 → 降低编码器 LR;ρ 下降 → 增大潜在维度;熵趋零 → KL 退火/free bits |
| MuZero(隐式) | 价值准确度、MCTS 访问熵 | 表示稳定性(余弦相似度 > 0.95) | 价值估计偏差、假置信、表示不稳定 | 准确度低 → 重训奖励模型;熵判断需结合任务随机性;稳定性低 → 增大网络宽度或加对比损失 |
| TD-MPC(潜在 MPC) | 潜在一致性损失、规划效率 | latent space t-SNE 可视化(局部同构性) | 表示崩塌、短视规划 | 去掉 sg 损失更低 → 崩塌;协方差 rank 低 → 崩塌;效率低 → 增大 elite ratio |
| STORM(Transformer) | Token 预测损失、长时域 PSNR | FVD(I3D 特征,序列动态质量) | Teacher forcing 差距,自回归漂移 | PSNR 骤降 → 缩短上下文窗口;调试用 PSNR,策略评估用 FVD |
| 扩散世界模型(Diamond) | FVD、物理一致性、动作条件保真度 | 深度违规率(DepthAnything + DINO 自动评估) | 物体永久性丧失、3D 关系颠倒 | 深度违规率高 → 引入 3D 约束;保真度低 → 每层注入动作信息 |
三种务实的落地方式
根据风险偏好和系统成熟度,真实部署世界模型有三种递进的策略:
1. 旁路评估器(Shadow Evaluator)
真实 policy 照常执行,world model 在旁边独立预测未来,和真实发生的结果做对比,但不介入控制。这个方式用来系统地发现"模型在哪些物体类型、哪些动作范围、哪些接触状态上不可靠",建立可靠性地图(reliability map)。风险最低,适合刚开始部署的早期阶段。
2. 动作候选过滤器(Action Filter)
Policy 先提出多个候选动作(如 MPC 产生的 N 条轨迹或 Actor 采样的 K 个动作),World model 预测每个动作的后果,过滤掉两类动作:(a)预测后果明显危险(如预测到碰撞或物体掉落),(b)不确定性超过阈值(即 world model 对这个动作的后果没有把握)。最终执行剩余候选中奖励最高的动作。
3. 闭环规划器或训练环境(Closed-loop Planner / Imagined Training)
World model 进入 MPC 的 rollout 或 imagined rollout,直接用于在线规划或 policy 的离线训练。这是 Dreamer 和 TD-MPC 的标准用法。收益最大(可以在想象中探索大量状态,无需真实交互),风险也最大(model exploitation、安全漏洞、分布偏移都会直接影响 policy 质量)。只在世界模型经过充分验证(旁路评估器阶段通过)后才推荐使用。
课程总结
四讲走下来,每讲解决了一个具体问题:
L01: 内部仿真与历史脉络 从 Craik 的"心理模型"(1943)出发,历经 1950s RNN 萌芽、2018 Ha&Schmidhuber 的 World Models 论文、2019 Dreamer 的端到端成熟,到 2023 JEPA 的现代范式,建立了世界模型演化的历史直觉。
L02: 观测编码与潜在动力学 Part A 实现了 VAE 编码器:CNN 将 64×64 图像压缩为潜在向量 z,ELBO 损失(重建项 + KL 项)约束潜在空间。Part B 从 GRU 出发,逐步演进到 MDN-RNN,最终到达 RSSM,确定性状态 h_t + 随机状态 z_t 的双轨架构成为 Dreamer 的基石。
L03: 架构模式、学习范式与规划方法 以你在 P02 实现的 RSSM 作为 RNN 基线,横向对比了七大架构族(RNN/RSSM、Transformer、Diffusion、JEPA、RWM、Genie、WAM),厘清了四种学习范式,并梳理了 CEM-MPC → 潜在 Actor-Critic → TD-MPC 的规划链路。
L04: 按模型评估(本讲) 评估不是"打分"而是"诊断"。每种架构有其专属的失效模式,需要对症的指标才能发现问题。潜在漂移是所有世界模型共同面临的长时域挑战,缓解它需要短时域训练、目标网络和持续的真实数据补充。
从理论到部署:展望
世界模型正在成为具身智能的关键基础设施,不论是游戏 AI(MuZero 征服围棋)、机器人操作(Dreamer 学习抓取)还是自动驾驶(Wayve 的 GAIA),世界模型都在承担"内化物理世界规律、减少真实交互需求"的核心角色。
但这门课所覆盖的内容,更多是实验室里的世界模型。从实验室到真实部署,还有很多未解决的工程问题:如何在分布外状态下安全降级?如何把 uncertainty 有意义地传递给控制器?如何在在线部署中持续更新世界模型而不引入灾难性遗忘?
这些问题没有标准答案,但你现在已经有了正确提问所需要的工具:理解架构、诊断失效、选择指标。这正是本课程想要传递的核心能力,不是告诉你什么是正确的世界模型,而是教你如何判断一个世界模型在哪里是错的。
下一讲
L05 不再有代码,只有争论。语言是世界模型的"鸦片"还是必要工具?LLM 是 Bitter Lesson 的胜利还是背叛?AGI 是目标还是伪命题?这些问题没有标准答案,把最锋利的论点摆出来,留给你自己判断。
完成 P05:构建一个并排展示 Dreamer / TD-MPC / STORM 所有指标的评估仪表盘,将本讲的理论落地为可交互的实验证据。仪表盘应当覆盖:重建 FID、奖励相关性、一致性损失、Token 预测损失、长时域 PSNR、FVD,以及可视化的潜在漂移曲线。