Skip to content

五模型总结、落地策略与课程展望

总结对比表

模型主要指标新增诊断指标常见失效模式诊断方法
Dreamer(RSSM)重建 FID、奖励相关性 ρ想象轨迹熵(KL 崩塌预警)编码器退化、想象奖励失真、KL 崩塌FID 上升 → 降低编码器 LR;ρ 下降 → 增大潜在维度;熵趋零 → KL 退火/free bits
MuZero(隐式)价值准确度、MCTS 访问熵表示稳定性(余弦相似度 > 0.95)价值估计偏差、假置信、表示不稳定准确度低 → 重训奖励模型;熵判断需结合任务随机性;稳定性低 → 增大网络宽度或加对比损失
TD-MPC(潜在 MPC)潜在一致性损失、规划效率latent space t-SNE 可视化(局部同构性)表示崩塌、短视规划去掉 sg 损失更低 → 崩塌;协方差 rank 低 → 崩塌;效率低 → 增大 elite ratio
STORM(Transformer)Token 预测损失、长时域 PSNRFVD(I3D 特征,序列动态质量)Teacher forcing 差距,自回归漂移PSNR 骤降 → 缩短上下文窗口;调试用 PSNR,策略评估用 FVD
扩散世界模型(Diamond)FVD、物理一致性、动作条件保真度深度违规率(DepthAnything + DINO 自动评估)物体永久性丧失、3D 关系颠倒深度违规率高 → 引入 3D 约束;保真度低 → 每层注入动作信息

三种务实的落地方式

根据风险偏好和系统成熟度,真实部署世界模型有三种递进的策略:

1. 旁路评估器(Shadow Evaluator)

真实 policy 照常执行,world model 在旁边独立预测未来,和真实发生的结果做对比,但不介入控制。这个方式用来系统地发现"模型在哪些物体类型、哪些动作范围、哪些接触状态上不可靠",建立可靠性地图(reliability map)。风险最低,适合刚开始部署的早期阶段。

2. 动作候选过滤器(Action Filter)

Policy 先提出多个候选动作(如 MPC 产生的 N 条轨迹或 Actor 采样的 K 个动作),World model 预测每个动作的后果,过滤掉两类动作:(a)预测后果明显危险(如预测到碰撞或物体掉落),(b)不确定性超过阈值(即 world model 对这个动作的后果没有把握)。最终执行剩余候选中奖励最高的动作。

3. 闭环规划器或训练环境(Closed-loop Planner / Imagined Training)

World model 进入 MPC 的 rollout 或 imagined rollout,直接用于在线规划或 policy 的离线训练。这是 Dreamer 和 TD-MPC 的标准用法。收益最大(可以在想象中探索大量状态,无需真实交互),风险也最大(model exploitation、安全漏洞、分布偏移都会直接影响 policy 质量)。只在世界模型经过充分验证(旁路评估器阶段通过)后才推荐使用。


课程总结

四讲走下来,每讲解决了一个具体问题:

L01: 内部仿真与历史脉络 从 Craik 的"心理模型"(1943)出发,历经 1950s RNN 萌芽、2018 Ha&Schmidhuber 的 World Models 论文、2019 Dreamer 的端到端成熟,到 2023 JEPA 的现代范式,建立了世界模型演化的历史直觉。

L02: 观测编码与潜在动力学 Part A 实现了 VAE 编码器:CNN 将 64×64 图像压缩为潜在向量 z,ELBO 损失(重建项 + KL 项)约束潜在空间。Part B 从 GRU 出发,逐步演进到 MDN-RNN,最终到达 RSSM,确定性状态 h_t + 随机状态 z_t 的双轨架构成为 Dreamer 的基石。

L03: 架构模式、学习范式与规划方法 以你在 P02 实现的 RSSM 作为 RNN 基线,横向对比了七大架构族(RNN/RSSM、Transformer、Diffusion、JEPA、RWM、Genie、WAM),厘清了四种学习范式,并梳理了 CEM-MPC → 潜在 Actor-Critic → TD-MPC 的规划链路。

L04: 按模型评估(本讲) 评估不是"打分"而是"诊断"。每种架构有其专属的失效模式,需要对症的指标才能发现问题。潜在漂移是所有世界模型共同面临的长时域挑战,缓解它需要短时域训练、目标网络和持续的真实数据补充。

从理论到部署:展望

世界模型正在成为具身智能的关键基础设施,不论是游戏 AI(MuZero 征服围棋)、机器人操作(Dreamer 学习抓取)还是自动驾驶(Wayve 的 GAIA),世界模型都在承担"内化物理世界规律、减少真实交互需求"的核心角色。

但这门课所覆盖的内容,更多是实验室里的世界模型。从实验室到真实部署,还有很多未解决的工程问题:如何在分布外状态下安全降级?如何把 uncertainty 有意义地传递给控制器?如何在在线部署中持续更新世界模型而不引入灾难性遗忘?

这些问题没有标准答案,但你现在已经有了正确提问所需要的工具:理解架构、诊断失效、选择指标。这正是本课程想要传递的核心能力,不是告诉你什么是正确的世界模型,而是教你如何判断一个世界模型在哪里是错的。


下一讲

L05 不再有代码,只有争论。语言是世界模型的"鸦片"还是必要工具?LLM 是 Bitter Lesson 的胜利还是背叛?AGI 是目标还是伪命题?这些问题没有标准答案,把最锋利的论点摆出来,留给你自己判断。

完成 P05:构建一个并排展示 Dreamer / TD-MPC / STORM 所有指标的评估仪表盘,将本讲的理论落地为可交互的实验证据。仪表盘应当覆盖:重建 FID、奖励相关性、一致性损失、Token 预测损失、长时域 PSNR、FVD,以及可视化的潜在漂移曲线。